جامعة البصرة تناقش رسالة ماجستير لتقليل الابعاد لتصميم نظام لتصنيف النصوص الاخبارية بالاعتماد على نهجي تصفيةN-gram و WordNet
تاريخ النشر : 2020-10-13 07:04:44
عدد المشاهدات : 161
تاريخ النشر : 2020-10-13 07:04:44
عدد المشاهدات : 161
ناقشت كلية التربية للعلوم الصرفة في قسم علوم الحاسبات في جامعة البصرة رسالة بعنوان (تقليل الابعاد لتصنيف النصوص الإخبارية اعتماداً على نهجي تصفية N-gram و WordNet )
وتضمنت الرسالة التي قدمتها الباحثة (زينب مهدي محمد جواد ) تصميم نظام يعتمد على تقليل الابعاد الناتج عن النمو المتزايد للبيانات النصية. بالإضافة الى تحسين نتائج التصنيف من خلال دمج ثلاث مصنفات للحصول على افضل تنبؤ.
تتم عملية تقليل الصفات باستخدام طريقتين: الاولى تتم من خلال ايجاد الترابط بين الكلمات التي تتواجد بشكل متسلسل وذلك من خلال نهج الـ N_gram الذي يعتمد على ثلاث انواع هي tri_gram و bi_gram و uni_gram من خلال ايجاد الصفات الاكثر وزنا لأنها تعطي معنى دلالي اكثر من الكلمات الاقل وزنا. أما الطريقة الثانية فتقوم بتوحيد الكلمات المترادفة من خلال استخدام نهج الـ WordNet الذي يجد الترادف بين الكلمات , ثم يقوم النظام المقترح بتكوين قاموس خاص بكل قاعدة بيانات لتوحيد المرادفات الى كلمة واحدة, حيث يستخدم هذا القاموس لتوحيد الصفات المستخلصة وبذلك يقلل عددها.
اخيرا, تم استخدام ثلاث مصنفات هي: Naïve Bayes و Support Vector Machine وK-Nearest Neighbor حيث يقوم النظام المقترح بدمج النتائج لكل مصنف باستخدام الاحتماليات الناتجة من كل مصنف باستخدام الـ soft Combination لإيجاد التنبؤ النهائي لنظام التصنيف, تم تطبيق النظام على أربعة مجموعات بيانات: 20-Newsgroups وReuters-21578 للغة الإنجليزية وWatan-2004 وKhalaf-2018 للغة العربية.