MIR-1st-Proj-Sample-Solution.pdf

‫باسمه تعالی‬
‫پروژهی اول‬
‫بازیابی پیشرفتهی اطالعات‬
‫بررسی مدلهای مختلف‬
‫بازیابی اطالعات‬
‫سید امین سیدی ‪۸۲۱۹۵۴۰۸‬‬
‫کیان میرجاللی ‪۸۲۱۹۶۳۰۷‬‬
‫مقدمه‬
‫در این مستند قصد داریم به بررسی انواع مدلهای بازیابی اطالعات بپردازیم‪ .‬برای این کار به‬
‫ارزیابی ‪ ۳‬مدل اصلی یعنی مدل مجموعهای‪ ،‬مدل برداری و مدل احتمالی میپردازیم‪ .‬برای ارزیابی این‬
‫مدلها آنها را پیادهسازی کرده و بر روی مجموعهای از مستندات آماده شده قبلی اجرا کردیم‪ .‬خالصه‬
‫تحلیل و نتیجه بررسیها اکنون در مقابل شماست‪ .‬برای ارزیابیها از معیارهای دقت و یادآوری همچنین‬
‫میانگین دقت در مستندات مربوط بازیابی شده‪ ،‬میزان دقت در ‪ R‬مستند بازیابی شده اول و میانگین‬
‫هارمونیک استفاده میکنیم‪.‬‬
‫قبل از شروع مرحله بازیابی ابتدا کلمات ایست را حذف میکنیم‪ .‬سپس عمل اندیسگذاری را‬
‫انجام داده و اطالعات الزم برای بازیابی را بدست میآوریم‪ .‬برای ارزیابی از مجموعهی دادههای ‪Time‬‬
‫استفاده شدهاست که شامل ‪ ۸۲‬پرسش است و مستندات مربوط به هر پرسش و همچنین کلمات ایست‬
‫را نیز شامل میشود‪ .‬کل مجموعه شامل ‪ ۴۲۳‬مستند است که عملیات بازیابی باید از بین آنها انجام‬
‫شود‪.‬‬
‫بخش دوم شامل کلیاتی از پیادهسازی است‪ .‬در بخش سوم به معرفی و بررسی جداگانهی هر‬
‫مدل میپردازیم و در بخش چهارم مقایسهای اجمالی بین مدلهای مذکور انجام میدهیم‪.‬‬
‫‪۱‬‬
‫کلیات پیادهسازی‬
‫به ازای هر الگوریتم بازیابی یک برنامه نوشته شده است‪ .‬همهی این برنامهها از کتابخانهی‬
‫‪ shared‬برای انجام فعالیتهای مشترک خود استفاده میکنند‪ .‬این کتابخانه آدرس فایلها و شاخههای‬
‫مورد نیاز خود را از فایل ‪ config.txt‬میخواند‪ .‬ساختار این فایل به این شکل است‪:‬‬
‫سطر اول‬
‫آدرس شاخهی حاوی مستندات‬
‫سطر دوم‬
‫آدرس شاخهی حاوی پرسوجوها‬
‫سطر سوم‬
‫آدرس فایل حاوی پاسخهای صحیح به پرسشها‬
‫سطر چهارم‬
‫آدرس فایل حاوی کلمات ایست‬
‫سطر پنجم‬
‫آدرس شاخهی نوشتن نتایج بازیابیها‬
‫سطر ششم‬
‫آدرس شاخهی نوشتن نتایج تحلیل بازیابیها‬
‫فایل ‪ makefile‬برای کامپایل مکانیزهی برنامهها در کنارشان قرار داده شده است و برنامهی‬
‫‪ analyzer‬برای تحلیل نتایج الگوریتمهای بازیابی پس از اجرایشان به کار میرود‪.‬‬
‫کتابخانهی ‪ shared‬بخشهای محوری زیادی را در خود دارد که در این جا به بیان قسمتهای‬
‫مهم آن میپردازیم‪:‬‬
‫• ساختار ‪ : Document‬از این ساختار برای نگهداری اطالعات مستندات استفاده‬
‫میشود‪ .‬رشتهی ‪ name‬در این ساختار برای نگهداری نام مستندات است‪ .‬در بردار‬
‫‪ ra‬از هر شیء ‪ Document‬جفتهایی نگه داشته میشوند که مشخص میکنند‬
‫چه کلمهای و چند بار‪ ،‬در آن شیء وجود دارد‪ .‬دستور )(‪tf ، evaluateTFs‬ها را‬
‫در شیء مقداردهی میکند و )‪ getTF(w‬مقدار ‪ tf‬را برای کلمهی ‪ w‬در آن‬
‫مستند باز میگرداند‪.‬‬
‫• بردار ‪ : doc‬از ساختار ‪ Document‬است و همهی مستندات در این بردار نگهداری‬
‫میشوند‪.‬‬
‫• ساختار ‪ : Query‬این ساختار برای نگهداری اطالعات پرسشهاست و تمامی خواص‬
‫ساختار ‪ Document‬را نیز دارا میباشد‪ .‬لذا از همان ساختار به ارث برده شده و‬
‫تمامی امکانات آن را دارد‪ .‬عالوه بر آنها‪ ،‬فیلدهای دیگری نیز اضافه شدهاند‪.‬‬
‫مجموعه مستندات پاسخ اصلی در ‪ relevants‬قرار دارد‪ .‬الگوریتمهای بازیابی نتایج‬
‫خود را در فیلد ‪ retrievals‬از این ساختار میریزند‪ .‬پارامترهای تحلیلی ‪، recall‬‬
‫‪ precision‬و ‪ precisionAtSeenRelativeDocs‬نیز به شکل مناسب موجود‬
‫میباشند‪.‬‬
‫‪۲‬‬
‫• بردار ‪ : query‬از ساختار ‪ Query‬است و همهی پرسشها در این بردار قرار‬
‫میگیرند‪.‬‬
‫• ساختار ‪ : Word‬این ساختار برای نگهداری اطالعات کلمات است‪ .‬خود کلمه در‬
‫فیلد ‪ value‬قرار میگیرد‪ .‬بردار ‪ rf‬هر کلمه‪ ،‬شامل جفتهایی است که مشخص‬
‫میکنند آن کلمه در چه مستندی و چند بار ظاهر شده است و کار همان‬
‫‪ Reverse Index File‬را انجام میدهد‪ .‬دستور )(‪ idf ، evaluateIDF‬را برای‬
‫شیء مقداردهی میکند و )(‪ getIDF‬مقدار ‪ idf‬آن کلمه را باز میگرداند‪.‬‬
‫• بردار ‪ : word‬از ساختار ‪ Word‬است و همهی کلمات )حتی کلماتی که در‬
‫پرسشها هستند( در این بردار قرار میگیرند‪.‬‬
‫• مجموعهی ‪ : stopwords‬شامل رشتههایی است که کلمات ایست میباشند‪.‬‬
‫• دستور ‪ : initialize‬فایل ‪ config.txt‬را میخواند‪ ،‬مستندات و پرسشها را‬
‫شناسایی میکند و بعضی متغیرها را مقداردهی اولیه میکند‪.‬‬
‫‪۳‬‬
‫معرفی و ارزیابی مدلها‬
‫مدل مجموعهای‪:‬‬
‫این روش از عملگرهای منطقی برای بازیابی مستندات استفاده میکند‪.‬‬
‫مدل »و« منطقی‪:‬‬
‫این روش تنها مستنداتی را بازیابی میکند که همهی کلمات پرسش مربوطه را شامل شوند‪.‬‬
‫همانگونه که انتظار میرود این روش قادر به انجام رتبهگذاری بر روی مستندات بازیابی شده نیست‪ .‬از‬
‫طرف دیگر این روش اجازه کوچکترین تفاوت بین پرسش انجام شده و مستند بازیابی شده را نمیدهد‬
‫و همین امر باعث میشود که تعداد مستندات بسیار کمی توسط این روش بازیابی شوند‪ .‬به همین دلیل‬
‫این روش از دقت بسیار باال ولی در مقابل از یادآوری بسیار کمی برخوردار است‪ .‬در زیر میتوانید میزان‬
‫دقت و یادآوری را برای این روش مشاهد کنید‪ .‬چون این روش هیچگونه رتبهگذاری بر روی مستندات‬
‫انجام نمیدهد نمیتوان نمودارهای دقت و یادآوری برای آن رسم کرد‪.‬‬
‫درصد دقت‪۹۵٫۲ :‬‬
‫درصد یادآوری‪۳٫۳ :‬‬
‫مدل »یا« منطقی‪:‬‬
‫این روش همه مستنداتی را بازیابی میکند که حداقل یکی از کلمات پرسش مطرح شده در آنها‬
‫باشد‪ .‬این روش نیز مانند حالت قبل قادر به انجام رتبهگذاری بر روی مستندات بازیابی شده نیست‪.‬‬
‫همان گونه که انتظار میرود این روش تعداد مستندات بسیار زیادی را در جواب هر پرسش پیدا میکند‬
‫و به همین خاطر از یادآوری بسیار باالیی برخوردار است ولی در مقابل دقت آن بسیار پایین است‪ .‬در‬
‫زیر میتوانید اطالعات مربوط به این مدل را مشاهده کنید‪.‬‬
‫درصد دقت‪۲٫۴ :‬‬
‫درصد یادآوری‪۹۷٫۸ :‬‬
‫همان گونه که مشاهده کردید روشهای مربوط به مدل مجموعهای قادر به انجام رتبهگذاری‬
‫برای مستندات نیستند و به همین خاطر برای بازیابی اطالعات مناسب نیستند و استفاده از آنها بیشتر‬
‫برای بازیابی داده مفید است‪.‬‬
‫‪۴‬‬
‫مدل برداری‬
‫در این روش برای هر مستند یک بردار محاسبه میکنیم‪ .‬برای هر پرسش نیز به طریق مشابه‬
‫برداری بدست میآوریم‪ .‬از زاویهی تشکیل شده بین دو بردار میتوانیم برای میزان ارتباط بین پرسش و‬
‫مستند استفاده کنیم‪ .‬در زیر میتوانید نمودارها و اطالعات بدست آمده مربوط به این روش را برای ‪۲۰‬‬
‫مستند اول بازیابی شده مشاهده کنید‪.‬‬
‫درصد دقت‪۱۵٫۴ :‬‬
‫درصد یادآوری‪۸۴٫۱ :‬‬
‫میانگین دقت در مستندات مرتبط‪۴۴٫۲ :‬‬
‫‪Vectorized Model‬‬
‫‪120‬‬
‫‪100‬‬
‫‪80‬‬
‫‪Precision‬‬
‫‪Series1‬‬
‫)‪Poly. (Series1‬‬
‫‪60‬‬
‫‪40‬‬
‫‪20‬‬
‫‪0‬‬
‫‪120‬‬
‫‪100‬‬
‫‪60‬‬
‫‪80‬‬
‫‪40‬‬
‫‪20‬‬
‫‪0‬‬
‫‪Recall‬‬
‫مدل احتمالی‬
‫پایه و مبنای این روش همان گونه که از اسم آن پیداست احتمال است‪ .‬در این روش برای هر‬
‫مستند احتمال این که در مجموعه جواب باشد را تخمین میزنیم و با استفاده از محاسباتی سعی‬
‫میکنیم جوابی نزدیک به مجموعهی جواب بدست آوریم‪.‬‬
‫این روش میتواند یک مرحلهای یا چند مرحلهای باشد‪ .‬اگر روش بیش از یک مرحله داشته باشد‬
‫در هر مرحله سعی میکنیم از مجموعه مستندات بازیابی شده در مرحله قبل برای تخمین احتمال این‬
‫‪۵‬‬
‫که یک کلمه در مستندات جواب باشد استفاده کنیم‪ .‬همچنین این روش این قابلیت را دارد که از کاربر‬
‫ال کاربر در هر مرحله‬
‫اطالعاتی بگیرد و با توجه به آن اطالعات سعی کند بازیابی بهتری انجام دهد‪ .‬مث ً‬
‫تعیین میکند که بین ‪ R‬مستند بازیابی شدهی اول کدام مستندات واقع ًا مربوط بودهاند‪ .‬به این ترتیب‬
‫میتوان از این اطالعات در بازیابی برای مرحلهی بعد استفاده کرد‪.‬‬
‫برای بررسی این مدل ‪ ۶‬حالت را در نظر میگیریم‪ .‬حالت اول حالتی است که تنها یک مرحله‬
‫بازیابی انجام میشود و هیچ اطالعی از کاربر نمیگیریم‪ .‬در حالت دوم ‪ ۳‬مرحله انجام میشود و در‬
‫حالت سوم نیز ‪ ۳‬مرحله عمل بازیابی را انجام میدهیم با این تفاوت که از کاربر اطالعات میگیریم‪.‬‬
‫حالتهای چهارم تا ششم به ترتیب مانند حالتهای اول تا سوم هستند با این تفاوت که برای میزان‬
‫شباهت عالوه بر احتمال از پارامترهای ‪ tf‬و ‪ idf‬نیز استفاده میکنیم‪.‬‬
‫حالت اول)تک مرحلهای ساده(‪:‬‬
‫این اطالعات بدست آمده از ‪ ۲۰‬پاسخ اول برای ‪ ۸۲‬پرسش میباشد‪.‬‬
‫درصد دقت‪۱۵٫۶ :‬‬
‫درصد یادآوری‪۸۳٫۴ :‬‬
‫میانگین دقت در مستندات مرتبط‪۳۹٫۹ :‬‬
‫‪Probabilistic-1‬‬
‫‪120‬‬
‫‪100‬‬
‫‪80‬‬
‫‪40‬‬
‫‪20‬‬
‫‪0‬‬
‫‪120‬‬
‫‪100‬‬
‫‪60‬‬
‫‪80‬‬
‫‪Recall‬‬
‫‪۶‬‬
‫‪40‬‬
‫‪20‬‬
‫‪0‬‬
‫‪Precision‬‬
‫‪Series1‬‬
‫)‪Poly. (Series1‬‬
‫‪60‬‬
‫حالت دوم)سه مرحلهای ساده(‪:‬‬
‫این اطالعات میانگین پاسخ ‪ ۲۰‬مستند اول برای ‪ ۸۲‬پرسش است‪.‬‬
‫درصد دقت‪۱۶٫۲ :‬‬
‫درصد یادآوری‪۸۴٫۹ :‬‬
‫میانگین دقت در مستندات مرتبط‪۳۹٫۹ :‬‬
‫‪Probabilistic-3‬‬
‫‪120‬‬
‫‪100‬‬
‫‪80‬‬
‫‪40‬‬
‫‪20‬‬
‫‪0‬‬
‫‪120‬‬
‫‪80‬‬
‫‪100‬‬
‫‪60‬‬
‫‪Recall%‬‬
‫حالت سوم)سه مرحلهای با کمک کاربر(‪:‬‬
‫درصد دقت‪۱۶٫۳ :‬‬
‫درصد یادآوری‪۸۶٫۱ :‬‬
‫میانگین دقت در مستندات مرتبط‪۴۸٫۴ :‬‬
‫‪۷‬‬
‫‪40‬‬
‫‪20‬‬
‫‪0‬‬
‫‪Precision%‬‬
‫‪Series1‬‬
‫)‪Poly. (Series1‬‬
‫‪60‬‬
Probabilistic-3-user
120
100
Precision%
80
Series1
Poly. (Series1)
60
40
20
0
0
20
40
60
80
100
120
Recall%
:(tf.idf ‫حالت چهارم)تک مرحلهای ساده با‬
۱۵٫۳ :‫درصد دقت‬
۸۳٫۶ :‫درصد یادآوری‬
۴۴٫۱ :‫میانگین دقت در مستندات مرتبط‬
Probabilistic-1-tf.idf
120
100
Precision%
80
Series3
Poly. (Series3)
60
40
20
0
0
20
40
60
80
Recall%
۸
100
120
‫حالت پنجم)سه مرحلهای ساده با کمک ‪:(tf.idf‬‬
‫درصد دقت‪۱۴٫۸ :‬‬
‫درصد یادآوری‪۸۱٫۱ :‬‬
‫میانگین دقت در مستندات مرتبط‪۴۲٫۳ :‬‬
‫‪Probabilistic-3-tf.idf‬‬
‫‪120‬‬
‫‪100‬‬
‫‪80‬‬
‫‪40‬‬
‫‪20‬‬
‫‪0‬‬
‫‪120‬‬
‫‪100‬‬
‫‪60‬‬
‫‪80‬‬
‫‪40‬‬
‫‪20‬‬
‫‪Recall%‬‬
‫حالت ششم)سه مرحله ای با کمک کاربر و با استفاده از ‪:(tf.idf‬‬
‫درصد دقت‪۱۵٫۷ :‬‬
‫درصد یادآوری‪۸۵٫۳ :‬‬
‫میانگین دقت در مستندات مرتبط‪۴۶٫۹ :‬‬
‫‪۹‬‬
‫‪0‬‬
‫‪Precision%‬‬
‫‪Series1‬‬
‫)‪Poly. (Series1‬‬
‫‪60‬‬
Probabilistic-3-tf.idf-user
120
100
Precision%
80
Series1
Poly. (Series1)
60
40
20
0
0
20
40
60
80
Recall%
۱۰
100
120
‫مقایسه‬
‫مقایسه مدلهای مجموعهای با مدل برداری‬
‫در مدل های مجموعهای همانطور که گفته شده قادر به رتبهگذاری نیستیم‪ .‬از طرف دیگر این‬
‫مدلها اجازهی تطابقپارهای به ما نمیدهند‪ .‬این در حالی است که مدل برداری هر دو مشکل گفته شده‬
‫را رفع کرده است‪ .‬به همین دلیل مدلهای مجموعهای به طور کلی برای بازیابی اطالعات زیاد مناسب‬
‫نیستند و بیشتر برای بازیابی داده از آنها استفاده میشود‪ .‬همان طور که مشاهده میکنید در دو حالت‬
‫ذکر شده از مدل مجموعهای‪ ،‬در یکی دقت بسیار باالست و یادآوری بسیار پایین و در دیگری برعکس‪.‬‬
‫در صورتی که ما به روشی نیاز داریم که تا حد خوبی هر دو معیار ارزیابی را در حد معقولی حفظ کند‪.‬‬
‫از این جهت مدل برداری به مدل منطقی ارجحیت دارد‪.‬‬
‫مقایسه مدل برداری و احتمالی حالت اول‬
‫پارامتر‬
‫مدل برداری‬
‫احتمالی نوع اول‬
‫دقت‬
‫‪۱۵٫۴‬‬
‫‪۱۵٫۶‬‬
‫یادآوری‬
‫‪۸۴٫۱‬‬
‫‪۸۳٫۴‬‬
‫دقت ‪R‬‬
‫‪۵۳٫۹‬‬
‫‪۴۲٫۴‬‬
‫میانگین یادآوری در مرتبطها‬
‫‪۴۴٫۲‬‬
‫‪۳۹٫۹‬‬
‫همانطور که مشاهده میکنید دقت مدل احتمالی بهتر از مدل برداری است ولی یادآوری باال در‬
‫مدل برداری و همچنین رتبهگذاری بسیار قویتر در مدل برداری باعث شده که منحنی دقتیادآوری‬
‫مدل احتمالی کام ً‬
‫ال زیر منحنی مدل برداری قرار گیرد‪ .‬از این رو میتوانیم نتیجه بگیریم مدل برداری از‬
‫مدل احتمالی نوع اول قویتر است‪.‬‬
‫‪۱۱‬‬
Probabilistic-1 vs Vectorized
120
100
Precision
80
Series1
Series2
Probabilistic1
Vectorized
60
40
20
0
0
20
40
60
80
100
120
Recall
Vectorized-Probabilistic1
150
100
50
0
Series1
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 71 73 75 77 79 81 83
-50
-100
-150
۱۲
‫مقایسه مدل احتمالی حالت اول و حالت دوم )تاثیر تکرار(‬
‫پارامتر‬
‫احتمالی حالت اول)بدون تکرار(‬
‫احتمالی حالت دوم)با تکرار(‬
‫دقت‬
‫‪۱۵٫۶‬‬
‫‪۱۶٫۲‬‬
‫یادآوری‬
‫‪۸۳٫۴‬‬
‫‪۸۴٫۹‬‬
‫دقت ‪R‬‬
‫‪۴۲٫۴‬‬
‫‪۴۳٫۴‬‬
‫میانگین دقت در مرتبطها‬
‫‪۳۹٫۹‬‬
‫‪۳۹٫۹‬‬
‫همانطور که در جدول میبینید یادآوری و دقت مدل احتمالی با تکرار هر دو بهتر از حالت بدون‬
‫تکرار است‪ .‬از طرف دیگر بر خالف انتظار میانگین دقت در مرتبطها در این دو مدل تقریب ًا برابر است‪.‬‬
‫علت این امر آن است که رتبهگذاری در مدل احتمالی با تکرار بدتر از مدل احتمالی بدون تکرار است‪.‬‬
‫این نکته را از روی نمودار پایین نیز میتوانید مشاهد کنید‪ .‬همانطور که میبینید در انتهای منحنی‬
‫مربوط به مدل احتمالی با تکرار شاهد صعود تابع هستیم که بیانگر رتبهگذاری نامناسب در این روش‬
‫است‪.‬‬
‫‪Probabilistic-1 vs Probabilistic-3‬‬
‫‪120‬‬
‫‪100‬‬
‫‪80‬‬
‫‪40‬‬
‫‪20‬‬
‫‪0‬‬
‫‪120‬‬
‫‪100‬‬
‫‪60‬‬
‫‪80‬‬
‫‪Recall‬‬
‫‪۱۳‬‬
‫‪40‬‬
‫‪20‬‬
‫‪0‬‬
‫‪Precision‬‬
‫‪Series1‬‬
‫‪Series2‬‬
‫‪Probabilistic1‬‬
‫‪Probabilistic3‬‬
‫‪60‬‬
‫‪Probabilistic1-Probabilistic3‬‬
‫‪150‬‬
‫‪100‬‬
‫‪50‬‬
‫‪0‬‬
‫‪Series1‬‬
‫‪1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 71 73 75 77 79 81 83‬‬
‫‪-50‬‬
‫‪-100‬‬
‫‪-150‬‬
‫مقایسه مدل احتمالی حالت دوم و حالت سوم )تاثیر ارتباط‬
‫با کاربر(‬
‫پارامتر‬
‫احتمالی نوع دوم)بدون کاربر(‬
‫احتمالی نوع سوم)با کاربر(‬
‫دقت‬
‫‪۱۶٫۲‬‬
‫‪۱۶٫۳‬‬
‫یادآوری‬
‫‪۸۴٫۹‬‬
‫‪۸۶٫۱‬‬
‫دقت ‪R‬‬
‫‪۴۳٫۴‬‬
‫‪۶۰٫۴‬‬
‫میانگین دقت در مرتبطها‬
‫‪۳۹٫۹‬‬
‫‪۴۸٫۴‬‬
‫همانطور که مشاهده میکنید استفاده از کاربر در تشخیص مستندات مرتبط موجب افزایش‬
‫تمامی پارامترها شده است‪ .‬البته غیر از این هم انتظار نمیرفت‪ .‬به یک نکتهی جالب در مورد میانگین‬
‫دقت در مرتبطها توجه کنید‪ .‬این عدد بسیار به ‪ ۵۰‬نزدیک است‪ .‬یعنی میتوان گفت که مستندات پیدا‬
‫شده توسط این روش تقریب ًا به صورت یکی در میان مرتبط هستند‪ .‬همانطور که در نمودار نیز مشاهده‬
‫میکنید‪ ،‬منحنی مربوط به مدلی که از کاربر کمک میگیرد تقریب ًا به طور کامل باالی منحنی بدون‬
‫کمک کاربر قرار دارد‪.‬‬
‫‪۱۴‬‬
Probabilistic-3-user vs Probabilistic-3
120
100
Precision
80
Series1
Series2
Probabilistic3-user
Probabilistic3
60
40
20
0
0
20
40
60
80
100
120
Recall
Probabilistic3user - Probabilistic3
0
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 71 73 75 77 79 81 83
-20
-40
-60
Series1
-80
-100
-120
۱۵
‫مقایسه مدل احتمالی حالت چهارم و حالت اول )تاثیر‬
‫استفاده از ‪(tf.idf‬‬
‫پارامتر‬
‫حالت اول)بدون ‪(tf.idf‬‬
‫حالت چهارم)با ‪(tf.idf‬‬
‫دقت‬
‫‪۱۵٫۶‬‬
‫‪۱۵٫۳‬‬
‫یادآوری‬
‫‪۸۳٫۴‬‬
‫‪۸۳٫۶‬‬
‫دقت ‪R‬‬
‫‪۴۲٫۴‬‬
‫‪۵۲٫۶‬‬
‫میانگین دقت در مرتبطها‬
‫‪۳۹٫۹‬‬
‫‪۴۴٫۱‬‬
‫همانطور که در جدول مشاهده میکنید علیرغم این که دقت کمی پایین آمده است ولی‬
‫میانگین دقت در مرتبطها به شدت زیاد شده است‪ .‬این امر نشان دهندهی رتبهگذاری بسیار بهتر است‪.‬‬
‫ال داریم کمی شبیه مدل برداری عمل میکنیم و این باعث‬
‫در این حالت با دخالت دادن ‪ tf.idf‬عم ً‬
‫میشود که تا حدی بتوانیم از رتبهگذاری خوب آن مدل استفاده کنیم‪ .‬همان طور که در نمودار زیر‬
‫ال باالی حالت دیگر قرار گرفتهاست‪.‬‬
‫میبینید منحنی حالتی که ‪ tf.idf‬را دخالت میدهیم کام ً‬
‫‪Probabilistic-1 vs Probabilistic-1-tf-idf‬‬
‫‪120‬‬
‫‪100‬‬
‫‪80‬‬
‫‪60‬‬
‫‪40‬‬
‫‪20‬‬
‫‪0‬‬
‫‪120‬‬
‫‪100‬‬
‫‪60‬‬
‫‪80‬‬
‫‪Recall‬‬
‫‪۱۶‬‬
‫‪40‬‬
‫‪20‬‬
‫‪0‬‬
‫‪Precision‬‬
‫‪Series1‬‬
‫‪Series2‬‬
‫‪Probabilistic1‬‬
‫‪Probabilistic1-tf-idf‬‬
‫مقایسه مدل احتمالی حالت پنجم و حالت دوم )تاثیر‬
‫استفاده از ‪(tf.idf‬‬
‫پارامتر‬
‫حالت دوم)بدون ‪(tf.idf‬‬
‫حالت پنجم)با ‪(tf.idf‬‬
‫دقت‬
‫‪۱۶٫۲‬‬
‫‪۱۴٫۸‬‬
‫یادآوری‬
‫‪۸۴٫۹‬‬
‫‪۸۱٫۱‬‬
‫دقت ‪R‬‬
‫‪۴۳٫۴‬‬
‫‪۵۰٫۵‬‬
‫میانگین دقت در مرتبطها‬
‫‪۳۹٫۹‬‬
‫‪۴۲٫۳‬‬
‫مانند حالت قبل شبیه شدن مدل احتمالی به مدل برداری باعث بهبود در رتبهگذاری شده است‬
‫زیرا میانگین دقت در مرتبطها باال رفته است‪ .‬از طرف دیگر دقت و یادآوری به مقدار قابل مالحظهای‬
‫کاهش یافتهاند‪ .‬این امر ناشی از آن است که در این مدل ما تکرار داریم‪ .‬تکرار باعث میشود که ‪tf.idf‬‬
‫در هر مرحله اعمال شوند‪ .‬به این ترتیب تاثیر احتماالت کم شده و وابستگی به ‪ tf.idf‬زیاد میشود‪ .‬به‬
‫طور کلی وقتی که مدل برداری را وارد این مدل کردیم باید انتظار داشته باشیم که همهی پارامترها به‬
‫نحوی به مقدارشان در مدل برداری میل کنند‪ .‬به این ترتیب مقداری کمتر از آنچه که بدون ‪tf.idf‬‬
‫میگرفتند‪ ،‬به خود میگیرند‪.‬‬
‫‪Probabilistic-3 vs Probabilistic-3-tf-idf‬‬
‫‪120‬‬
‫‪100‬‬
‫‪80‬‬
‫‪40‬‬
‫‪20‬‬
‫‪0‬‬
‫‪120‬‬
‫‪100‬‬
‫‪60‬‬
‫‪80‬‬
‫‪Recall‬‬
‫‪۱۷‬‬
‫‪40‬‬
‫‪20‬‬
‫‪0‬‬
‫‪Precision‬‬
‫‪Series1‬‬
‫‪Series2‬‬
‫‪Probabilistic3‬‬
‫‪Probabilistic3-tf-idf‬‬
‫‪60‬‬
‫مقایسه مدل احتمالی حالت ششم و حالت سوم )تاثیر‬
‫استفاده از ‪(tf.idf‬‬
‫پارامتر‬
‫احتمالی نوع سوم)بدون ‪(tf.idf‬‬
‫احتمالی نوع ششم)با ‪(tf.idf‬‬
‫دقت‬
‫‪۱۶٫۳‬‬
‫‪۱۵٫۷‬‬
‫یادآوری‬
‫‪۸۶٫۱‬‬
‫‪۸۵٫۳‬‬
‫دقت ‪R‬‬
‫‪۶۰٫۴‬‬
‫‪۵۷٫۸‬‬
‫میانگین دقت در مرتبطها‬
‫‪۴۸٫۴‬‬
‫‪۴۶٫۹‬‬
‫همانطور که در جدول مشاهده میکنید تمامی پارامترها به خاطر استفاده از ‪ tf.idf‬کاهش‬
‫یافتهاند‪ .‬این اتفاق در ابتدا کمی عجیب به نظر میرسد ولی اگر خوب بررسی کنیم متوجه میشویم که‬
‫علت کاهش مقادیر کم شدن وزن نظر کاربر است‪ .‬هنگامی که در تمامی مراحل ‪ tf.idf‬را دخالت‬
‫میدهیم به نحوی میزان تاثیر نظر کاربر )که عامل اصلی موفقیت این روش است( را کاهش میدهیم به‬
‫همین دلیل به طور طبیعی با نوعی کاهش در پارامترهای ارزیابی مواجه میشویم‪.‬‬
‫‪Probabilistic-3-user vs Probabilistic-3-user-tf-idf‬‬
‫‪120‬‬
‫‪100‬‬
‫‪80‬‬
‫‪60‬‬
‫‪40‬‬
‫‪20‬‬
‫‪0‬‬
‫‪120‬‬
‫‪100‬‬
‫‪60‬‬
‫‪80‬‬
‫‪Recall‬‬
‫‪۱۸‬‬
‫‪40‬‬
‫‪20‬‬
‫‪0‬‬
‫‪Precision‬‬
‫‪Series1‬‬
‫‪Series2‬‬
‫‪Probabilistic3-user‬‬
‫‪Probabilistic3-user-tf-idf‬‬
‫اضافه کردن ‪ tf.idf‬به مدل احتمالی‬
‫همانطور که گفته شد اضافه کردن ‪ tf.idf‬به مدل احتمالی در حالت بدون تکرار باعث بهبود‬
‫مدل ولی در حالتی که تکرار داریم میتواند باعث بدتر شدن آن بشود‪ .‬برای این کار پیشنهاد میشود که‬
‫‪ tf.idf‬را تنها در تکرار اول از مدل احتمالی دخالت دهیم‪ .‬به این ترتیب هم میتوانیم تا حدی از مزایای‬
‫رتبهگذاری خوب مدل برداری استفاده کنیم و هم در مراحل بعد از احتماالت فاصله نمیگیریم‪.‬‬
‫‪۱۹‬‬
‫بررسی رتبه گذاری برای مستندات مرتبط بازیابی شده‬
‫نتایج پرسشهای ‪ ۷۱ ،۶۷ ،۵۱ ،۱۱‬و ‪ ۷۴‬برای مقایسهی رتبهگذاری مدلهای مختلف بررسی‬
‫شد‪ .‬این نتایج با حاصل رتبهگذاری دستی مقایسه شد که خالصهی آن در جدول زیر آمده است‪:‬‬
‫پرسش ‪۱۱‬‬
‫الگوریتم‬
‫درصد یادآوری‬
‫درصد شباهت با رتبهگذاری دستی‬
‫مدل برداری‬
‫‪۱۰۰‬‬
‫‪۰‬‬
‫مدل احتمالی نوع اول‬
‫‪۱۰۰‬‬
‫‪۱۰۰‬‬
‫مدل احتمالی نوع دوم‬
‫‪۱۰۰‬‬
‫‪۱۰۰‬‬
‫مدل احتمالی نوع سوم‬
‫‪۱۰۰‬‬
‫‪۱۰۰‬‬
‫مدل احتمالی نوع چهارم‬
‫‪۱۰۰‬‬
‫‪۰‬‬
‫مدل احتمالی نوع پنجم‬
‫‪۱۰۰‬‬
‫‪۰‬‬
‫مدل احتمالی نوع ششم‬
‫‪۱۰۰‬‬
‫‪۰‬‬
‫الگوریتم‬
‫درصد یادآوری‬
‫درصد شباهت با رتبهگذاری دستی‬
‫مدل برداری‬
‫‪۶۶‬‬
‫‪۰‬‬
‫مدل احتمالی نوع اول‬
‫‪۱۰۰‬‬
‫‪۱۰۰‬‬
‫مدل احتمالی نوع دوم‬
‫‪۱۰۰‬‬
‫‪۱۰۰‬‬
‫مدل احتمالی نوع سوم‬
‫‪۱۰۰‬‬
‫‪۱۰۰‬‬
‫مدل احتمالی نوع چهارم‬
‫‪۶۶‬‬
‫‪۰‬‬
‫مدل احتمالی نوع پنجم‬
‫‪۶۶‬‬
‫‪۰‬‬
‫مدل احتمالی نوع ششم‬
‫‪۶۶‬‬
‫‪۰‬‬
‫الگوریتم‬
‫درصد یادآوری‬
‫درصد شباهت با رتبهگذاری دستی‬
‫مدل برداری‬
‫‪۱۰۰‬‬
‫‪۶۶‬‬
‫مدل احتمالی نوع اول‬
‫‪۱۰۰‬‬
‫‪۳۳‬‬
‫مدل احتمالی نوع دوم‬
‫‪۱۰۰‬‬
‫‪۳۳‬‬
‫مدل احتمالی نوع سوم‬
‫‪۱۰۰‬‬
‫‪۳۳‬‬
‫مدل احتمالی نوع چهارم‬
‫‪۱۰۰‬‬
‫‪۶۶‬‬
‫مدل احتمالی نوع پنجم‬
‫‪۱۰۰‬‬
‫‪۳۳‬‬
‫مدل احتمالی نوع ششم‬
‫‪۱۰۰‬‬
‫‪۳۳‬‬
‫پرسش ‪۵۱‬‬
‫پرسش ‪۶۷‬‬
‫‪۲۰‬‬
‫پرسش ‪۷۱‬‬
‫الگوریتم‬
‫درصد یادآوری‬
‫درصد شباهت با رتبهگذاری دستی‬
‫مدل برداری‬
‫‪۱۰۰‬‬
‫‪۱۰۰‬‬
‫مدل احتمالی نوع اول‬
‫‪۱۰۰‬‬
‫‪۶۶‬‬
‫مدل احتمالی نوع دوم‬
‫‪۱۰۰‬‬
‫‪۶۶‬‬
‫مدل احتمالی نوع سوم‬
‫‪۱۰۰‬‬
‫‪۳۳‬‬
‫مدل احتمالی نوع چهارم‬
‫‪۶۶‬‬
‫‪۱۰۰‬‬
‫مدل احتمالی نوع پنجم‬
‫‪۶۶‬‬
‫‪۱۰۰‬‬
‫مدل احتمالی نوع ششم‬
‫‪۱۰۰‬‬
‫‪۱۰۰‬‬
‫الگوریتم‬
‫درصد یادآوری‬
‫درصد شباهت با رتبهگذاری دستی‬
‫مدل برداری‬
‫‪۱۰۰‬‬
‫‪۱۰۰‬‬
‫مدل احتمالی نوع اول‬
‫‪۱۰۰‬‬
‫‪۱۰۰‬‬
‫مدل احتمالی نوع دوم‬
‫‪۱۰۰‬‬
‫‪۱۰۰‬‬
‫مدل احتمالی نوع سوم‬
‫‪۱۰۰‬‬
‫‪۱۰۰‬‬
‫مدل احتمالی نوع چهارم‬
‫‪۱۰۰‬‬
‫‪۱۰۰‬‬
‫مدل احتمالی نوع پنجم‬
‫‪۱۰۰‬‬
‫‪۰‬‬
‫مدل احتمالی نوع ششم‬
‫‪۱۰۰‬‬
‫‪۰‬‬
‫پرسش ‪۷۴‬‬
‫همان طور که مشاهده میکنید نتایج رتبهگذاری در مدلهای احتمالی به طور متوسط از مدل‬
‫برداری قویتر است‪ .‬احتما ًال همین امر باعث شده که در مدلهای احتمالی که از ‪ tf-idf‬استفاده می‪-‬‬
‫کنند نیز رتبهگذاری ضعیفتر شود‪.‬‬
‫‪۲۱‬‬