باسمه تعالی پروژهی اول بازیابی پیشرفتهی اطالعات بررسی مدلهای مختلف بازیابی اطالعات سید امین سیدی ۸۲۱۹۵۴۰۸ کیان میرجاللی ۸۲۱۹۶۳۰۷ مقدمه در این مستند قصد داریم به بررسی انواع مدلهای بازیابی اطالعات بپردازیم .برای این کار به ارزیابی ۳مدل اصلی یعنی مدل مجموعهای ،مدل برداری و مدل احتمالی میپردازیم .برای ارزیابی این مدلها آنها را پیادهسازی کرده و بر روی مجموعهای از مستندات آماده شده قبلی اجرا کردیم .خالصه تحلیل و نتیجه بررسیها اکنون در مقابل شماست .برای ارزیابیها از معیارهای دقت و یادآوری همچنین میانگین دقت در مستندات مربوط بازیابی شده ،میزان دقت در Rمستند بازیابی شده اول و میانگین هارمونیک استفاده میکنیم. قبل از شروع مرحله بازیابی ابتدا کلمات ایست را حذف میکنیم .سپس عمل اندیسگذاری را انجام داده و اطالعات الزم برای بازیابی را بدست میآوریم .برای ارزیابی از مجموعهی دادههای Time استفاده شدهاست که شامل ۸۲پرسش است و مستندات مربوط به هر پرسش و همچنین کلمات ایست را نیز شامل میشود .کل مجموعه شامل ۴۲۳مستند است که عملیات بازیابی باید از بین آنها انجام شود. بخش دوم شامل کلیاتی از پیادهسازی است .در بخش سوم به معرفی و بررسی جداگانهی هر مدل میپردازیم و در بخش چهارم مقایسهای اجمالی بین مدلهای مذکور انجام میدهیم. ۱ کلیات پیادهسازی به ازای هر الگوریتم بازیابی یک برنامه نوشته شده است .همهی این برنامهها از کتابخانهی sharedبرای انجام فعالیتهای مشترک خود استفاده میکنند .این کتابخانه آدرس فایلها و شاخههای مورد نیاز خود را از فایل config.txtمیخواند .ساختار این فایل به این شکل است: سطر اول آدرس شاخهی حاوی مستندات سطر دوم آدرس شاخهی حاوی پرسوجوها سطر سوم آدرس فایل حاوی پاسخهای صحیح به پرسشها سطر چهارم آدرس فایل حاوی کلمات ایست سطر پنجم آدرس شاخهی نوشتن نتایج بازیابیها سطر ششم آدرس شاخهی نوشتن نتایج تحلیل بازیابیها فایل makefileبرای کامپایل مکانیزهی برنامهها در کنارشان قرار داده شده است و برنامهی analyzerبرای تحلیل نتایج الگوریتمهای بازیابی پس از اجرایشان به کار میرود. کتابخانهی sharedبخشهای محوری زیادی را در خود دارد که در این جا به بیان قسمتهای مهم آن میپردازیم: • ساختار : Documentاز این ساختار برای نگهداری اطالعات مستندات استفاده میشود .رشتهی nameدر این ساختار برای نگهداری نام مستندات است .در بردار raاز هر شیء Documentجفتهایی نگه داشته میشوند که مشخص میکنند چه کلمهای و چند بار ،در آن شیء وجود دارد .دستور )(tf ، evaluateTFsها را در شیء مقداردهی میکند و ) getTF(wمقدار tfرا برای کلمهی wدر آن مستند باز میگرداند. • بردار : docاز ساختار Documentاست و همهی مستندات در این بردار نگهداری میشوند. • ساختار : Queryاین ساختار برای نگهداری اطالعات پرسشهاست و تمامی خواص ساختار Documentرا نیز دارا میباشد .لذا از همان ساختار به ارث برده شده و تمامی امکانات آن را دارد .عالوه بر آنها ،فیلدهای دیگری نیز اضافه شدهاند. مجموعه مستندات پاسخ اصلی در relevantsقرار دارد .الگوریتمهای بازیابی نتایج خود را در فیلد retrievalsاز این ساختار میریزند .پارامترهای تحلیلی ، recall precisionو precisionAtSeenRelativeDocsنیز به شکل مناسب موجود میباشند. ۲ • بردار : queryاز ساختار Queryاست و همهی پرسشها در این بردار قرار میگیرند. • ساختار : Wordاین ساختار برای نگهداری اطالعات کلمات است .خود کلمه در فیلد valueقرار میگیرد .بردار rfهر کلمه ،شامل جفتهایی است که مشخص میکنند آن کلمه در چه مستندی و چند بار ظاهر شده است و کار همان Reverse Index Fileرا انجام میدهد .دستور )( idf ، evaluateIDFرا برای شیء مقداردهی میکند و )( getIDFمقدار idfآن کلمه را باز میگرداند. • بردار : wordاز ساختار Wordاست و همهی کلمات )حتی کلماتی که در پرسشها هستند( در این بردار قرار میگیرند. • مجموعهی : stopwordsشامل رشتههایی است که کلمات ایست میباشند. • دستور : initializeفایل config.txtرا میخواند ،مستندات و پرسشها را شناسایی میکند و بعضی متغیرها را مقداردهی اولیه میکند. ۳ معرفی و ارزیابی مدلها مدل مجموعهای: این روش از عملگرهای منطقی برای بازیابی مستندات استفاده میکند. مدل »و« منطقی: این روش تنها مستنداتی را بازیابی میکند که همهی کلمات پرسش مربوطه را شامل شوند. همانگونه که انتظار میرود این روش قادر به انجام رتبهگذاری بر روی مستندات بازیابی شده نیست .از طرف دیگر این روش اجازه کوچکترین تفاوت بین پرسش انجام شده و مستند بازیابی شده را نمیدهد و همین امر باعث میشود که تعداد مستندات بسیار کمی توسط این روش بازیابی شوند .به همین دلیل این روش از دقت بسیار باال ولی در مقابل از یادآوری بسیار کمی برخوردار است .در زیر میتوانید میزان دقت و یادآوری را برای این روش مشاهد کنید .چون این روش هیچگونه رتبهگذاری بر روی مستندات انجام نمیدهد نمیتوان نمودارهای دقت و یادآوری برای آن رسم کرد. درصد دقت۹۵٫۲ : درصد یادآوری۳٫۳ : مدل »یا« منطقی: این روش همه مستنداتی را بازیابی میکند که حداقل یکی از کلمات پرسش مطرح شده در آنها باشد .این روش نیز مانند حالت قبل قادر به انجام رتبهگذاری بر روی مستندات بازیابی شده نیست. همان گونه که انتظار میرود این روش تعداد مستندات بسیار زیادی را در جواب هر پرسش پیدا میکند و به همین خاطر از یادآوری بسیار باالیی برخوردار است ولی در مقابل دقت آن بسیار پایین است .در زیر میتوانید اطالعات مربوط به این مدل را مشاهده کنید. درصد دقت۲٫۴ : درصد یادآوری۹۷٫۸ : همان گونه که مشاهده کردید روشهای مربوط به مدل مجموعهای قادر به انجام رتبهگذاری برای مستندات نیستند و به همین خاطر برای بازیابی اطالعات مناسب نیستند و استفاده از آنها بیشتر برای بازیابی داده مفید است. ۴ مدل برداری در این روش برای هر مستند یک بردار محاسبه میکنیم .برای هر پرسش نیز به طریق مشابه برداری بدست میآوریم .از زاویهی تشکیل شده بین دو بردار میتوانیم برای میزان ارتباط بین پرسش و مستند استفاده کنیم .در زیر میتوانید نمودارها و اطالعات بدست آمده مربوط به این روش را برای ۲۰ مستند اول بازیابی شده مشاهده کنید. درصد دقت۱۵٫۴ : درصد یادآوری۸۴٫۱ : میانگین دقت در مستندات مرتبط۴۴٫۲ : Vectorized Model 120 100 80 Precision Series1 )Poly. (Series1 60 40 20 0 120 100 60 80 40 20 0 Recall مدل احتمالی پایه و مبنای این روش همان گونه که از اسم آن پیداست احتمال است .در این روش برای هر مستند احتمال این که در مجموعه جواب باشد را تخمین میزنیم و با استفاده از محاسباتی سعی میکنیم جوابی نزدیک به مجموعهی جواب بدست آوریم. این روش میتواند یک مرحلهای یا چند مرحلهای باشد .اگر روش بیش از یک مرحله داشته باشد در هر مرحله سعی میکنیم از مجموعه مستندات بازیابی شده در مرحله قبل برای تخمین احتمال این ۵ که یک کلمه در مستندات جواب باشد استفاده کنیم .همچنین این روش این قابلیت را دارد که از کاربر ال کاربر در هر مرحله اطالعاتی بگیرد و با توجه به آن اطالعات سعی کند بازیابی بهتری انجام دهد .مث ً تعیین میکند که بین Rمستند بازیابی شدهی اول کدام مستندات واقع ًا مربوط بودهاند .به این ترتیب میتوان از این اطالعات در بازیابی برای مرحلهی بعد استفاده کرد. برای بررسی این مدل ۶حالت را در نظر میگیریم .حالت اول حالتی است که تنها یک مرحله بازیابی انجام میشود و هیچ اطالعی از کاربر نمیگیریم .در حالت دوم ۳مرحله انجام میشود و در حالت سوم نیز ۳مرحله عمل بازیابی را انجام میدهیم با این تفاوت که از کاربر اطالعات میگیریم. حالتهای چهارم تا ششم به ترتیب مانند حالتهای اول تا سوم هستند با این تفاوت که برای میزان شباهت عالوه بر احتمال از پارامترهای tfو idfنیز استفاده میکنیم. حالت اول)تک مرحلهای ساده(: این اطالعات بدست آمده از ۲۰پاسخ اول برای ۸۲پرسش میباشد. درصد دقت۱۵٫۶ : درصد یادآوری۸۳٫۴ : میانگین دقت در مستندات مرتبط۳۹٫۹ : Probabilistic-1 120 100 80 40 20 0 120 100 60 80 Recall ۶ 40 20 0 Precision Series1 )Poly. (Series1 60 حالت دوم)سه مرحلهای ساده(: این اطالعات میانگین پاسخ ۲۰مستند اول برای ۸۲پرسش است. درصد دقت۱۶٫۲ : درصد یادآوری۸۴٫۹ : میانگین دقت در مستندات مرتبط۳۹٫۹ : Probabilistic-3 120 100 80 40 20 0 120 80 100 60 Recall% حالت سوم)سه مرحلهای با کمک کاربر(: درصد دقت۱۶٫۳ : درصد یادآوری۸۶٫۱ : میانگین دقت در مستندات مرتبط۴۸٫۴ : ۷ 40 20 0 Precision% Series1 )Poly. (Series1 60 Probabilistic-3-user 120 100 Precision% 80 Series1 Poly. (Series1) 60 40 20 0 0 20 40 60 80 100 120 Recall% :(tf.idf حالت چهارم)تک مرحلهای ساده با ۱۵٫۳ :درصد دقت ۸۳٫۶ :درصد یادآوری ۴۴٫۱ :میانگین دقت در مستندات مرتبط Probabilistic-1-tf.idf 120 100 Precision% 80 Series3 Poly. (Series3) 60 40 20 0 0 20 40 60 80 Recall% ۸ 100 120 حالت پنجم)سه مرحلهای ساده با کمک :(tf.idf درصد دقت۱۴٫۸ : درصد یادآوری۸۱٫۱ : میانگین دقت در مستندات مرتبط۴۲٫۳ : Probabilistic-3-tf.idf 120 100 80 40 20 0 120 100 60 80 40 20 Recall% حالت ششم)سه مرحله ای با کمک کاربر و با استفاده از :(tf.idf درصد دقت۱۵٫۷ : درصد یادآوری۸۵٫۳ : میانگین دقت در مستندات مرتبط۴۶٫۹ : ۹ 0 Precision% Series1 )Poly. (Series1 60 Probabilistic-3-tf.idf-user 120 100 Precision% 80 Series1 Poly. (Series1) 60 40 20 0 0 20 40 60 80 Recall% ۱۰ 100 120 مقایسه مقایسه مدلهای مجموعهای با مدل برداری در مدل های مجموعهای همانطور که گفته شده قادر به رتبهگذاری نیستیم .از طرف دیگر این مدلها اجازهی تطابقپارهای به ما نمیدهند .این در حالی است که مدل برداری هر دو مشکل گفته شده را رفع کرده است .به همین دلیل مدلهای مجموعهای به طور کلی برای بازیابی اطالعات زیاد مناسب نیستند و بیشتر برای بازیابی داده از آنها استفاده میشود .همان طور که مشاهده میکنید در دو حالت ذکر شده از مدل مجموعهای ،در یکی دقت بسیار باالست و یادآوری بسیار پایین و در دیگری برعکس. در صورتی که ما به روشی نیاز داریم که تا حد خوبی هر دو معیار ارزیابی را در حد معقولی حفظ کند. از این جهت مدل برداری به مدل منطقی ارجحیت دارد. مقایسه مدل برداری و احتمالی حالت اول پارامتر مدل برداری احتمالی نوع اول دقت ۱۵٫۴ ۱۵٫۶ یادآوری ۸۴٫۱ ۸۳٫۴ دقت R ۵۳٫۹ ۴۲٫۴ میانگین یادآوری در مرتبطها ۴۴٫۲ ۳۹٫۹ همانطور که مشاهده میکنید دقت مدل احتمالی بهتر از مدل برداری است ولی یادآوری باال در مدل برداری و همچنین رتبهگذاری بسیار قویتر در مدل برداری باعث شده که منحنی دقتیادآوری مدل احتمالی کام ً ال زیر منحنی مدل برداری قرار گیرد .از این رو میتوانیم نتیجه بگیریم مدل برداری از مدل احتمالی نوع اول قویتر است. ۱۱ Probabilistic-1 vs Vectorized 120 100 Precision 80 Series1 Series2 Probabilistic1 Vectorized 60 40 20 0 0 20 40 60 80 100 120 Recall Vectorized-Probabilistic1 150 100 50 0 Series1 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 71 73 75 77 79 81 83 -50 -100 -150 ۱۲ مقایسه مدل احتمالی حالت اول و حالت دوم )تاثیر تکرار( پارامتر احتمالی حالت اول)بدون تکرار( احتمالی حالت دوم)با تکرار( دقت ۱۵٫۶ ۱۶٫۲ یادآوری ۸۳٫۴ ۸۴٫۹ دقت R ۴۲٫۴ ۴۳٫۴ میانگین دقت در مرتبطها ۳۹٫۹ ۳۹٫۹ همانطور که در جدول میبینید یادآوری و دقت مدل احتمالی با تکرار هر دو بهتر از حالت بدون تکرار است .از طرف دیگر بر خالف انتظار میانگین دقت در مرتبطها در این دو مدل تقریب ًا برابر است. علت این امر آن است که رتبهگذاری در مدل احتمالی با تکرار بدتر از مدل احتمالی بدون تکرار است. این نکته را از روی نمودار پایین نیز میتوانید مشاهد کنید .همانطور که میبینید در انتهای منحنی مربوط به مدل احتمالی با تکرار شاهد صعود تابع هستیم که بیانگر رتبهگذاری نامناسب در این روش است. Probabilistic-1 vs Probabilistic-3 120 100 80 40 20 0 120 100 60 80 Recall ۱۳ 40 20 0 Precision Series1 Series2 Probabilistic1 Probabilistic3 60 Probabilistic1-Probabilistic3 150 100 50 0 Series1 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 71 73 75 77 79 81 83 -50 -100 -150 مقایسه مدل احتمالی حالت دوم و حالت سوم )تاثیر ارتباط با کاربر( پارامتر احتمالی نوع دوم)بدون کاربر( احتمالی نوع سوم)با کاربر( دقت ۱۶٫۲ ۱۶٫۳ یادآوری ۸۴٫۹ ۸۶٫۱ دقت R ۴۳٫۴ ۶۰٫۴ میانگین دقت در مرتبطها ۳۹٫۹ ۴۸٫۴ همانطور که مشاهده میکنید استفاده از کاربر در تشخیص مستندات مرتبط موجب افزایش تمامی پارامترها شده است .البته غیر از این هم انتظار نمیرفت .به یک نکتهی جالب در مورد میانگین دقت در مرتبطها توجه کنید .این عدد بسیار به ۵۰نزدیک است .یعنی میتوان گفت که مستندات پیدا شده توسط این روش تقریب ًا به صورت یکی در میان مرتبط هستند .همانطور که در نمودار نیز مشاهده میکنید ،منحنی مربوط به مدلی که از کاربر کمک میگیرد تقریب ًا به طور کامل باالی منحنی بدون کمک کاربر قرار دارد. ۱۴ Probabilistic-3-user vs Probabilistic-3 120 100 Precision 80 Series1 Series2 Probabilistic3-user Probabilistic3 60 40 20 0 0 20 40 60 80 100 120 Recall Probabilistic3user - Probabilistic3 0 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 71 73 75 77 79 81 83 -20 -40 -60 Series1 -80 -100 -120 ۱۵ مقایسه مدل احتمالی حالت چهارم و حالت اول )تاثیر استفاده از (tf.idf پارامتر حالت اول)بدون (tf.idf حالت چهارم)با (tf.idf دقت ۱۵٫۶ ۱۵٫۳ یادآوری ۸۳٫۴ ۸۳٫۶ دقت R ۴۲٫۴ ۵۲٫۶ میانگین دقت در مرتبطها ۳۹٫۹ ۴۴٫۱ همانطور که در جدول مشاهده میکنید علیرغم این که دقت کمی پایین آمده است ولی میانگین دقت در مرتبطها به شدت زیاد شده است .این امر نشان دهندهی رتبهگذاری بسیار بهتر است. ال داریم کمی شبیه مدل برداری عمل میکنیم و این باعث در این حالت با دخالت دادن tf.idfعم ً میشود که تا حدی بتوانیم از رتبهگذاری خوب آن مدل استفاده کنیم .همان طور که در نمودار زیر ال باالی حالت دیگر قرار گرفتهاست. میبینید منحنی حالتی که tf.idfرا دخالت میدهیم کام ً Probabilistic-1 vs Probabilistic-1-tf-idf 120 100 80 60 40 20 0 120 100 60 80 Recall ۱۶ 40 20 0 Precision Series1 Series2 Probabilistic1 Probabilistic1-tf-idf مقایسه مدل احتمالی حالت پنجم و حالت دوم )تاثیر استفاده از (tf.idf پارامتر حالت دوم)بدون (tf.idf حالت پنجم)با (tf.idf دقت ۱۶٫۲ ۱۴٫۸ یادآوری ۸۴٫۹ ۸۱٫۱ دقت R ۴۳٫۴ ۵۰٫۵ میانگین دقت در مرتبطها ۳۹٫۹ ۴۲٫۳ مانند حالت قبل شبیه شدن مدل احتمالی به مدل برداری باعث بهبود در رتبهگذاری شده است زیرا میانگین دقت در مرتبطها باال رفته است .از طرف دیگر دقت و یادآوری به مقدار قابل مالحظهای کاهش یافتهاند .این امر ناشی از آن است که در این مدل ما تکرار داریم .تکرار باعث میشود که tf.idf در هر مرحله اعمال شوند .به این ترتیب تاثیر احتماالت کم شده و وابستگی به tf.idfزیاد میشود .به طور کلی وقتی که مدل برداری را وارد این مدل کردیم باید انتظار داشته باشیم که همهی پارامترها به نحوی به مقدارشان در مدل برداری میل کنند .به این ترتیب مقداری کمتر از آنچه که بدون tf.idf میگرفتند ،به خود میگیرند. Probabilistic-3 vs Probabilistic-3-tf-idf 120 100 80 40 20 0 120 100 60 80 Recall ۱۷ 40 20 0 Precision Series1 Series2 Probabilistic3 Probabilistic3-tf-idf 60 مقایسه مدل احتمالی حالت ششم و حالت سوم )تاثیر استفاده از (tf.idf پارامتر احتمالی نوع سوم)بدون (tf.idf احتمالی نوع ششم)با (tf.idf دقت ۱۶٫۳ ۱۵٫۷ یادآوری ۸۶٫۱ ۸۵٫۳ دقت R ۶۰٫۴ ۵۷٫۸ میانگین دقت در مرتبطها ۴۸٫۴ ۴۶٫۹ همانطور که در جدول مشاهده میکنید تمامی پارامترها به خاطر استفاده از tf.idfکاهش یافتهاند .این اتفاق در ابتدا کمی عجیب به نظر میرسد ولی اگر خوب بررسی کنیم متوجه میشویم که علت کاهش مقادیر کم شدن وزن نظر کاربر است .هنگامی که در تمامی مراحل tf.idfرا دخالت میدهیم به نحوی میزان تاثیر نظر کاربر )که عامل اصلی موفقیت این روش است( را کاهش میدهیم به همین دلیل به طور طبیعی با نوعی کاهش در پارامترهای ارزیابی مواجه میشویم. Probabilistic-3-user vs Probabilistic-3-user-tf-idf 120 100 80 60 40 20 0 120 100 60 80 Recall ۱۸ 40 20 0 Precision Series1 Series2 Probabilistic3-user Probabilistic3-user-tf-idf اضافه کردن tf.idfبه مدل احتمالی همانطور که گفته شد اضافه کردن tf.idfبه مدل احتمالی در حالت بدون تکرار باعث بهبود مدل ولی در حالتی که تکرار داریم میتواند باعث بدتر شدن آن بشود .برای این کار پیشنهاد میشود که tf.idfرا تنها در تکرار اول از مدل احتمالی دخالت دهیم .به این ترتیب هم میتوانیم تا حدی از مزایای رتبهگذاری خوب مدل برداری استفاده کنیم و هم در مراحل بعد از احتماالت فاصله نمیگیریم. ۱۹ بررسی رتبه گذاری برای مستندات مرتبط بازیابی شده نتایج پرسشهای ۷۱ ،۶۷ ،۵۱ ،۱۱و ۷۴برای مقایسهی رتبهگذاری مدلهای مختلف بررسی شد .این نتایج با حاصل رتبهگذاری دستی مقایسه شد که خالصهی آن در جدول زیر آمده است: پرسش ۱۱ الگوریتم درصد یادآوری درصد شباهت با رتبهگذاری دستی مدل برداری ۱۰۰ ۰ مدل احتمالی نوع اول ۱۰۰ ۱۰۰ مدل احتمالی نوع دوم ۱۰۰ ۱۰۰ مدل احتمالی نوع سوم ۱۰۰ ۱۰۰ مدل احتمالی نوع چهارم ۱۰۰ ۰ مدل احتمالی نوع پنجم ۱۰۰ ۰ مدل احتمالی نوع ششم ۱۰۰ ۰ الگوریتم درصد یادآوری درصد شباهت با رتبهگذاری دستی مدل برداری ۶۶ ۰ مدل احتمالی نوع اول ۱۰۰ ۱۰۰ مدل احتمالی نوع دوم ۱۰۰ ۱۰۰ مدل احتمالی نوع سوم ۱۰۰ ۱۰۰ مدل احتمالی نوع چهارم ۶۶ ۰ مدل احتمالی نوع پنجم ۶۶ ۰ مدل احتمالی نوع ششم ۶۶ ۰ الگوریتم درصد یادآوری درصد شباهت با رتبهگذاری دستی مدل برداری ۱۰۰ ۶۶ مدل احتمالی نوع اول ۱۰۰ ۳۳ مدل احتمالی نوع دوم ۱۰۰ ۳۳ مدل احتمالی نوع سوم ۱۰۰ ۳۳ مدل احتمالی نوع چهارم ۱۰۰ ۶۶ مدل احتمالی نوع پنجم ۱۰۰ ۳۳ مدل احتمالی نوع ششم ۱۰۰ ۳۳ پرسش ۵۱ پرسش ۶۷ ۲۰ پرسش ۷۱ الگوریتم درصد یادآوری درصد شباهت با رتبهگذاری دستی مدل برداری ۱۰۰ ۱۰۰ مدل احتمالی نوع اول ۱۰۰ ۶۶ مدل احتمالی نوع دوم ۱۰۰ ۶۶ مدل احتمالی نوع سوم ۱۰۰ ۳۳ مدل احتمالی نوع چهارم ۶۶ ۱۰۰ مدل احتمالی نوع پنجم ۶۶ ۱۰۰ مدل احتمالی نوع ششم ۱۰۰ ۱۰۰ الگوریتم درصد یادآوری درصد شباهت با رتبهگذاری دستی مدل برداری ۱۰۰ ۱۰۰ مدل احتمالی نوع اول ۱۰۰ ۱۰۰ مدل احتمالی نوع دوم ۱۰۰ ۱۰۰ مدل احتمالی نوع سوم ۱۰۰ ۱۰۰ مدل احتمالی نوع چهارم ۱۰۰ ۱۰۰ مدل احتمالی نوع پنجم ۱۰۰ ۰ مدل احتمالی نوع ششم ۱۰۰ ۰ پرسش ۷۴ همان طور که مشاهده میکنید نتایج رتبهگذاری در مدلهای احتمالی به طور متوسط از مدل برداری قویتر است .احتما ًال همین امر باعث شده که در مدلهای احتمالی که از tf-idfاستفاده می- کنند نیز رتبهگذاری ضعیفتر شود. ۲۱
© Copyright 2025 Paperzz