به نام خدا Modern Information Retrieval Department of Computer Engineering Sharif University of Technology Spring 2012 CE 40-324 Assignment #2 Due: 31th Farvardin .1پرضمان زیر را دروظر بگﻴریذ: امىﻴت جطتجُی ایىتروتی قبل از اوجام ٌرکاری ابتذا فکر کىﻴذ کذام اضىاد َ صفحات َب با پرضمان باال مرتبط می باشذ .معىای پرضمان در وظر شما چﻴطت َ چً مُاردی شما را بً یافته وتﻴجً ی بٍتر رٌىمُن می ضازد .تُضﻴحات خُد را در ایه مُرد بىُیطﻴذ. حال یک مُتُر جطتجُ اوتخاب کىﻴذ َ پرضمان را بً ٌمﻴه حالت (بذَن ٌﻴچگُوً عالمت اضافً) در آن اجرا کىﻴذ .در مُرد مﻴسان ارتباط 02وتﻴجً ی اَل با پرضمان مقایطً ای اوجام دٌﻴذ. مُارد زیر را در پاضخ خُد ارائً دٌﻴذ: .aخالصً ای از تفطﻴر خُد در مُرد پرضمان .bمُتُر جطتجُی مُرد اضتفادي .cلﻴطتی از 02وتﻴجً ی اَل خرَجی َ وظرتان درمُرد مرتبط بُدن َ یا عذم ارتباط آوٍا با پرضمان .بً ٌر کذام از وتﻴجً ٌا ومري ای بﻴه 1تا 4بذٌﻴذ ( 1بذ 0 ،قابل قبُل 3 ،خُب 4 ،عالی). .dدقت برای 02 َ 12وتﻴجً ی اَل .فرض کىﻴذ خُب َ عالی مرتبط محطُب مﻴشُوذ. .0فرض کىﻴذ یک ضﻴطتم بازیابی اطالعات یک مجمُعً ی 52تایی از اضىاد رتبً دٌی می کىذ َ برای دَ پرضمان لﻴطت اضىاد مرتبط بً صُرت زیر اضت: 39و Q1: 1, 2, 4, 10, 25 50و Q2: 3, 5, 10 برای ٌر پرضمان مقادیر زیر را بﻴابﻴذ: .aدقت تا ضىذ 12ام. .bدقت زماوی کً یادآَری %52می باشذ. .cدقت زماوی کً یادآَری %05می باشذ. .dمﻴاوگﻴه دقت درَن یابی وشذي (.)Uninterpolated .eمﻴاوگﻴه F1درَن یابی وشذي (.)Uninterpolated حال ومُ داری بر اضاش دقت َ یادآَری برای پرضمان ٌای َ Q2 ،Q1مﻴاوگﻴه Q1+Q2رضم کىﻴذ. .3اعذاد زیر را در وظر بگﻴریذ: 2, 9, 10, 14, 16 وتﻴجً ی ٌمً ی فشردي ضازی ٌای زیر را برای اعذاد باال بﻴابﻴذ .مشخص کىﻴذ ضایس خرَجی چىذ بایت اضت. Uncompressed, 32-bit integers .a Restricted Variable Length encoding with and without delta coding .b Gamma code with and without delta coding .c Golomb code with M=8 (not talked about in class; you'll have to look it up), with delta coding .d .4در مُرد تاثﻴر تغﻴﻴر پایً ی لگاریتم در َزن دٌی َ tf.idfوتﻴجً ی آن در رتبً بىذی مطتىذات بحث کىﻴذ. .5معﻴار مشابٍت ltn.lncرا براي دَ پرضمان «تﻠفهٌاي دﻳجﻴتالﻲ» َ «تﻠفهٌاي دﻳجﻴتالﻲ َ تﻠفهٌاي َﻳذئُﻳﻲ َ ضاﻳر تﻠفه ٌا» با پر ﻛردن جذَل زﻳر بذضت آَرﻳذ .با فرض N=10,000,000رتبً مشابٍت وٍاﻳﻲ را بذضت آَرﻳذ («ضاﻳر» َ «َ» را بً عىُان stop wordدروظر ﮔرفتً شذٌاوذ َ از stemmingاضتفادي شذي اضت). product n'lized document tf-wght weigth tf-raw weight Idf query df 10,000 100,000 50,000 tf-wght tf-raw Word دیجﻴتال َیذئُ تﻠفه توضیحات: در صُرت اشکال َ یا ابٍام می تُاوﻴذ بً ﮔرَي درش مﻴل بسوﻴذ. برای ارضال تمریه ابتذا آورا Zipومُدي َ با وام STDID_HW2بً آدرش ir.sharif.spring.91+assignment2@gmail.comارضال کىﻴذ .دقت کىﻴذ کً عىُان مﻴل وﻴس بایذ STDID_HW2 باشذ. در ضمه حجم فایل ارضالی وبایذ بﻴش از 1Mbباشذ(مىظُر کطاوی اضت کً دضت وُشتً مﻴىُیطىذ َ عکص مﻴگﻴروذ). بً ازای ٌر رَز تاخﻴر %12از ومري ی شما کاضتً می شُد.
© Copyright 2025 Paperzz