HW1.pdf

‫ﺑﺎزﻳﺎﺑﻲ ﭘﻴﺸﺮﻓﺘﻪي اﻃﻃﻼﻋﺎت ‪40324‬‬
‫ﻲ‬
‫ي اول –‬
‫ﺗﻤﺮﻳﻦ ﺳﺮي‬
‫ﻧﻴﻤﺴﺎل اوول ‪92-91‬‬
‫ﻣﺪرس‪ :‬ﺳﻠﻴﻴﻤﺎﻧﻲ‬
‫ﻞ‪ 23 :‬ﻣﻬﺮ‬
‫ﻣﻮﻋﺪ ﺗﺤﻮﻳﻞ‬
‫‪ ‬‬
‫ﺑﻪ ﻧﺎم ﺧﺪا‬
‫س ﺑﺎزﻳﺎﺑﻲ ﭘﭘﻴﺸﺮﻓﺘﻪي اﻃﻃﻼﻋﺎت‬
‫ﺳﺮي اول درس‬
‫ﺗﻤﺮﻳﻦ ﺮ‬
‫ﺗﻤﺮﻳﻦ دﻗﻗﺖ ﻧﻤﺎﻳﻴﺪ‪:‬‬
‫‪ ‬‬
‫ﺤﻮﻳﻞ‬
‫ﻟﻄﻄﻔﺎً ﺑﻪ ﻣﻮارد زﻳﺮﺮ در ﺗﻬﻴﻪ و ﺗﺤ‬
‫‪-‬‬
‫ﭼﻪ ﺳﻮاﻟﻲ در راﺑﺑﻄﻪ ﺑﺎ اﻳﻦ ﺗﻤﺮﻳﻳﻦ داﺷﺘﻴﺪ ﺑﻪ آآدرس ‪ sahba.ezaami@gmaill.com‬ﻣﻴﻴﻞ ﺑﺰﻧﻴﺪ‪ .‬‬
‫ﭼﻨﺎن ﻪ‬
‫‪ ‬‬
‫‪-‬‬
‫ﺗﻤﺮﻳﻦ‪ ‬ﻫﻫﺎي ﻧﻮﺷﺘﺎري ﺑﺑﺎﻳﺪ در ﻛﻼس درس ﺗﺤﻮﻳﻞ دداده ﺷﻮﻧﺪ‪ .‬‬
‫‪-‬‬
‫ﻚ ﭘﻮﺷﻪ ﻓﺸﺮده‬
‫ﻓﺎﻳﻞﻫﺎي ارﺳﺎﻟﻟﻲ ﺑﺎﻳﺪ در ﻳﻚ‬
‫‪ mir.fall.20‬ارﺳﺎل ﻧﻤﺎﻳﻴﺪ‪ .‬‬
‫ﻛﺪ ﺗﻤﺮﺮﻳﻦ ﺧﻮد را ﺑﻪ آدرس ‪012@gmail..com‬‬
‫‪ StudentID‐H‬ﺑﺎﺷﺪ‪ .‬ﻣﻬﻠﺖ‬
‫‪S‬‬
‫ﺻﻮرت ‪HW#1‬‬
‫ﻲ ﺷﻤﺎ اﺳﺖ‪ .‬ﻫﻫﻤﭽﻨﻴﻦ ﻋﻨﻮان ‪ email‬ﺑﻪ ﺻ‬
‫ﺑﺎﺷﺪ ﻛﻛﻪ اﺳﻢ آن ﺷﻤﻤﺎره داﻧﺸﺠﻮﻳﻲ‬
‫ارﺳﺎل ﻛﻛﺪ ﺗﻤﺮﻳﻦ‪ ‬ﻫﺎ ﺗﺎ ﺳﺎﻋﺖ ‪ 12‬ﻇﻬﻬﺮ روز ﻣﻘﺮر اﺳﺳﺖ‪ .‬‬
‫‪-‬‬
‫ﮔﻴﺮد‪ .‬‬
‫ﻧﻤﺮهاي ﺗﻌﻠﻖ ﻧﻤﻲ‪ ‬ﮔﻴ‬
‫ﺑﻪ ﺗﻤﺮﻳﻳﻦ‪ ‬ﻫﺎﻳﻲ ﻛﻪ ﺑﺎ ﺗﺗﺎﺧﻴﺮ ﺗﺤﻮﻳﻞ داده ﺷﻮﻧﺪ‪ ،‬ه‬
‫‪-‬‬
‫ﻦ‪ ‬ﻫﺎي ﻛﭙﻲ ﺑﻪ ﺷﺪت ﺑﺮﺧﻮردد ﺧﻮاﻫﺪ ﺷﺪ‪.‬‬
‫ﺑﺎ ﺗﻤﺮﻳﻦ‬
‫‪ ‬‬
‫ﻣﻲﺗﻮاﻧﺪ روي ‪ preecision‬و ‪recall‬‬
‫‪ -١‬در ﻳﻚ ﺳﻴﺴﺘﺘﻢ ‪ IR‬ﻫﺮ ﻳﻚ از ﻣﻮارد زﻳﺮ ﺑﺑﺮاي ﭘﺮﺳﻤﺎن ددﻟﺨﻮاه ﺑﻪ ﺻﻮرت ﻛﻠﻲ ﭼﻪ ﺗﺎﺛﺛﻴﺮي ‪ ‬‬
‫داﺷﺘﻪ ﺑﺎﺷﺪ؟‬
‫أ‪.‬‬
‫ﺣﺬف ‪ stop word‬ﻫﻫﺎ‬
‫واژهﻫﺎي ﻫﻫﻢ ﻣﻌﻨﻲ‬
‫ش ﭘﺮﺳﻤﺎن ﻛﺎررﺑﺮ ﺑﺎ ‪ ‬‬
‫ب‪ .‬ﮔﺴﺘﺮش‬
‫ج‪ .‬اﺳﺘﻔﺎدهه از اﻟﮕﻮرﻳﺘﻢ ﻫﺎﺎي ‪ stemming‬و ‪lemmattization‬‬
‫د‪ .‬اﺳﺘﻔﺎدهه از ‪ phrase indexing‬‬
‫‪ ‬‬
‫‪ -2‬ﺑﻪ ﺳﻮال‪ ‬ﻫﺎي زﻳﺮ ﭘﺎﺳﺦ دﻫﻴﻴﺪ‪:‬‬
‫أ‪.‬‬
‫ﻫﺎي ﻣﺮﺗﺒﻂ ﺑﺎ ﭘﺮﺳﺳﻤﺎن "‪NOT y‬‬
‫ﺑﺮاي ﺑﺎﺎزﻳﺎﺑﻲ ﺳﻨﺪ‪ ‬ي‬
‫‪ "x AND N‬اﻟﮕﻮرﻳﺘﻢ ‪ meerge‬ﺑﺎﻳﺪ ﭼﮕﻮﻧﻪﻪ ﺗﻐﻴﻴﺮ ﻛﻨﺪ ﺗﺎ ﺑﺘﻮاﻧﺪ ﺑﻪ اﻳﻦ‬
‫ﺖ؟‬
‫ﭼﻪ ﻣﺮﺗﺒﻪ‪ ‬اي اﺳﺖ‬
‫ﺤﺎﺳﺒﺎﺗﻲ اﻟﮕﻮرﻳﺘﺘﻢ ﺣﺎﺻﻞ از ﻪ‬
‫دﻫﺪ؟ ﭘﻴﭽﻴﺪﮔﻲ ﻣﺤ‬
‫؟‬
‫ن ﺑﻪ ﺻﻮرت ﻛﺎﺎرا ﺟﻮاب‬
‫ﭘﺮﺳﻤﺎن‬
‫‪ "x OR NO‬ﻣﻲ‪ ‬‬
‫ﺑﺮاي ﺑﺎزﻳﺎﺑﻲ اﺳﻨﺎﺎد ﻣﺮﺗﺒﻂ ﺑﺎ ﭘﺮﺮﺳﻤﺎن "‪OT y‬‬
‫ب‪ .‬آﻳﺎ ي‬
‫ﻲﺗﻮان اﻟﮕﻮرﻳﺘﻤﻤﻲ از ﻣﺮﺗﺒﻪ ﻣﻣﺠﻤﻮع ﻃﻮل ‪posting listt‬‬
‫ﻫﺎي ‪ x‬و ‪ y‬اراﺋﻪ ﻛﻛﺮد؟ ﺗﻮﺿﻴﺢ‪.‬‬
‫واژه ي‬
‫‪ ‬‬
‫ﺑﺎزﻳﺎﺑﻲ ﭘﻴﺸﺮﻓﺘﻪي اﻃﻃﻼﻋﺎت ‪40324‬‬
‫ﻲ‬
‫ي اول –‬
‫ﺗﻤﺮﻳﻦ ﺳﺮي‬
‫ﻧﻴﻤﺴﺎل اوول ‪92-91‬‬
‫ﻣﺪرس‪ :‬ﺳﻠﻴﻴﻤﺎﻧﻲ‬
‫ﻞ‪ 23 :‬ﻣﻬﺮ‬
‫ﻣﻮﻋﺪ ﺗﺤﻮﻳﻞ‬
‫‪ ‬‬
‫ﻟﻴﺴﺖﻫﺎ‬
‫‪ ‬‬
‫ﮔﺮﻓﺘﻪ ﻛﻪ ﻳﻜﻲ اﺷﺘﺮﺮاك‬
‫ﻪ‬
‫ن ورودي‬
‫ﺻﻮرت آرﮔﻮﻣﺎن‬
‫‪ -٣‬دو ﺗﺎﺑﻊ ﺑﻪ زﺑﺑﺎن ‪ C++‬ﻳﺎ ‪ javva‬ﺑﻨﻮﻳﺴﻴﺪ ﻛﻛﻪ دو ‪ postiing list‬را ﺑﻪ ﺻ‬
‫آنﻫﺎ ﺑﺎﻳﺪ ﺑﻪ ﺻﻮرت‬
‫‪ head‬‬
‫ش ﻣﻌﻤﻮل اﺷﺘﺮﺮاك ﻣﺤﺎﺳﺒﻪ ﻛﻛﻨﺪ‪ .‬ﻳﻌﻨﻲ ‪der‬‬
‫را ﺑﺎ اﺳﺘﻔﺎده از ‪ skip pointerr‬و دﻳﮕﺮي ﺑﺎ اﺳﺘﻔﺎده از روش‬
‫زﻳﻳﺮ ﺑﺎﺷﺪ‪:‬‬
‫;)‪nt[] first,int[] second,fiirstSkip,seccondSkip‬‬
‫‪int[] interssectWithSkiipPointer(in‬‬
‫‪int[] interssect(int[] firrst,int[] seco‬‬
‫‪ond); ‬‬
‫‪ ‬‬
‫‪ (skip‬ﻣﺤﺎﺳﺒﻪ‬
‫ي ادﻏﺎم ‪ postingg list‬ﻫﺎي زﻳﺮ )در دو ﺣﺣﺎﻟﺖ ادﻏﺎم ﻋﺎددي و اﺳﺘﻔﺎده ااز ‪p pointer‬‬
‫ﺳﭙﭙﺲ ﺗﻌﺪاد ﻣﻘﺎﻳﻳﺴﻪ ﻫﺎ را ﺑﺮاي‬
‫ﻛﺮﺮده و در ﻳﻚ ﺟﺟﺪول وارد ﻛﻨﻴﻴﺪ‪ .‬در ﻧﻬﺎﻳﺖ ﻧﺘﻧﺘﺎﻳﺞ را ﺑﺮرﺳﻲ ﻛﻨﻴﺪ‪.‬‬
‫أ‪.‬‬
‫‪5,24,39,60,68,75,81,84‬‬
‫‪4,89,92,96,,97,100,115‬‬
‫‪5> skip = 4 ‬‬
‫‪Firsst: <3,5,9,15‬‬
‫‪Seccond: <3,5,8‬‬
‫‪89,95,97,99‬‬
‫‪9,100,101> skip=1(with‬‬
‫)‪hout skip‬‬
‫ب‪.‬‬
‫‪5,24,39,60,68,75,81,84‬‬
‫‪4,89,92,96,,97,100,115‬‬
‫‪5> skip = 8 ‬‬
‫‪Firsst: <3,5,9,15‬‬
‫‪Seccond: <3,5,8‬‬
‫‪89,95,97,99‬‬
‫‪9,100,101> skip=4 ‬‬
‫‪ -4‬ﻓﺮض ﻛﻨﻴﺪ ﻳﻳﻚ ﺳﻴﺴﺘﻢ ﺑﺎززﻳﺎﺑﻲ اﻃﻼﻋﺎت ﺑﺎ دﻳﻜﺸﻨﺮي ززﻳﺮ داده ﺷﺪه اﺳﺳﺖ‪:‬‬
‫‪ ‬‬
‫‪ Term‬‬
‫‪ Beautiful‬‬
‫‪ Ch‬‬
‫‪hampion‬‬
‫‪Clean‬‬
‫‪ Colon‬‬
‫‪ Color ‬‬
‫‪ Colour‬‬
‫‪C‬‬
‫‪ C‬‬
‫‪Column‬‬
‫‪ Demo‬‬
‫‪ Dolor‬‬
‫أ‪.‬‬
‫‪ termID‬‬
‫‪ 1‬‬
‫‪ 2‬‬
‫‪ 3‬‬
‫‪ 4‬‬
‫‪ 5‬‬
‫‪ 6‬‬
‫‪ 7‬‬
‫‪ 8‬‬
‫‪ 9‬‬
‫‪ wildcard ‬ﺑﻬﺘﺮﻳﻦ روش در ﺑﺮﺧﻮرد ﺑﺎ ﭘﺮﺳﻤﺎن‪ c**o*n ‬ﭼﻪ ﻣﺮاﺣﻠﻲ ﻃﻲ ﻣﻲﻛﻨﺪ؟‬
‫‪w‬‬
‫اﻟﮕﻮرﻳﺘﻢﻫﺎي ﭘﺎﺳﺦ ﺑﻪ ﭘﺮﺳﻤﺎﺎن‬
‫‪ ‬‬
‫ن‬
‫از ﻣﻴﺎن‬
‫ﻖ ﻣﻌﻴﺎر ‪Jacccard‬‬
‫ﺶ از ‪ 0.5‬اﺳﺖ‬
‫ﺷﺎن ﺑﺎ ﭘﺮﺳﻤﺎن ‪ colmn‬ﺑﻴﺶ‬
‫ﺷﺒﺎﻫﺖﺷﺎ‬
‫‪ ‬‬
‫‪ bigram ind‬ﻛﻠﻤﺎﺗﻲ ﻛﻪ ﻃﺒﻖ‬
‫ب‪ .‬ﺑﺎ اﺳﺘﻔﺎﺎده از ﻳﻚ ‪dex‬‬
‫را ﭘﻴﺪا ﻛﻨﻴﺪ‪.‬‬
‫ﺑﺎزﻳﺎﺑﻲ ﭘﻴﺸﺮﻓﺘﻪي اﻃﻃﻼﻋﺎت ‪40324‬‬
‫ﻲ‬
‫ي اول –‬
‫ﺗﻤﺮﻳﻦ ﺳﺮي‬
‫ﻧﻴﻤﺴﺎل اوول ‪92-91‬‬
‫ﻣﺪرس‪ :‬ﺳﻠﻴﻴﻤﺎﻧﻲ‬
‫ﻞ‪ 23 :‬ﻣﻬﺮ‬
‫ﻣﻮﻋﺪ ﺗﺤﻮﻳﻞ‬
‫‪ ‬‬
‫ﺻﻴﺎت زﻳﺮ در اﺧﺧﺘﻴﺎر دارﻳﻢ‪:‬‬
‫ﻣﺠﻤﻮﻋﻪاي از اﺳﺳﻨﺎد ﺑﺎ ﺧﺼﻮﺻﻴ‬
‫‪ ‬‬
‫‪ .5‬ﻓﺮض ﻛﻨﻴﺪ ﻣ‬
‫‪١.٣۵ GB ‬‬
‫‪٣۵٣,١۶٣‬‬
‫‪٧٩٢,۶‬‬
‫‪۶١٩‬‬
‫‪٧ B‬‬
‫‪B ‬‬
‫‪۵۴۵‬‬
‫‪۵‬‬
‫أ‪.‬‬
‫‪Size of collection ‬‬
‫‪# of Do‬‬
‫‪ocs ‬‬
‫‪Size of Voccabulary ‬‬
‫‪Avverage length‬‬
‫‪h of Tokens‬‬
‫‪Aveerage # of tokkens per docc ‬‬
‫‪ ‬‬
‫‪ ‬‬
‫ﺸﻨﺮي را ﻣﺤﺎﺳﺒﺒﻪ ﻛﻨﻴﺪ‪:‬‬
‫در ﻫﺮ ﻳﻚ از ﺣﺎﻻت ﻓﺸﺮدهﺳﺎزي ززﻳﺮ اﻧﺪازه دﻳﻜﺸ‬
‫ﺖ‬
‫‪ fixed wid‬ﺑﺎ ﻃﻮل ‪ 20‬ﺑﺎﻳﺖ‬
‫‪dth (a‬‬
‫‪dictionaary as a string (b‬‬
‫‪ ‬‬
‫‪ (c‬ﺑﺎ اﺳﺳﺘﻔﺎده از ‪ blockking‬و ‪ k= 4‬‬
‫ﺪازه ﺗﻘﺮﻳﺒﻲ ‪non‐) inveerted indexx‬‬
‫ﺗﻮزﻳﻊ ﻛﻠﻤﺎت از ‪ zipf’s law‬ﺗﺒﻌﻴﺖ ﻛﻨﺪ‪ ،‬آآﻳﺎ ﻣﻲ‪ ‬ﺗﻮان ‪ ‬اﻧﺪ‬
‫ﻊ‬
‫ﻓﺮض اﻳﻨﻜﻪ‬
‫ب‪ .‬ﺑﺎ ض‬
‫‪ (posittional‬را ﺑ ‪ ‬ﻪدﺳﺳﺖ آورد )ﺗﻮﺿ‬
‫ﺿﻴﺢ(؟‬
‫ﺴﺘﻨﺪ(‬
‫‪ .6‬ﻣﺠﻤﻮﻋﻪ اﻋﺪاد زﻳﺮ را ﺑﻪ ﻋﻨﻮﻮان ‪ possting list‬ﺑﺮاي ﻛﻠﻤﻪﻪي ‪ A‬در ﻧﻈﺮ ﺑﮕﻴﺮﻳﺪ)اﻋﺪاد ﺷﻤﺎره اﺳﻨﺎد ﻫﺴ‬
‫‪81 ‬‬
‫‪7,17,50,18‬‬
‫ي ﻓﺸﺮده ﺳﺎزي‬
‫ﺑﺎ اﻋﻤﺎل ﻫﺮ ﻳﻚ از اﻟﮕﻮرﻳﺘﻢﻫﺎي‬
‫ي زﻳﺮ‪ ،‬اﻧﺪازه ‪ posting lisst‬ﻓﻓﺸﺮده ﺷﺪه را ﻣﺤﺎﺳﺒﻪ ﻛﻨﻴﺪ‪:‬‬
‫أ‪.‬‬
‫ﺸﺮده ﻧﺸﺪه‬
‫‪ 32 intteger‬ﺑﻴﺘﻲ ﻓﺸ‬
‫‪) V‬ﺑﺎﻳﺘﻲ(‬
‫ب‪ .‬ﻛﺪ ‪VB‬‬
‫ج‪ .‬ﻛﺪ ﮔﺎﻣﻣﺎ‬
‫ﻲ ﺑﺎ ﻛﺪ دﻟﺘﺎ ﺑﻪ ﺗﻤﺮﻳﻦ ‪ 5.9‬ﻛﺘﺎﺎب درس ﻣﺮاﺟﺟﻌﻪ ﻧﻤﺎﻳﻴﺪ‪(.‬‬
‫د‪ .‬ﻛﺪ دﻟﺘﺎﺎ )ﺑﺮاي آﺷﻨﺎﻳﻲ‬
‫ﭘﻴﺮﺮوز ﺑﺎﺷﻴﺪ‬