ﺑﺎزﻳﺎﺑﻲ ﭘﻴﺸﺮﻓﺘﻪي اﻃﻃﻼﻋﺎت 40324 ﻲ ي اول – ﺗﻤﺮﻳﻦ ﺳﺮي ﻧﻴﻤﺴﺎل اوول 92-91 ﻣﺪرس :ﺳﻠﻴﻴﻤﺎﻧﻲ ﻞ 23 :ﻣﻬﺮ ﻣﻮﻋﺪ ﺗﺤﻮﻳﻞ ﺑﻪ ﻧﺎم ﺧﺪا س ﺑﺎزﻳﺎﺑﻲ ﭘﭘﻴﺸﺮﻓﺘﻪي اﻃﻃﻼﻋﺎت ﺳﺮي اول درس ﺗﻤﺮﻳﻦ ﺮ ﺗﻤﺮﻳﻦ دﻗﻗﺖ ﻧﻤﺎﻳﻴﺪ: ﺤﻮﻳﻞ ﻟﻄﻄﻔﺎً ﺑﻪ ﻣﻮارد زﻳﺮﺮ در ﺗﻬﻴﻪ و ﺗﺤ - ﭼﻪ ﺳﻮاﻟﻲ در راﺑﺑﻄﻪ ﺑﺎ اﻳﻦ ﺗﻤﺮﻳﻳﻦ داﺷﺘﻴﺪ ﺑﻪ آآدرس sahba.ezaami@gmaill.comﻣﻴﻴﻞ ﺑﺰﻧﻴﺪ . ﭼﻨﺎن ﻪ - ﺗﻤﺮﻳﻦ ﻫﻫﺎي ﻧﻮﺷﺘﺎري ﺑﺑﺎﻳﺪ در ﻛﻼس درس ﺗﺤﻮﻳﻞ دداده ﺷﻮﻧﺪ . - ﻚ ﭘﻮﺷﻪ ﻓﺸﺮده ﻓﺎﻳﻞﻫﺎي ارﺳﺎﻟﻟﻲ ﺑﺎﻳﺪ در ﻳﻚ mir.fall.20ارﺳﺎل ﻧﻤﺎﻳﻴﺪ . ﻛﺪ ﺗﻤﺮﺮﻳﻦ ﺧﻮد را ﺑﻪ آدرس 012@gmail..com StudentID‐Hﺑﺎﺷﺪ .ﻣﻬﻠﺖ S ﺻﻮرت HW#1 ﻲ ﺷﻤﺎ اﺳﺖ .ﻫﻫﻤﭽﻨﻴﻦ ﻋﻨﻮان emailﺑﻪ ﺻ ﺑﺎﺷﺪ ﻛﻛﻪ اﺳﻢ آن ﺷﻤﻤﺎره داﻧﺸﺠﻮﻳﻲ ارﺳﺎل ﻛﻛﺪ ﺗﻤﺮﻳﻦ ﻫﺎ ﺗﺎ ﺳﺎﻋﺖ 12ﻇﻬﻬﺮ روز ﻣﻘﺮر اﺳﺳﺖ . - ﮔﻴﺮد . ﻧﻤﺮهاي ﺗﻌﻠﻖ ﻧﻤﻲ ﮔﻴ ﺑﻪ ﺗﻤﺮﻳﻳﻦ ﻫﺎﻳﻲ ﻛﻪ ﺑﺎ ﺗﺗﺎﺧﻴﺮ ﺗﺤﻮﻳﻞ داده ﺷﻮﻧﺪ ،ه - ﻦ ﻫﺎي ﻛﭙﻲ ﺑﻪ ﺷﺪت ﺑﺮﺧﻮردد ﺧﻮاﻫﺪ ﺷﺪ. ﺑﺎ ﺗﻤﺮﻳﻦ ﻣﻲﺗﻮاﻧﺪ روي preecisionو recall -١در ﻳﻚ ﺳﻴﺴﺘﺘﻢ IRﻫﺮ ﻳﻚ از ﻣﻮارد زﻳﺮ ﺑﺑﺮاي ﭘﺮﺳﻤﺎن ددﻟﺨﻮاه ﺑﻪ ﺻﻮرت ﻛﻠﻲ ﭼﻪ ﺗﺎﺛﺛﻴﺮي داﺷﺘﻪ ﺑﺎﺷﺪ؟ أ. ﺣﺬف stop wordﻫﻫﺎ واژهﻫﺎي ﻫﻫﻢ ﻣﻌﻨﻲ ش ﭘﺮﺳﻤﺎن ﻛﺎررﺑﺮ ﺑﺎ ب .ﮔﺴﺘﺮش ج .اﺳﺘﻔﺎدهه از اﻟﮕﻮرﻳﺘﻢ ﻫﺎﺎي stemmingو lemmattization د .اﺳﺘﻔﺎدهه از phrase indexing -2ﺑﻪ ﺳﻮال ﻫﺎي زﻳﺮ ﭘﺎﺳﺦ دﻫﻴﻴﺪ: أ. ﻫﺎي ﻣﺮﺗﺒﻂ ﺑﺎ ﭘﺮﺳﺳﻤﺎن "NOT y ﺑﺮاي ﺑﺎﺎزﻳﺎﺑﻲ ﺳﻨﺪ ي "x AND Nاﻟﮕﻮرﻳﺘﻢ meergeﺑﺎﻳﺪ ﭼﮕﻮﻧﻪﻪ ﺗﻐﻴﻴﺮ ﻛﻨﺪ ﺗﺎ ﺑﺘﻮاﻧﺪ ﺑﻪ اﻳﻦ ﺖ؟ ﭼﻪ ﻣﺮﺗﺒﻪ اي اﺳﺖ ﺤﺎﺳﺒﺎﺗﻲ اﻟﮕﻮرﻳﺘﺘﻢ ﺣﺎﺻﻞ از ﻪ دﻫﺪ؟ ﭘﻴﭽﻴﺪﮔﻲ ﻣﺤ ؟ ن ﺑﻪ ﺻﻮرت ﻛﺎﺎرا ﺟﻮاب ﭘﺮﺳﻤﺎن "x OR NOﻣﻲ ﺑﺮاي ﺑﺎزﻳﺎﺑﻲ اﺳﻨﺎﺎد ﻣﺮﺗﺒﻂ ﺑﺎ ﭘﺮﺮﺳﻤﺎن "OT y ب .آﻳﺎ ي ﻲﺗﻮان اﻟﮕﻮرﻳﺘﻤﻤﻲ از ﻣﺮﺗﺒﻪ ﻣﻣﺠﻤﻮع ﻃﻮل posting listt ﻫﺎي xو yاراﺋﻪ ﻛﻛﺮد؟ ﺗﻮﺿﻴﺢ. واژه ي ﺑﺎزﻳﺎﺑﻲ ﭘﻴﺸﺮﻓﺘﻪي اﻃﻃﻼﻋﺎت 40324 ﻲ ي اول – ﺗﻤﺮﻳﻦ ﺳﺮي ﻧﻴﻤﺴﺎل اوول 92-91 ﻣﺪرس :ﺳﻠﻴﻴﻤﺎﻧﻲ ﻞ 23 :ﻣﻬﺮ ﻣﻮﻋﺪ ﺗﺤﻮﻳﻞ ﻟﻴﺴﺖﻫﺎ ﮔﺮﻓﺘﻪ ﻛﻪ ﻳﻜﻲ اﺷﺘﺮﺮاك ﻪ ن ورودي ﺻﻮرت آرﮔﻮﻣﺎن -٣دو ﺗﺎﺑﻊ ﺑﻪ زﺑﺑﺎن C++ﻳﺎ javvaﺑﻨﻮﻳﺴﻴﺪ ﻛﻛﻪ دو postiing listرا ﺑﻪ ﺻ آنﻫﺎ ﺑﺎﻳﺪ ﺑﻪ ﺻﻮرت head ش ﻣﻌﻤﻮل اﺷﺘﺮﺮاك ﻣﺤﺎﺳﺒﻪ ﻛﻛﻨﺪ .ﻳﻌﻨﻲ der را ﺑﺎ اﺳﺘﻔﺎده از skip pointerrو دﻳﮕﺮي ﺑﺎ اﺳﺘﻔﺎده از روش زﻳﻳﺮ ﺑﺎﺷﺪ: ;)nt[] first,int[] second,fiirstSkip,seccondSkip int[] interssectWithSkiipPointer(in int[] interssect(int[] firrst,int[] seco ond); (skipﻣﺤﺎﺳﺒﻪ ي ادﻏﺎم postingg listﻫﺎي زﻳﺮ )در دو ﺣﺣﺎﻟﺖ ادﻏﺎم ﻋﺎددي و اﺳﺘﻔﺎده ااز p pointer ﺳﭙﭙﺲ ﺗﻌﺪاد ﻣﻘﺎﻳﻳﺴﻪ ﻫﺎ را ﺑﺮاي ﻛﺮﺮده و در ﻳﻚ ﺟﺟﺪول وارد ﻛﻨﻴﻴﺪ .در ﻧﻬﺎﻳﺖ ﻧﺘﻧﺘﺎﻳﺞ را ﺑﺮرﺳﻲ ﻛﻨﻴﺪ. أ. 5,24,39,60,68,75,81,84 4,89,92,96,,97,100,115 5> skip = 4 Firsst: <3,5,9,15 Seccond: <3,5,8 89,95,97,99 9,100,101> skip=1(with )hout skip ب. 5,24,39,60,68,75,81,84 4,89,92,96,,97,100,115 5> skip = 8 Firsst: <3,5,9,15 Seccond: <3,5,8 89,95,97,99 9,100,101> skip=4 -4ﻓﺮض ﻛﻨﻴﺪ ﻳﻳﻚ ﺳﻴﺴﺘﻢ ﺑﺎززﻳﺎﺑﻲ اﻃﻼﻋﺎت ﺑﺎ دﻳﻜﺸﻨﺮي ززﻳﺮ داده ﺷﺪه اﺳﺳﺖ: Term Beautiful Ch hampion Clean Colon Color Colour C C Column Demo Dolor أ. termID 1 2 3 4 5 6 7 8 9 wildcard ﺑﻬﺘﺮﻳﻦ روش در ﺑﺮﺧﻮرد ﺑﺎ ﭘﺮﺳﻤﺎن c**o*n ﭼﻪ ﻣﺮاﺣﻠﻲ ﻃﻲ ﻣﻲﻛﻨﺪ؟ w اﻟﮕﻮرﻳﺘﻢﻫﺎي ﭘﺎﺳﺦ ﺑﻪ ﭘﺮﺳﻤﺎﺎن ن از ﻣﻴﺎن ﻖ ﻣﻌﻴﺎر Jacccard ﺶ از 0.5اﺳﺖ ﺷﺎن ﺑﺎ ﭘﺮﺳﻤﺎن colmnﺑﻴﺶ ﺷﺒﺎﻫﺖﺷﺎ bigram indﻛﻠﻤﺎﺗﻲ ﻛﻪ ﻃﺒﻖ ب .ﺑﺎ اﺳﺘﻔﺎﺎده از ﻳﻚ dex را ﭘﻴﺪا ﻛﻨﻴﺪ. ﺑﺎزﻳﺎﺑﻲ ﭘﻴﺸﺮﻓﺘﻪي اﻃﻃﻼﻋﺎت 40324 ﻲ ي اول – ﺗﻤﺮﻳﻦ ﺳﺮي ﻧﻴﻤﺴﺎل اوول 92-91 ﻣﺪرس :ﺳﻠﻴﻴﻤﺎﻧﻲ ﻞ 23 :ﻣﻬﺮ ﻣﻮﻋﺪ ﺗﺤﻮﻳﻞ ﺻﻴﺎت زﻳﺮ در اﺧﺧﺘﻴﺎر دارﻳﻢ: ﻣﺠﻤﻮﻋﻪاي از اﺳﺳﻨﺎد ﺑﺎ ﺧﺼﻮﺻﻴ .5ﻓﺮض ﻛﻨﻴﺪ ﻣ ١.٣۵ GB ٣۵٣,١۶٣ ٧٩٢,۶ ۶١٩ ٧ B B ۵۴۵ ۵ أ. Size of collection # of Do ocs Size of Voccabulary Avverage length h of Tokens Aveerage # of tokkens per docc ﺸﻨﺮي را ﻣﺤﺎﺳﺒﺒﻪ ﻛﻨﻴﺪ: در ﻫﺮ ﻳﻚ از ﺣﺎﻻت ﻓﺸﺮدهﺳﺎزي ززﻳﺮ اﻧﺪازه دﻳﻜﺸ ﺖ fixed widﺑﺎ ﻃﻮل 20ﺑﺎﻳﺖ dth (a dictionaary as a string (b (cﺑﺎ اﺳﺳﺘﻔﺎده از blockkingو k= 4 ﺪازه ﺗﻘﺮﻳﺒﻲ non‐) inveerted indexx ﺗﻮزﻳﻊ ﻛﻠﻤﺎت از zipf’s lawﺗﺒﻌﻴﺖ ﻛﻨﺪ ،آآﻳﺎ ﻣﻲ ﺗﻮان اﻧﺪ ﻊ ﻓﺮض اﻳﻨﻜﻪ ب .ﺑﺎ ض (posittionalرا ﺑ ﻪدﺳﺳﺖ آورد )ﺗﻮﺿ ﺿﻴﺢ(؟ ﺴﺘﻨﺪ( .6ﻣﺠﻤﻮﻋﻪ اﻋﺪاد زﻳﺮ را ﺑﻪ ﻋﻨﻮﻮان possting listﺑﺮاي ﻛﻠﻤﻪﻪي Aدر ﻧﻈﺮ ﺑﮕﻴﺮﻳﺪ)اﻋﺪاد ﺷﻤﺎره اﺳﻨﺎد ﻫﺴ 81 7,17,50,18 ي ﻓﺸﺮده ﺳﺎزي ﺑﺎ اﻋﻤﺎل ﻫﺮ ﻳﻚ از اﻟﮕﻮرﻳﺘﻢﻫﺎي ي زﻳﺮ ،اﻧﺪازه posting lisstﻓﻓﺸﺮده ﺷﺪه را ﻣﺤﺎﺳﺒﻪ ﻛﻨﻴﺪ: أ. ﺸﺮده ﻧﺸﺪه 32 inttegerﺑﻴﺘﻲ ﻓﺸ ) Vﺑﺎﻳﺘﻲ( ب .ﻛﺪ VB ج .ﻛﺪ ﮔﺎﻣﻣﺎ ﻲ ﺑﺎ ﻛﺪ دﻟﺘﺎ ﺑﻪ ﺗﻤﺮﻳﻦ 5.9ﻛﺘﺎﺎب درس ﻣﺮاﺟﺟﻌﻪ ﻧﻤﺎﻳﻴﺪ(. د .ﻛﺪ دﻟﺘﺎﺎ )ﺑﺮاي آﺷﻨﺎﻳﻲ ﭘﻴﺮﺮوز ﺑﺎﺷﻴﺪ
© Copyright 2025 Paperzz