HW-4 .pdf

‫ﺑﺴﻤﻪ ﺗﻌﺎﻟﻲ‬
‫اﻟﮕﻮﺷﻨﺎﺳﻲ آﻣﺎري ‪) 40-725‬ﮔﺮوه ‪(2‬‬
‫ﻧﻴﻤﺴﺎل دوم ‪91-92‬‬
‫ﺗﻤﺮﻳﻦ ﺳﺮي ﭼﻬﺎرم‪ :‬اﻧﺘﺨﺎب و اﺳﺘﺨﺮاج وﻳﮋﮔﻲ‬
‫ﻣﺪرس‪ :‬ﺳﻠﻴﻤﺎﻧﻲ‬
‫ﻣﻮﻋﺪ ﺗﺤﻮﻳﻞ‪ 22 :‬اردﻳﺒﻬﺸﺖ ‪92‬‬
‫ﻧﻤﺮه از ‪80‬‬
‫ﺳﻮال ‪ 25) 1‬ﻧﻤﺮه(‪ :‬اﻧﺘﺨﺎب وﻳﮋﮔﻲ )‪(feature selection‬‬
‫‪ .1.1‬درﺳﺘﻲ ﻳﺎ ﻧﺎدرﺳﺘﻲ ﮔﺰارهﻫﺎي زﻳﺮ را ﺑﺎ ذﻛﺮ ﺗﻮﺿﻴﺢ ﻣﺸﺨﺺ ﻧﻤﺎﻳﻴﺪ‪.‬‬
‫‪ 2) .a‬ﻧﻤﺮه( ﻣﻤﻜﻦ اﺳﺖ وﻳﮋﮔﻲﻫﺎﻳﻲ ﻛﻪ ﻫﻤﺒﺴﺘﮕﻲ زﻳﺎدي دارﻧﺪ‪ ،‬اﻓﺰوﻧﻪ )‪ (redundant‬ﻧﺒﺎﺷﻨﺪ‪.‬‬
‫‪ 2) .b‬ﻧﻤﺮه( ﻳﻚ زوج وﻳﮋﮔﻲ ﻛﺎﻣﻼً ﻫﻤﺒﺴﺘﻪ ﺣﺘﻤﺎً ﺑﺎﻋﺚ اﻓﺰوﻧﮕﻲ )‪ (redundancy‬ﻣﻲﺷﻮﻧﺪ و ﺣﺬف ﻳﻜﻲ از آنﻫﺎ‬
‫ﻣﻨﻄﻘﻲ اﺳﺖ‪.‬‬
‫‪.c‬‬
‫)‪ 2‬ﻧﻤﺮه( ﻏﺎﻟﺐ روشﻫﺎي ﭼﻨﺪﻣﺘﻐﻴﺮه از روﻳﻜﺮد ‪ wrapper‬اﺳﺘﻔﺎده ﻣﻲﻧﻤﺎﻳﻨﺪ‪.‬‬
‫‪ .2.1‬ﻣﺠﻤﻮﻋﻪ داده ‪ spambase‬ﻛﻪ در ﻓﺎﻳﻠﻲ ﺑﻪ ﻫﻤﻴﻦ ﻋﻨﻮان در اﺧﺘﻴﺎر ﺷﻤﺎ ﻗﺮار داده ﺷﺪه را در ﻧﻈﺮ ﺑﮕﻴﺮﻳﺪ‪ .‬در اﻳﻦ ﺗﻤﺮﻳﻦ ﻫﺪف‬
‫آن اﺳﺖ ﻛﻪ اﺑﺘﺪا از ﺑﻴﻦ وﻳﮋﮔﻲﻫﺎ ﺗﻌﺪادي اﻧﺘﺨﺎب و ﺳﭙﺲ دﺳﺘﻪﺑﻨﺪي دادهﻫﺎي ﻛﺎﻫﺶ اﺑﻌﺎدﻳﺎﻓﺘﻪ ﺑﺎ اﺳﺘﻔﺎده از ‪ 1-NN‬اﻧﺠﺎم‬
‫ﺷﻮد‪ .‬ﻗﺒﻞ از ﻃﺮح ﺻﻮرت ﺗﻤﺮﻳﻦ‪ ،‬ﻣﻌﻴﺎرﻫﺎي اﻧﺘﺨﺎب وﻳﮋﮔﻲ ﻣﻮردﻧﻈﺮ ﻣﺨﺘﺼﺮاً ﻣﻌﺮﻓﻲ ﺧﻮاﻫﻨﺪ ﺷﺪ‪.‬‬
‫‪‬‬
‫ﻣﻌﻴﺎر ﺑﻬﺮه اﻃﻼﻋﺎﺗﻲ )‪ :(Information gain‬اﻳﻦ ﻣﻌﻴﺎر ﺑﺮاي ﻳﻚ وﻳﮋﮔﻲ ﻣﻲﺗﻮاﻧﺪ ﺑﺮ اﺳﺎس ﺗﻐﻴﻴﺮ ﻣﻘﺪار آﻧﺘﺮوﭘﻲ ﻗﺒﻞ و‬
‫ﺑﻌﺪ از ﺷﻜﺴﺘﻦ دادهﻫﺎ ﺑﺮ اﺳﺎس ﻣﻘﺪار آن وﻳﮋﮔﻲ ﻣﺤﺎﺳﺒﻪ ﺷﻮد‪:‬‬
‫| |‬
‫ﻛﻪ‬
‫ﻣﺠﻤﻮﻋﻪ دادهﻫﺎي آﻣﻮزش ﻗﺒﻞ از ﺷﻜﺴﺘﻦ ﺑﺮ اﺳﺎس وﻳﮋﮔﻲ‬
‫اﺳﺖ ﻛﻪ ﻣﻘﺪار وﻳﮋﮔﻲ‬
‫ﻧﻤﻮﻧﻪﻫﺎي ﻣﻮﺟﻮد در‬
‫را ﻧﺸﺎن ﻣﻲدﻫﺪ و‬
‫زﻳﺮﻣﺠﻤﻮﻋﻪاي از‬
‫در آنﻫﺎ ﺑﺮاﺑﺮ اﺳﺖ‪ .‬در واﻗﻊ ﺗﻔﺎﺿﻞ ﻣﻘﺪار آﻧﺘﺮوﭘﻲ ﺑﺮﭼﺴﺐﻫﺎ‬
‫ﺑﺎ ﻣﻴﺎﻧﮕﻴﻦ وزندار آﻧﺘﺮوﭘﻲﻫﺎي ﺑﻌﺪ از دﻳﺪه ﺷﺪن اﻳﻦ وﻳﮋﮔﻲ را ﻧﺸﺎن ﻣﻲدﻫﺪ‪.‬‬
‫ﻗﺒﻞ از دﻳﺪه ﺷﺪن وﻳﮋﮔﻲ‬
‫‪‬‬
‫∈‬
‫ﻣﻌﻴﺎر ‪ :Relief‬اﻳﻦ ﻣﻌﻴﺎر ﺑﻪ دﻧﺒﺎل ﻳﻚ اﻣﺘﻴﺎز ﻳﺎ وزن ﺑﺮاي وﻳﮋﮔﻲﻫﺎ ﻣﻲﮔﺮدد‪.‬‬
‫‪o‬‬
‫اﻣﺘﻴﺎزات اوﻟﻴﻪ را ﺻﻔﺮ ﻣﻲﮔﺬارد ‪0‬‬
‫‪o‬‬
‫ﺗﻜﺮار‪ ،‬ﻳﻚ داده‬
‫در ﻫﺮ دور از‬
‫ﺷﻤﺎرهي دﺳﺘﻪاش ﺑﺎ‬
‫ﻣﻲﺷﻮد‪:‬‬
‫‪‬‬
‫ﺑﻪ ﺻﻮرت ﺗﺼﺎدﻓﻲ اﻧﺘﺨﺎب ﻣﻲﺷﻮد‪ .‬ﻧﺰدﻳﻚﺗﺮﻳﻦ ﻫﻤﺴﺎﻳﻪ اﻳﻦ داده ﻛﻪ‬
‫ﻳﻜﻲ اﺳﺖ )ﺗﺤﺖ ﻋﻨﻮان‬
‫دﺳﺘﻪاش ﻣﺘﻔﺎوت اﺳﺖ )ﺗﺤﺖ ﻋﻨﻮان‬
‫‪, ,‬‬
‫) ‪1, … ,‬‬
‫ﻣﻘﺪار‬
‫( و ﻫﻤﭽﻨﻴﻦ ﻧﺰدﻳﻚﺗﺮﻳﻦ ﻫﻤﺴﺎﻳﻪاي ﻛﻪ ﺷﻤﺎرهي‬
‫(‪ ،‬ﭘﻴﺪا ﻣﻲﺷﻮﻧﺪ‪ .‬ﺳﭙﺲ وزن وﻳﮋﮔﻲﻫﺎ ﺑﻪ اﻳﻦ ﺻﻮرت ﺑﻪروزرﺳﺎﻧﻲ‬
‫‪, ,‬‬
‫‪, ,‬‬
‫(‪.‬‬
‫‪.‬‬
‫درﺣﺎﻟﺘﻲﻛﻪ وﻳﮋﮔﻲ ‪-‬ام اﺳﻤﻲ )‪ (nominal‬ﺑﺎﺷﻨﺪ‪ ،‬اﮔﺮ‬
‫و‬
‫ﻳﻜﻲ ﻧﺒﺎﺷﻨﺪ‬
‫ﻳﻚ وﮔﺮﻧﻪ ﺻﻔﺮ ﺧﻮاﻫﺪ ﺑﻮد‪ .‬اﻣﺎ در ﺣﺎﻟﺘﻲﻛﻪ وﻳﮋﮔﻲ ﻣﺮﺑﻮﻃﻪ ﻋﺪدي و ﺗﺮﺗﻴﺐدار ﺑﺎﺷﻨﺪ ﺑﻪ ﺻﻮرت‬
‫‪, ,‬‬
‫‪,…,‬‬
‫‪,…,‬‬
‫ﻣﺤﺎﺳﺒﻪ ﻣﻲﺷﻮد )ﻳﻌﻨﻲ ﻗﺪرﻣﻄﻠﻖ ﺗﻔﺎﺿﻞ ﻣﻘﺎدﻳﺮ‬
‫وﻳﮋﮔﻲ ﻣﺮﺑﻮﻃﻪ ﻛﻪ ﺑﻪ ﻛﻞ ﻣﺤﺪودهي ﻣﻘﺎدﻳﺮ آن وﻳﮋﮔﻲ ﻧﺮﻣﺎل ﺷﺪه اﺳﺖ(‪.‬‬
‫در اﻳﻦ ﺗﻤﺮﻳﻦ ﻫﺪف آن اﺳﺖ ﻛﻪ روشﻫﺎي زﻳﺮ ﺑﺮاي اﻧﺘﺨﺎب وﻳﮋﮔﻲ ﭘﻴﺎدهﺳﺎزي ﺷﺪه و ﻧﺘﺎﻳﺞ دﺳﺘﻪﺑﻨﺪي ﺣﺎﺻﻞ از‬
‫ﺑﻪﻛﺎرﮔﻴﺮي وﻳﮋﮔﻲﻫﺎي اﻧﺘﺨﺎب ﺷﺪه ﺑﺎ ﻫﻢ ﻣﻘﺎﻳﺴﻪ ﺷﻮﻧﺪ‪ .‬ﺗﻌﺪاد وﻳﮋﮔﻲﻫﺎﻳﻲ ﻛﻪ ﻗﺮار اﺳﺖ اﻧﺘﺨﺎب ﺷﻮﻧﺪ‪ ،‬در ﻣﺠﻤﻮﻋﻪ‬
‫‪1,5,10,20,30,40,50‬‬
‫درﻧﻈﺮ ﮔﺮﻓﺘﻪ ﺷﺪهاﻧﺪ‪ .‬در ﻫﺮﻳﻚ از ﻣﻮارد زﻳﺮ ﭘﺲ از اﻋﻤﺎل روش اﻧﺘﺨﺎب وﻳﮋﮔﻲ از‬
‫دﺳﺘﻪﺑﻨﺪ ‪ 1-NN‬اﺳﺘﻔﺎده ﻧﻤﺎﻳﻴﺪ و ﻧﻤﻮدار ﺧﻄﺎي دﺳﺘﻪﺑﻨﺪﻳﻲ روي دادهي آﻣﻮزش و آزﻣﻮن را ﺑﺮ اﺳﺎس ﺗﻌﺪاد وﻳﮋﮔﻲﻫﺎي‬
‫اﻧﺘﺨﺎب ﺷﺪه رﺳﻢ و ﺗﺤﻠﻴﻞ ﻧﻤﺎﻳﻴﺪ‪:‬‬
‫‪ 5) .a‬ﻧﻤﺮه( ﻓﻴﻠﺘﺮ ﺗﻚ ﻣﺘﻐﻴﺮه )‪ (univarite filter‬ﺑﺎ اﺳﺘﻔﺎده از ﻣﻌﻴﺎر ﺑﻬﺮه اﻃﻼﻋﺎﺗﻲ )‪(Information Gain‬‬
‫‪.b‬‬
‫)‪ 8‬ﻧﻤﺮه( ﻓﻴﻠﺘﺮ ﺗﻚ ﻣﺘﻐﻴﺮه ﺑﺎ اﺳﺘﻔﺎده از ﻣﻌﻴﺎر ‪Relief‬‬
‫‪.c‬‬
‫)‪ 6‬ﻧﻤﺮه( ‪ wrapper‬ﭼﻨﺪ ﻣﺘﻐﻴﺮه )‪ (multivarite‬ﺑﺎ اﺳﺘﺮاﺗﮋي ﺟﺴﺘﺠﻮي اﻧﺘﺨﺎب رو ﺑﻪ ﺟﻠﻮي ﺗﺮﺗﻴﺒﻲ ) ‪sequential‬‬
‫‪ (forward‬ﻛﻪ از دﻗﺖ دﺳﺘﻪﺑﻨﺪي ‪ 1-NN‬ﺑﻪ ﺻﻮرت ‪ LOOCV‬ﺑﺮاي ارزﻳﺎﺑﻲ ﻳﻚ ﻣﺠﻤﻮﻋﻪ وﻳﮋﮔﻲ اﺳﺘﻔﺎده ﻣﻲﻛﻨﺪ‪.‬‬
‫ﺳﻮال ‪ 10) 2‬ﻧﻤﺮه(‪PCA :‬‬
‫‪,…,‬‬
‫‪ 6) .1.2‬ﻧﻤﺮه( ﻓﺮض ﻛﻨﻴﺪ ‪ ‬‬
‫‪,‬‬
‫ﭘﺎﻳﻪﻫﺎي ‪ orthonormal‬ﻓﻀﺎي ‪-‬ﺑﻌﺪي ﺑﺎﺷﻨﺪ‪ .‬ﻧﺸﺎن دﻫﻴﺪ ﻣﺘﻮﺳﻂ ﻣﺠﺬور ﺧﻄﺎ‬
‫)‪ (MSE‬ﺑﻴﻦ ﻳﻚ ﻧﻘﻄﻪ ‪-‬ﺑﻌﺪي و ﺗﺼﻮﻳﺮ آن در ﻓﻀﺎي ‪- ′‬ﺑﻌﺪي ﺣﺪاﻗﻞ ﻣﻲﺷﻮد اﮔﺮ‬
‫ﺷﻮﻧﺪ‪.‬‬
‫‪.I‬‬
‫ﭘﺎﻳﻪﻫﺎ ﺑﺮدارﻫﺎي وﻳﮋهي ﻣﺎﺗﺮﻳﺲ‬
‫‪.II‬‬
‫زﻳﺮﻓﻀﺎي ‪- ′‬ﺑﻌﺪي ﻓﻀﺎﻳﻲ ﺑﺎﺷﺪ ﻛﻪ ﺗﻮﺳﻂ ﺑﺮدارﻫﺎي وﻳﮋهي ﻣﺘﻨﺎﻇﺮ ﺑﺎ ﺑﺰرگﺗﺮﻳﻦ ﻣﻘﺎدﻳﺮ وﻳﮋه‬
‫ﭘﻮﺷﺶ‬
‫)‪ (span‬ﻣﻲﺷﻮد‪.‬‬
‫]راﻫﻨﻤﺎﻳﻲ‪ :‬ﺳﻌﻲ ﻛﻨﻴﺪ ﺣﺪاﻗﻞ ﻣﻴﺎﻧﮕﻴﻦ ﻣﺠﺬورات ﺧﻄﺎ را ﺑﺎ وﺟﻮد ﻣﺤﺪودﻳﺖ‬
‫‪1, … ,‬‬
‫‪1 ‬‬
‫ﺑﻪ دﺳﺖ آورﻳﺪ‪[.‬‬
‫‪ 4) .2.2‬ﻧﻤﺮه( رواﺑﻂ ﻣﺮﺑﻮط ﺑﻪ ‪ kernel PCA‬را ﺑﻪ ﺻﻮرت ﻛﺎﻣﻞ از روي رواﺑﻂ ‪ PCA‬اﺳﺘﺨﺮاج ﻛﻨﻴﺪ و ﮔﺎمﻫﺎﻳﻲ را ﻛﻪ ﺑﺮاي ﭘﻴﺪا‬
‫ﻛﺮدن ﺗﺒﺪﻳﻞﻳﺎﻓﺘﻪي دادهﻫﺎ ﺑﺎ داﺷﺘﻦ ﻣﺎﺗﺮﻳﺲ ﻫﺴﺘﻪي ‪ ،‬در روش ‪ Kernel-PCA‬ﻣﻮرد ﻧﻴﺎز اﺳﺖ‪ ،‬ﻣﺸﺨﺺ ﻧﻤﺎﻳﻴﺪ‪.‬‬
‫ﺳﻮال ‪ 20) 3‬ﻧﻤﺮه(‪LDA :‬‬
‫|‬
‫‪ .1.3‬ﻓﺮض ﻛﻨﻴﺪ‬
‫ﺗﺎﺑﻊ ﭼﮕﺎﻟﻲ اﺣﺘﻤﺎل دﻟﺨﻮاه ﺑﺎ ﻣﻴﺎﻧﮕﻴﻦ‬
‫ﻛﻪ ﺑﺎﻋﺚ ﺗﺼﻮﻳﺮ ﻛﺮدن ﻧﻘﺎط روي ﺑﺮدار‬
‫دﺳﺘﻪي ‪-‬ام ﺑﻪ ﺗﺮﺗﻴﺐ ﺑﺎ‬
‫و‬
‫و ﻣﺎﺗﺮﻳﺲ ﻛﻮوارﻳﺎﻧﺲ‬
‫ﺑﺎﺷﺪ‪ .‬ﻫﻤﭽﻨﻴﻦ ﺗﺒﺪﻳﻞ‬
‫ﻣﻲﺷﻮد را در ﻧﻈﺮ ﺑﮕﻴﺮﻳﺪ‪ .‬ﻣﻴﺎﻧﮕﻴﻦ و وارﻳﺎﻧﺲ دادهﻫﺎي ﺗﺼﻮﻳﺮ ﺷﺪه‬
‫اﺣﺘﻤﺎل ﭘﻴﺸﻴﻦ دﺳﺘﻪي ‪-‬ام را ﻣﺸﺨﺺ ﻛﻨﺪ‪:‬‬
‫ﻧﺸﺎن داده ﻣﻲﺷﻮﻧﺪ‪ .‬اﮔﺮ‬
‫‪ 3) .a‬ﻧﻤﺮه( ﻧﺸﺎن دﻫﻴﺪ ﺑﻬﻴﻨﻪي ﺗﺎﺑﻊ ﻫﺪف‬
‫‪ ‬‬
‫ﺑﺮاﺑﺮ ﺑﺎ‬
‫‪.‬‬
‫‪ 2) .b‬ﻧﻤﺮه( آﻳﺎ اﮔﺮ ﺑﺨﻮاﻫﻴﻢ روش ‪ Fisher‬را ﺑﺎ ﺗﺎﺑﻊ ﻫﺪف ﺑﺎﻻ ﺗﻄﺒﻴﻖ دﻫﻴﻢ ﻣﻘﺎدﻳﺮ اﺣﺘﻤﺎﻻت ﭘﻴﺸﻴﻦ را در ﺗﺎﺑﻊ‬
‫ﻫﺪف ﻓﻮق ﺑﺎﻳﺪ ﻣﺴﺎوي ﻗﺮار دﻫﻴﻢ ﻳﺎ ﺧﻴﺮ )ﺗﻮﺿﻴﺢ دﻫﻴﺪ(؟‬
‫‪ 5) .2.3‬ﻧﻤﺮه( ﻧﺸﺎن دﻫﻴﺪ راﺳﺘﺎي ﺑﺮداري ﻛﻪ ﺗﻮﺳﻂ روش ‪ Fisher‬ﺑﺮاي ﻣﺴﺎﻟﻪي دو دﺳﺘﻪاي ﭘﻴﺪا ﻣﻲﺷﻮد‪ ،‬ﺟﻮاب ﻣﺴﺎﻟﻪي‬
‫ﺣﺪاﻗﻞ ﻣﺠﺬورات ﺧﻄﺎ )ﺗﺎﺑﻊ ﻫﺰﻳﻨﻪي ‪ (SSE‬اﺳﺖ در ﺣﺎﻟﺘﻲﻛﻪ ﺑﺮﭼﺴﺐ ﻣﻄﻠﻮب ﺑﺮاي ﻧﻤﻮﻧﻪﻫﺎي دﺳﺘﻪي اول‬
‫ﻧﻤﻮﻧﻪﻫﺎي دﺳﺘﻪي دوم‬
‫‪ -‬در ﻧﻈﺮ ﮔﺮﻓﺘﻪ ﺷﻮد )‬
‫و‬
‫و ﺑﺮاي‬
‫ﺑﻪ ﺗﺮﺗﻴﺐ ﺗﻌﺪاد ﻧﻤﻮﻧﻪﻫﺎي آﻣﻮزش ﻣﻮﺟﻮد ﺑﺮاي دﺳﺘﻪي اول و‬
‫دوم را ﻧﺸﺎن ﻣﻲدﻫﻨﺪ(‪.‬‬
‫]راﻫﻨﻤﺎﻳﻲ‪ :‬ﮔﺎمﻫﺎي ﻛﻠﻲ اﻳﻦ اﺛﺒﺎت در ﺑﺨﺶ ‪ 4.1.5‬ﻛﺘﺎب ‪ Bishop‬آﻣﺪه اﺳﺖ‪[.‬‬
‫‪ 6) .3.3‬ﻧﻤﺮه( ﭘﻴﺪا ﻛﺮدن ﺗﺒﺪﻳﻞ ﺧﻄﻲ‬
‫)‬
‫…‬
‫‪ ‬‬
‫( از ﻓﻀﺎي وﻳﮋﮔﻲ‬
‫ﺑﻌﺪي ﺑﻪ ﻓﻀﺎي ‪ ′‬ﺑﻌﺪي در‬
‫ﻣﺴﺎﻟﻪ ﻛﻠﻲ ﭼﻨﺪدﺳﺘﻪاي )‪ ،(multi-class‬اﮔﺮ ﺗﺎﺑﻊ ﻫﺪﻓﻲ ﺑﻪ دﻧﺒﺎل ﺣﺪاﻛﺜﺮ ﻛﺮدن ﻣﺠﻤﻮع ﻣﺠﺬور ﻓﻮاﺻﻞ زوج دادهﻫﺎﻳﻲ ﻛﻪ‬
‫درون ﻳﻚ دﺳﺘﻪ ﻗﺮار ﻣﻲﮔﻴﺮﻧﺪ و ﺣﺪاﻗﻞ ﻛﺮدن ﻣﺠﻤﻮع ﻣﺠﺬور ﻓﻮاﺻﻞ زوج دادهﻫﺎﻳﻲ ﻛﻪ درون دﺳﺘﻪﻫﺎي ﻣﺘﻔﺎوت ﻗﺮار‬
‫ﻣﻲﮔﻴﺮﻧﺪ‪ ،‬ﺑﺎﺷﺪ‪:‬‬
‫‪ .a‬ﻧﺸﺎن دﻫﻴﺪ ﺗﺎﺑﻊ ﻫﺪف ﻣﺮﺑﻮﻃﻪ ﻣﻲﺗﻮاﻧﺪ ﺑﺎ اﺳﺘﻔﺎده از ﻣﺎﺗﺮﻳﺲﻫﺎي ﭘﺮاﻛﻨﺪﮔﻲ دروندﺳﺘﻪاي‬
‫و ﺑﻴﻦدﺳﺘﻪاي‬
‫ﺗﺎﺑﻊ ﻫﺪف را ﺑﻪ ﺻﻮرت زﻳﺮ ﺑﺎزﻧﻮﻳﺴﻲ ﻛﺮد‪:‬‬
‫‪ .b‬آﻳﺎ اﻳﻦ ﺗﺎﺑﻊ ﻫﺪف ﻫﻤﺎن ﺗﺎﺑﻊ ﻫﺪف ‪ LDA‬اﺳﺖ؟‬
‫‪ 4) .4.3‬ﻧﻤﺮه( آﻳﺎ ﺑﻴﺸﻴﻨﻪﻛﺮدن ﺗﺎﺑﻊ ﻫﺪف ‪) MDA‬ﺗﻌﻤﻴﻢ ﭼﻨﺪ دﺳﺘﻪاي ‪ (LDA‬ﺑﺮاﺑﺮ ﺑﺎ ﺣﻞ ﻣﺴﺎﻟﻪي ﺑﻬﻴﻨﻪﺳﺎزي زﻳﺮ اﺳﺖ؟ در‬
‫ﺻﻮرت درﺳﺘﻲ اﺛﺒﺎت ﻛﻨﻴﺪ و ﮔﺮﻧﻪ دﻻﻳﻞ ﺧﻮد را ﻣﻄﺮح ﻧﻤﺎﻳﻴﺪ‪.‬‬
‫‪max‬‬
‫‪s. b. ‬‬
‫ﺳﻮال ‪ 25) 4‬ﻧﻤﺮه(‪ :‬ﭘﻴﺎدهﺳﺎزي و ﻣﻘﺎﻳﺴﻪ روشﻫﺎي ﻛﺎﻫﺶ اﺑﻌﺎد ‪ PCA‬و ‪LDA‬‬
‫در اﻳﻦ ﺗﻤﺮﻳﻦ ﻫﺪف آن اﺳﺖ ﻛﻪ ﺑﺮاي ﻣﺠﻤﻮﻋﻪ داده ‪ MNIST‬اﺑﺘﺪا دادهﻫﺎ ﺗﻮﺳﻂ روشﻫﺎي ‪ LDA‬و ‪ PCA‬از ﻓﻀﺎي وﻳﮋﮔﻲ اوﻟﻴﻪ‬
‫ﺑﻪ ﻓﻀﺎي ﺑﺎ اﺑﻌﺎد ﭘﺎﻳﻴﻦ ﻧﮕﺎﺷﺖ ﺷﻮد و ﺳﭙﺲ در ﻓﻀﺎي ﻛﺎﻫﺶ اﺑﻌﺎد ﻳﺎﻓﺘﻪ دﺳﺘﻪﺑﻨﺪي ﺗﻮﺳﻂ دﺳﺘﻪﺑﻨﺪ ‪ 1-NN‬اﻧﺠﺎم ﺷﻮد‪ .‬ﻻزم ﺑﻪ‬
‫ذﻛﺮ اﺳﺖ ﻛﻪ ﺑﺮاي ﭘﻴﺪا ﻛﺮدن ﺗﺒﺪﻳﻼت ﺧﻄﻲ ﻣﺮﺑﻮط ﺑﻪ روشﻫﺎي ‪ PCA‬و ‪ LDA‬ﺑﺎﻳﺪ ﺗﻨﻬﺎ از دادهﻫﺎي آﻣﻮزش اﺳﺘﻔﺎده ﺷﻮد‪.‬‬
‫ﻫﻤﺎنﮔﻮﻧﻪ ﻛﻪ در ﺗﻤﺮﻳﻦ ﺳﺮي ﺳﻮم ﺗﻮﺿﻴﺢ داده ﺷﺪ‪ ،‬ﻣﺠﻤﻮﻋﻪ دادهي ‪ MNIST‬ﺷﺎﻣﻞ ارﻗﺎم دﺳﺖﻧﻮﻳﺲ اﺳﺖ و ﻫﺮ دادهي اﻳﻦ‬
‫ﻣﺠﻤﻮﻋﻪ ﻳﻚ ﺗﺼﻮﻳﺮ ‪ 28 28‬اﺳﺖ‪ .‬در ﻓﺎﻳﻠﻲ ﻛﻪ در اﺧﺘﻴﺎر ﺷﻤﺎ ﻗﺮار ﮔﺮﻓﺘﻪ‪ ،‬ﻫﺮ ﺳﻄﺮ داده ﺣﺎﺻﻞ ﺑﺮداري ﻛﺮدن ﻳﻚ ﺗﺼﻮﻳﺮ‬
‫‪ 28 28‬اﺳﺖ ﻛﻪ در اﻧﺘﻬﺎي آن ﻣﺸﺨﺺ ﺷﺪه اﺳﺖ ﻛﻪ اﻳﻦ ﺗﺼﻮﻳﺮ ﻣﺮﺑﻮط ﺑﻪ ﻛﺪامﻳﻚ از ارﻗﺎم ‪ 0‬ﺗﺎ ‪ 9‬ﺑﻮده اﺳﺖ )ﺑﻨﺎﺑﺮاﻳﻦ از‬
‫ﺳﺘﻮنﻫﺎي ‪ 1‬ﺗﺎ ‪ 784‬ﺑﺮاي وﻳﮋﮔﻲﻫﺎي داده و از ﺳﺘﻮن ‪ 785‬ﺑﺮاي ﺑﺮﭼﺴﺐ اﺳﺘﻔﺎده ﻧﻤﺎﻳﻴﺪ(‪ .‬از ‪ 4000‬دادهي اول ﺑﺮاي آﻣﻮزش و از‬
‫ﻣﺎﺑﻘﻲ دادهﻫﺎ ﺑﺮاي آزﻣﻮن اﺳﺘﻔﺎده ﺷﻮد‪.‬‬
‫در ﭘﻴﺎدهﺳﺎزي اﻳﻦ ﺗﻤﺮﻳﻦ ﻣﻲﺗﻮاﻧﻴﺪ از اﻳﻦ ﻧﻜﺘﻪ اﺳﺘﻔﺎده ﻧﻤﺎﻳﻴﺪ ﻛﻪ ﺑﺮدارﻫﺎ و ﻣﻘﺎدﻳﺮ وﻳﮋه ﻳﻚ ﻣﺎﺗﺮﻳﺲ ﺑﻪ ﺷﻜﻞ‬
‫روي ﺑﺮدارﻫﺎ و ﻣﻘﺎدﻳﺮ وﻳﮋه‬
‫ﭘﻴﺪا ﻛﺮد‪.‬‬
‫را ﻣﻲﺗﻮان از‬
‫‪ .1.4‬ﺑﻪﻛﺎرﮔﻴﺮي ‪:PCA‬‬
‫‪ 3) .a‬ﻧﻤﺮه( روش ‪ PCA‬را ﺑﻪ ﻛﺎرﮔﻴﺮﻳﺪ و ﺗﺼﺎوﻳﺮ ‪ 5‬ﺑﺮدار وﻳﮋهي اول را در ﮔﺰارش اراﺋﻪ ﻧﻤﺎﻳﻴﺪ‪.‬‬
‫‪ 3) .b‬ﻧﻤﺮه( دادهﻫﺎي ﻣﺮﺑﻮﻃﻪ ﺑﻪ ارﻗﺎم ‪ 1 ،0‬و ‪ 2‬را در ﻓﻀﺎي ﺗﺒﺪﻳﻞﻳﺎﻓﺘﻪ دو ﺑﻌﺪي )ﻛﻪ ﭘﺎﻳﻪﻫﺎي آن را دو ﻣﻮﻟﻔﻪي‬
‫وﻳﮋهي اول ﺗﺸﻜﻴﻞ ﻣﻲدﻫﻨﺪ( ﺑﻪ ﺻﻮرت ‪ scatter plot‬ﺑﺎ رﻧﮓﻫﺎي ﻣﺘﻔﺎوت رﺳﻢ ﻧﻤﺎﻳﻴﺪ‪.‬‬
‫‪ 4) .c‬ﻧﻤﺮه( ﻣﻴﺎﻧﮕﻴﻦ ﺧﻄﺎي ﺑﺎزﺳﺎزي ﺗﺼﺎوﻳﺮ را ﺑﻪ ازاي ﻫﺮ ﻳﻚ از ﺗﻌﺪاد اﺑﻌﺎد ﻓﻀﺎي ﺗﺒﺪﻳﻞﻳﺎﻓﺘﻪ‬
‫‪ 1,2,5,10,20,50,100,200,500‬ﻣﺸﺨﺺ ﻧﻤﻮده و ﻧﺘﺎﻳﺞ را در ﻳﻚ ﻧﻤﻮدار اراﺋﻪ ﻧﻤﺎﻳﻴﺪ‪.‬‬
‫]ﺧﻄﺎي ﺑﺎزﺳﺎزي ﻫﺮ ﺗﺼﻮﻳﺮ را ﻣﻴﺎﻧﮕﻴﻦ ﻣﺠﺬور ﺧﻄﺎ در روﺷﻨﺎﻳﻲ ﭘﻴﻜﺴﻞﻫﺎي ﺑﺎزﺳﺎزي ﺷﺪه در ﻧﻈﺮ ﺑﮕﻴﺮﻳﺪ‪[.‬‬
‫‪ 5) .d‬ﻧﻤﺮه( ﻧﺘﺎﻳﺞ دﺳﺘﻪﺑﻨﺪي در ﻓﻀﺎي ﺗﺒﺪﻳﻞ ﻳﺎﻓﺘﻪ را ﺑﻪ ازاي ﺗﻤﺎم ﺣﺎﻻﺗﻲ ﻛﻪ اﺳﺘﻔﺎده از ‪%100 ،%80 ،...،%40 ،%20‬‬
‫اول دادهﻫﺎي آﻣﻮزش )ﺑﺮاي ﺗﻌﻴﻴﻦ ﺗﺒﺪﻳﻞ ‪ PCA‬و ﻫﻤﭽﻨﻴﻦ ﺑﻪ ﻋﻨﻮان دادهي آﻣﻮزش در روش ‪ (1-NN‬ﺻﻮرت‬
‫ﮔﻴﺮد و در ﻫﺮ ﻛﺪام از اﻳﻦ ﻣﻮارد ﺗﻌﺪاد اﺑﻌﺎد ﻓﻀﺎي ﺗﺒﺪﻳﻞﻳﺎﻓﺘﻪ ‪1,2,5,10,20,50,100,200,500‬‬
‫ﺗﻐﻴﻴﺮ‬
‫ﻛﻨﺪ را ﺑﻪ دﺳﺖ آورﻳﺪ‪ .‬ﻛﻞ ﻧﺘﺎﻳﺞ را در ﻳﻚ ﻧﻤﻮدار ﮔﺰارش ﻧﻤﻮده و ﺗﺤﻠﻴﻞ ﻧﻤﺎﻳﻴﺪ‪.‬‬
‫‪ .2.4‬ﺑﻪﻛﺎرﮔﻴﺮي ‪:LDA‬‬
‫‪ 5) .a‬ﻧﻤﺮه( ﺑﺎ اﺳﺘﻔﺎده از دادهﻫﺎي آﻣﻮزش ﻣﺎﺗﺮﻳﺲ ﺗﺒﺪﻳﻞ ‪ LDA‬را ﭘﻴﺪا ﻧﻤﺎﻳﻴﺪ و دادهﻫﺎ را ﺑﻪ ﻫﺮ ﻳﻚ از ﻓﻀﺎﻫﺎي‬
‫وﻳﮋﮔﻲ ﺑﺎ اﺑﻌﺎد ‪1,2, . . . ,8,9‬‬
‫ﻧﮕﺎﺷﺖ ﻛﻨﻴﺪ‪ .‬ﺑﺮاي ﻫﺮ ﺣﺎﻟﺖ ﺧﻄﺎي دﺳﺘﻪﺑﻨﺪي ‪ 1-NN‬روي ﻧﻤﻮﻧﻪﻫﺎي‬
‫آزﻣﻮن را ﺑﻪ دﺳﺖ آورﻳﺪ‪.‬‬
‫‪.b‬‬
‫)‪ 3‬ﻧﻤﺮه( دادهﻫﺎي ﻣﺮﺑﻮﻃﻪ ﺑﻪ ارﻗﺎم ‪ 1 ،0‬و ‪ 2‬را در ﻓﻀﺎي ﺗﺒﺪﻳﻞﻳﺎﻓﺘﻪ دو ﺑﻌﺪي ‪2‬‬
‫ﺑﻪ ﺻﻮرت ‪ scatter plot‬ﺑﺎ‬
‫رﻧﮓﻫﺎي ﻣﺘﻔﺎوت رﺳﻢ ﻧﻤﺎﻳﻴﺪ‪.‬‬
‫‪ .3.4‬ﻣﻘﺎﻳﺴﻪ ‪ PCA‬و ‪:LDA‬‬
‫)‪ 2‬ﻧﻤﺮه( ﻧﺘﺎﻳﺞ ﺑﻪ دﺳﺖ آﻣﺪه ﺑﺮاي ‪ PCA‬و ‪ LDA‬ﺑﺮ روي دادهﻫﺎي آزﻣﻮن در ﺣﺎﻟﺘﻲﻛﻪ از ﻛﻞ دادهﻫﺎي آﻣﻮزش اﺳﺘﻔﺎده‬
‫ﺷﻮد‪ ،‬ﺑﻪ ازاي ‪1,2, . . . ,8,9‬‬
‫در ﻳﻚ ﻧﻤﻮدار ﻧﺸﺎن داده و ﻣﻘﺎﻳﺴﻪ ﻧﻤﺎﻳﻴﺪ‪.‬‬
‫ﻣﻮﻓﻖ ﺑﺎﺷﻴﺪ‬