HW4.pdf

‫ﺑﻪ ﻧﺎم ﺧﺪا‬
‫ﻧﯿﻤﺴﺎل اول ‪٩۴-٩۵‬‬
‫ﯾﺎدﮔﯿﺮی ﻣﺎﺷﯿﻦ ‪)۴٠-٧١٧‬ﮔﺮوه دوم(‬
‫ﻣﺪرس‪ :‬دﮐﺘﺮ ﺳﻠﯿﻤﺎﻧ‬
‫ﺗﻤﺮﯾﻦ ﺳﺮی ﭼﻬﺎرم‪ -‬ﻣﺎﺷﯿﻦ ﺑﺮدار ﭘﺸﺘﯿﺒﺎن‪ ،‬ﺗﺎﺑﻊ ﻫﺴﺘﻪ‪ ،‬ﻧﻈﺮﯾﻪی ﯾﺎدﮔﯿﺮی‪ ،‬درﺧﺖ ﺗﺼﻤﯿﻢ‬
‫ﻧﻤﺮه‪١٢٠+١٠ :‬‬
‫ﻣﻮﻋﺪ ﺗﺤﻮﯾﻞ‪ :‬ﭘﻨﺞ ﺷﻨﺒﻪ ‪ ۵‬آذر ‪٩۴‬‬
‫ﺳﻮال ‪ ١۵+١٠)١‬ﻧﻤﺮه(‪ :‬ﻣﺎﺷﯿﻦ ﺑﺮدار ﭘﺸﺘﯿﺒﺎن‬
‫)‬
‫ﻣﺎﺷﯿﻦ ﺑﺮدار ﭘﺸﺘﯿﺒﺎن ‪ ١‬ﺣﺎﺷﯿﻪ ﻧﺮم ‪ ٢‬ﺑﺎ ﺗﺎﺑﻊ ﻫﺰﯾﻨﻪی زﯾﺮ را در ﻧﻈﺮ ﺑ ﯿﺮﯾﺪ‪y(x) = w Φ(x) + b :‬‬
‫‪T‬‬
‫‪N‬‬
‫∑‬
‫‪1‬‬
‫‪ξn + ||w||2‬‬
‫‪2‬‬
‫‪n=1‬‬
‫)‪(١‬‬
‫‪C‬‬
‫) )‪1 − ξn ≤ t(n) y(x(n‬‬
‫‪0 ≤ ξn‬‬
‫(‬
‫‪argmin‬‬
‫‪w,ξ‬‬
‫‪s.t‬‬
‫ﮐﻪ ‪ n‬ﺑﺮﭼﺴﺐ ﻣﻄﻠﻮب داده ‪-n‬ام را ﻧﺸﺎن ﻣ دﻫﺪ‪.‬‬
‫)‬
‫‪ ۵) .١.١‬ﻧﻤﺮه( ﺑﺮای ﻣﺤﺪودﯾﺖ ) )‪ 1 − ξn ≤ t y(x(n‬ﺿﺮﯾﺐ ﻻﮔﺮاﻧﮋ ‪ an‬و ﺑﺮای ﻣﺤﺪودﯾﺖ ‪ 0 ≤ ξn‬ﺿﺮﯾﺐ ﻻﮔﺮاﻧﮋ ‪ µn‬در ﻧﻈﺮ‬
‫ﺑ ﯿﺮﯾﺪ‪ .‬ﺳﭙﺲ ﻧﺸﺎن دﻫﯿﺪ ﻣﺴﺎﻟﻪی دوﮔﺎن ﺑﻪ ﺻﻮرت زﯾﺮ ﺧﻮاﻫﺪ ﺑﻮد‪.‬‬
‫‪N‬‬
‫∑ ‪N‬‬
‫‪N‬‬
‫∑‬
‫∑‬
‫‪1‬‬
‫‪argmin‬‬
‫‪an −‬‬
‫) )‪an am t(n) t(m) k(x(n) , x(m‬‬
‫‪2‬‬
‫‪a‬‬
‫‪n=1‬‬
‫‪n=1 m=1‬‬
‫)‪(n‬‬
‫(‬
‫)‪(٢‬‬
‫‪0 ≤ an ≤ C‬‬
‫‪an t(n) = 0‬‬
‫‪s.t‬‬
‫‪N‬‬
‫∑‬
‫‪n=1‬‬
‫ﮐﻪ دارﯾﻢ ) )‪.k(x(i) , x(j) ) = Φ(x(i) )T Φ(x(j‬‬
‫‪ ۴) .٢.١‬ﻧﻤﺮه( ﻓﺮض ﮐﻨﯿﺪ ﻣﻘﺎدﯾﺮ } ‪ {a1 , ..., aN‬از ﺑﻬﯿﻨﻪﺳﺎزی ﺑﻪ دﺳﺖ آﻣﺪه اﺳﺖ‪ .‬ﻣ ﺧﻮاﻫﯿﻢ ﻣﻘﺪار ‪ b‬را از روی اﯾﻦ ﻣﻘﺎدﯾﺮ ﺑﻪ دﺳﺖ آورﯾﻢ‪.‬‬
‫اﺑﺘﺪا ﻧﺸﺎن دﻫﯿﺪ اﮔﺮ ‪ 0 < an < C‬دارﯾﻢ‪:‬‬
‫‪t(n) (wT Φ(x(n) ) + b) = 1‬‬
‫)‪(٣‬‬
‫‪1‬‬
‫)‪ .b = t(n‬اﻣﺎ ﺑﻪ دﻻﯾﻞ ﻣﺤﺎﺳﺒﺎﺗ ﻫﻨ ﺎم‬
‫ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ راﺑﻄﻪی ﺑﺎﻻ‪ ،‬ﻣ ﺗﻮان ‪n‬ای را اﻧﺘﺨﺎب ﮐﺮد ﮐﻪ ‪ .0 < an < C‬ﺳﭙﺲ ) )‪− wT Φ(x(n‬‬
‫‪T‬‬
‫)‪(n‬‬
‫)‪(n‬‬
‫ﭘﯿﺎدهﺳﺎزی‪ ،‬از ﯾ ﻧﻤﻮﻧﻪ اﺳﺘﻔﺎده ﻧﻤ ﺷﻮد‪ .‬ﻃﺮﻓﯿﻦ راﺑﻄﻪی ‪ ٣‬را در )‪ t(n‬ﺿﺮب ﮐﺮده و ﻧﺘﯿﺠﻪ ﺑ ﯿﺮﯾﺪ ‪ .w Φ(x ) + b = t‬ﺳﭙﺲ‬
‫راﺑﻄﻪی اﺧﯿﺮ را ﺑﺮای ﺗﻤﺎم ‪n‬ﻫﺎﯾ ﮐﻪ ‪ 0 < an < C‬ﺑﻪ ﮐﺎر ﺑﺮده و ‪ b‬را ﺑﺮﺣﺴﺐ ‪ w‬و } ‪ {a1 , ..., aN‬ﺑﻪ دﺳﺖ آورﯾﺪ‪ .‬ﺳﭙﺲ ‪ w‬را ﻧﯿﺰ ﺑﺮﺣﺴﺐ‬
‫} ‪ {a1 , ..., aN‬ﺑﻪ دﺳﺖ آورﯾﺪ ﺗﺎ ‪ b‬ﻓﻘﻂ ﺑﺮﺣﺴﺐ } ‪ {a1 , ..., aN‬ﺑﻪ دﺳﺖ آﯾﺪ‪.‬‬
‫‪ ۶) .٣.١‬ﻧﻤﺮه( ﺗﺎﺑﻊ ﻫﺰﯾﻨﻪی ﺑﺮدار ﭘﺸﺘﯿﺒﺎن در ﺣﺎﻟﺖ ﻋﺎدی ﺑﻪ ﺻﻮرت ‪+ 12 ||w||2‬‬
‫‪∑N‬‬
‫‪n=1 ξn‬‬
‫‪ argmin C‬اﺳﺖ‪ .‬ﯾﻌﻨ ﺑﻪ ازای ﻧﻘﺎﻃ ﮐﻪ‬
‫‪w,ξ‬‬
‫از ﺣﺎﺷﯿﻪی دﺳﺘﻪی ﺧﻮدﺷﺎن ﻋﺒﻮر ﻣ ﮐﻨﻨﺪ‪ ،‬ﺑﻪ اﻧﺪازهی ﻓﺎﺻﻠﻪ از ﺣﺎﺷﯿﻪ) ‪ (ξn‬ﺟﺮﯾﻤﻪ درﻧﻈﺮ ﻣ ﮔﯿﺮد‪ .‬اﯾﻦ ﻣﻮﺿﻮع را در ﻧﻤﻮدار آﺑ از‬
‫ﺷ ﻞ ‪ ١‬ﻣﺸﺎﻫﺪه ﻣ ﮐﻨﯿﻢ‪ .‬اﮔﺮ ﺗﺎﺑﻊ ﻫﺰﯾﻨﻪی رﮔﺮﺳﯿﻮن ﻟﺠﺴﺘﯿ ‪ ٣‬را در ﻋﺪدی ﺛﺎﺑﺖ ﺿﺮب ﮐﻨﯿﻢ ﺗﺎ از ﻧﻘﻄﻪی ]‪ [0, 1‬ﺑ ﺬارد‪ ،‬ﻣﻄﺎﺑﻖ ﻧﻤﻮدار ﻗﺮﻣﺰ‬
‫از ﺷ ﻞ ‪ ١‬ﻣ ﺷﻮد‪.‬‬
‫اﻟﻒ‪ ١).‬ﻧﻤﺮه( ﺟﺮﯾﻤﻪای ﮐﻪ ﻣﺎﺷﯿﻦ ﺑﺮدار ﭘﺸﺘﯿﺒﺎن در ﻧﻈﺮ ﻣ ﮔﯿﺮد‪ ،‬ﭼﻪ ﻣﺰﯾﺘ ﻧﺴﺒﺖ ﺑﻪ ﺟﺮﯾﻤﻪی رﮔﺮﺳﯿﻮن ﻟﺠﺴﺘﯿ دارد؟‬
‫ب‪ ٢) .‬ﻧﻤﺮه(ﻓﺮض ﮐﻨﯿﺪ ﺗﺎﺑﻊ ﻫﺰﯾﻨﻪی ﻣﺎﺷﯿﻦ ﺑﺮدار ﭘﺸﺘﯿﺒﺎن را ﺑﻪ اﯾﻦ ﺻﻮرت ﺗﻐﯿﯿﺮ دﻫﯿﻢ)ﺑﺮای ‪ξn‬ﻫﺎ ﺗﻮان ‪ ٢‬ﺑ ﺬارﯾﻢ(و ﺗﺎﺑﻊ ﻫﺰﯾﻨﻪی‬
‫ﺣﺎﺻﻞ را ‪ squared hinge loss‬ﺑﻨﺎﻣﯿﻢ‪.‬‬
‫‪N‬‬
‫∑‬
‫‪1‬‬
‫‪argmin‬‬
‫‪C‬‬
‫‪ξn 2 + ||w||2‬‬
‫)‪(۴‬‬
‫‪2‬‬
‫‪w,ξ‬‬
‫‪n=1‬‬
‫ﺗﺎﺑﻊ ﺟﺮﯾﻤﻪی اﯾﻦ روش ﭼ ﻮﻧﻪ اﺳﺖ؟)ﻧﻤﻮداری ﺷﺒﯿﻪ ﻧﻤﻮدارﻫﺎی ﻗﺮﻣﺰ و آﺑ از ﺷ ﻞ ‪ ١‬رﺳﻢ ﮐﻨﯿﺪ‪(.‬‬
‫ج‪ ٣).‬ﻧﻤﺮه( ﻓﺮض ﮐﻨﯿﺪ دادهﻫﺎ ﺑﻪ ﺻﻮرت ﺷ ﻞ ‪ ٢‬ﺑﺎﺷﻨﺪ‪ .‬در اﯾﻦ ﺣﺎﻟﺖ اﺳﺘﻔﺎده از ‪ squared hinge loss‬ﺑﻬﺘﺮ اﺳﺖ ﯾﺎ ﻣﺎﺷﯿﻦ ﺑﺮدار‬
‫ﭘﺸﺘﯿﺒﺎن ﻋﺎدی؟ ﭼﺮا؟‬
‫‪) .۴.١‬اﺧﺘﻴﺎری ‪ ١٠ -‬ﻧﻤﺮه( در ﺑﻬﯿﻨﻪﺳﺎزی راﺑﻄﻪی ‪ ١‬ﻣ ﺗﻮان ﺑﻪ ﻋﺒﺎرت ‪ 12 ||w||2‬ﺑﻪ ﻋﻨﻮان ﻋﺒﺎرت ﻣﻨﻈﻢ ﺳﺎزی ‪ ۴‬ﻧ ﺎه ﮐﺮد ﮐﻪ ﭘﯿﭽﯿﺪﮔ ﻣﺪل‬
‫‪١ Support‬‬
‫‪vector machine‬‬
‫‪margin‬‬
‫‪٣ logistic regression‬‬
‫‪۴ rigularization term‬‬
‫‪٢ Soft‬‬
‫‪١‬‬
‫ﺷ ﻞ ‪ :١‬ﺷ ﻞ ‪ ٧.۵‬از ﮐﺘﺎب ‪Bishop‬‬
‫ﺷ ﻞ ‪:٢‬‬
‫را ﮐﻨﺘﺮل ﻣ ﮐﻨﺪ‪ .‬ﻫﻤﭽﻨﯿﻦ ﻋﺒﺎرت‬
‫‪∑N‬‬
‫‪n=1 ξn‬‬
‫ﺑﺎﻋﺚ ﻣ ﺷﻮد ﺧﻄﺎی آﻣﻮزش ﮐﻢ ﺷﻮد‪.‬‬
‫اﻟﻒ‪ ۴).‬ﻧﻤﺮه( ﻓﺮض ﮐﻨﯿﺪ ﻣ ﺧﻮاﻫﯿﻢ ﮐﺎری ﮐﻨﯿﻢ ﮐﻪ ﻣﺪل ﺗﺮﺟﯿﺢ دﻫﺪ ﺗﺎ ﺣﺪ اﻣ ﺎن از ﺗﻌﺪاد ﮐﻤﺘﺮی از اﯾﻦ اﺑﻌﺎد اﺳﺘﻔﺎده ﮐﻨﺪ)ﺗﺮﺟﯿﺢ‬
‫دﻫﺪ ﺑﯿﺸﺘﺮ ﺧﺎﻧﻪﻫﺎی آراﯾﻪی ‪ w‬ﺻﻔﺮ ﺑﺎﺷﻨﺪ(‪ .‬ﻧﺸﺎن دﻫﯿﺪ ﺑﺮای اﯾﻦ ﮐﺎر‪ ،‬ﺗﺎﺑﻊ ﻫﺰﯾﻨﻪی زﯾﺮ ﻣﻨﺎﺳﺐﺗﺮ از ﺗﺎﺑﻊ ﻫﺰﯾﻨﻪی راﺑﻄﻪی ‪ ١‬اﺳﺖ‪.‬‬
‫∑‪1‬‬
‫| ‪|wd‬‬
‫‪2‬‬
‫‪D‬‬
‫)‪(۵‬‬
‫)‬
‫‪d=1‬‬
‫)‪(n‬‬
‫)‪(n‬‬
‫‪y(x‬‬
‫‪ξn +‬‬
‫‪N‬‬
‫∑‬
‫‪C‬‬
‫‪argmin‬‬
‫‪w,ξ‬‬
‫‪n=1‬‬
‫‪1 − ξn ≤ t‬‬
‫‪0 ≤ ξn‬‬
‫‪s.t‬‬
‫ﮐﻪ | ‪ |wd‬ﻗﺪرﻣﻄﻠﻖ ﺑﻌﺪِ ‪d‬ام ‪ w‬اﺳﺖ‪.‬‬
‫ب‪ ۶).‬ﻧﻤﺮه( روﺷ ﺑﺮای ﺣﻞ ﺑﻬﯿﻨﻪﺳﺎزی راﺑﻄﻪی ‪ ۵‬ﭘﯿﺸﻨﻬﺎد ﮐﻨﯿﺪ‪.‬‬
‫ﺳﻮال ‪ ٢٠)٢‬ﻧﻤﺮه(‪ :‬ﺗﺎﺑﻊ ﻫﺴﺘﻪ‬
‫‪ ٨) .١.٢‬ﻧﻤﺮه( ﻓﺮض ﮐﻨﯿﺪ ﺗﺎﺑﻊ ) ‪ k(x, x′‬ﯾ‬
‫ﻫﺴﺘﻪی ‪ ۵‬ﻣﻌﺘﺒﺮ اﺳﺖ‪.‬‬
‫اﻟﻒ‪ .‬ﻧﺸﺎن دﻫﯿﺪ ﺑﻪ ازای ﻫﺮ ﺗﺎﺑﻊ )‪ ،f (.‬ﺗﺎﺑﻊ ) ‪ f (x)k(x, x′ )f (x′‬ﯾ‬
‫(‬
‫)‬
‫ب‪ .‬ﻧﺸﺎن دﻫﯿﺪ ) ‪ exp k(x, x′‬ﯾ ﻫﺴﺘﻪی ﻣﻌﺘﺒﺮ اﺳﺖ‪.‬‬
‫ﻫﺴﺘﻪی ﻣﻌﺘﺒﺮ اﺳﺖ‪.‬‬
‫(‬
‫)‬
‫ج‪ .‬از ﻗﺴﻤﺖﻫﺎی اﻟﻒ و ب اﺳﺘﻔﺎده ﮐﺮده و ﻧﺸﺎن دﻫﯿﺪ ﺗﺎﺑﻊ ‪ radial basis‬ﺑﻪ ﺻﻮرت ‪ ، exp − 21 ||x − x′ ||2‬ﯾ‬
‫اﺳﺖ‪.‬‬
‫)‬
‫‪( 1‬‬
‫‪′ 2‬‬
‫‪′‬‬
‫د‪ .‬ﺗﺎﺑﻊ ﻧ ﺎﺷﺖ ﻣﺮﺑﻮط ﺑﻪ ﻫﺴﺘﻪی || ‪ exp − 2 ||x − x‬را )‪ Φ(x‬ﻣ ﻧﺎﻣﯿﻢ‪ .‬ﻧﺸﺎن دﻫﯿﺪ ﺑﻪ ازای ﻫﺮ ‪ x‬و ‪ x‬دارﯾﻢ‪:‬‬
‫‪.||Φ(x) − Φ(x′ )||2 ≤ 2‬‬
‫ﻫﺴﺘﻪی ﻣﻌﺘﺒﺮ‬
‫‪ ٨) .٢.٢‬ﻧﻤﺮه(‬
‫اﻟﻒ‪ .‬ﻓﺮض ﮐﻨﯿﺪ ) ‪ k1 (x, x′‬و ) ‪ k2 (x, x′‬ﻫﺴﺘﻪﻫﺎﯾ ﻣﻌﺘﺒﺮ ﻫﺴﺘﻨﺪ‪ .‬ﻧﺸﺎن دﻫﯿﺪ ) ‪ k1 (x, x′ )k2 (x, x′‬ﯾ‬
‫ﻫﺴﺘﻪی ﻣﻌﺘﺒﺮ اﺳﺖ‪.‬‬
‫‪۵ kernel‬‬
‫‪٢‬‬
‫ب‪ .‬ﻣﺠﻤﻮﻋﻪ }‪ p = {1, 2, ..., n‬را در ﻧﻈﺮ ﺑ ﯿﺮﯾﺪ‪ .‬ﺑﺮای ﻫﺮ دو زﯾﺮﻣﺠﻤﻮﻋﻪ از ‪ p‬ﻣﺜﻞ ‪ A‬و ‪ B‬ﺗﻌﺮﯾﻒ ﻣ ﮐﻨﯿﻢ‪:‬‬
‫|‪k1 (A, B) = |A ∩ B‬‬
‫)‪(۶‬‬
‫ﻧﺸﺎن دﻫﯿﺪ ‪ k1‬ﯾ‬
‫ﻫﺴﺘﻪی ﻣﻌﺘﺒﺮ اﺳﺖ و ‪ Φ‬را ﺑﺮای اﯾﻦ ﻫﺴﺘﻪ ﺑﯿﺎﺑﯿﺪ‪.‬‬
‫ج‪ .‬ﻣﺠﻤﻮﻋﻪ }‪ p = {1, 2, ..., n‬را در ﻧﻈﺮ ﺑ ﯿﺮﯾﺪ‪ .‬ﺑﺮای ﻫﺮ دو زﯾﺮﻣﺠﻤﻮﻋﻪ از ‪ p‬ﻣﺜﻞ ‪ A‬و ‪ B‬ﺗﻌﺮﯾﻒ ﻣ ﮐﻨﯿﻢ‪:‬‬
‫‪1‬‬
‫= )‪k2 (A, B‬‬
‫)‪(٧‬‬
‫|‪|A ∪ B‬‬
‫ﻧﺸﺎن دﻫﯿﺪ ‪ k2‬ﯾ‬
‫اﺳﺖ‪.‬‬
‫ﻫﺴﺘﻪی ﻣﻌﺘﺒﺮ اﺳﺖ و ‪ Φ‬را ﺑﺮای اﯾﻦ ﻫﺴﺘﻪ ﺑﯿﺎﺑﯿﺪ‪ .‬ﺳﭙﺲ ﻧﺘﯿﺠﻪ ﺑ ﯿﺮﯾﺪ‬
‫|‪|A∩B‬‬
‫|‪|A∪B‬‬
‫= )‪ k(A, B‬ﻧﯿﺰ ﯾ‬
‫ﻫﺴﺘﻪی ﻣﻌﺘﺒﺮ‬
‫‪ ۴) .٣.٢‬ﻧﻤﺮه( ﯾ ﻣﺴﺎﻟﻪی دﺳﺘﻪﺑﻨﺪی ﺑﻪ دو دﺳﺘﻪ را در ﻧﻈﺮ ﺑ ﯿﺮﯾﺪ‪ .‬ﻓﺮض ﮐﻨﯿﺪ دادهﻫﺎی آﻣﻮزش ﺗﻨﻬﺎ ﯾ وﯾﮋﮔ دارﻧﺪ و ﻧﻤﻮﻧﻪﻫﺎی آﻣﻮزش را‬
‫ﻣ ﺗﻮان در ‪ k‬ﺑﺎزه روی ﻣﺤﻮر ﺣﻘﯿﻘ ﺗﺼﻮر ﮐﺮد ﮐﻪ ﺑﺮﭼﺴﺐ ﻧﻤﻮﻧﻪﻫﺎی ﻫﺮ دو ﺑﺎزهی ﻣﺘﻮاﻟ ﻧﺎﺑﺮاﺑﺮ اﺳﺖ)ﺷ ﻞ ‪ ٣‬ﻣﺜﺎﻟ ﺑﺮای ‪ k = 6‬اﺳﺖ(‪.‬‬
‫اﮔﺮ ﺑﺨﻮاﻫﯿﻢ از ‪ kernel SV M‬ﺑﺎ ﺣﺎﺷﯿﻪ ﺳﺨﺖ و ﺑﺎ ﻫﺴﺘﻪی ﭼﻨﺪ ﺟﻤﻠﻪای ﺑﺮای اﯾﻦ دادهﻫﺎ اﺳﺘﻔﺎده ﻧﻤﺎﺋﯿﻢ‪ ،‬ﺣﺪاﻗﻞ ﭼﻪ درﺟﻪای را ﺑﺮای اﯾﻦ‬
‫ﻫﺴﺘﻪ ﻣﻨﺎﺳﺐ ﻣ داﻧﯿﺪ؟ ﭼﺮا؟‬
‫ﺷ ﻞ ‪:٣‬‬
‫ﺳﻮال ‪ ٢۵)٣‬ﻧﻤﺮه(‪ :‬ﻧﻈﺮﯾﻪی ﯾﺎدﮔﯿﺮی‬
‫‪ ۶) .١.٣‬ﻧﻤﺮه( ﯾ‬
‫ﻣﺴﺎﻟﻪی دﺳﺘﻪﺑﻨﺪی دارﯾﻢ‪ .‬از ﻫﺮﻧﻤﻮﻧﻪ ‪ D‬وﯾﮋﮔ ِ ﺑﺎﯾﻨﺮی دارﯾﻢ)ﻧﻤﻮﻧﻪی ‪n‬ام ﺑﻪ ﺻﻮرت ] ‪ x(n) = [x1 , ..., xD‬اﺳﺖ‬
‫)‪(n‬‬
‫)‪(n‬‬
‫)‪(n‬‬
‫‪.(xd‬‬
‫ﻫﻤﭽﻨﯿﻦ ﻫﺮ ﻧﻤﻮﻧﻪی ﺑﻪ ﯾ از دو دﺳﺘﻪی ‪ +‬ﯾﺎ ‪ −‬ﺗﻌﻠﻖ دارد‪ .‬ﻓﻀﺎی ﻓﺮﺿﯿﻪی ‪ HK‬را ﺗﻤﺎم ﺗﻮاﺑﻊ ﺑﺎﯾﻨﺮی ﻣ ﮔﯿﺮﯾﻢ ﮐﻪ‬
‫ﮐﻪ }‪∈ {0, 1‬‬
‫ﺑﻪ ﺻﻮرت ‪ k − term DN F‬ﻗﺎﺑﻞ ﻧﻮﺷﺘﻦ ﻫﺴﺘﻨﺪ‪ .‬ﻓﺮﻣﺖ ‪ ،k − term DN F‬ﺑﻪ ﺻﻮرت ‪ T1 ∨ T2 ∨ ... ∨ TK‬اﺳﺖ ﮐﻪ ﻫﺮﯾ از ‪Ti‬ﻫﺎ‬
‫ﺣﺎﺻﻞ از ‪ and‬ﺷﺪن ﺗﻌﺪادی ﻟﻴﺘﺮال ‪ ۶‬ﻫﺴﺘﻨﺪ‪ .‬ﯾ ﻟﻴﺘﺮال‪ ،‬ﯾ ﻣﺘﻐﯿﺮ ﺑﺎﯾﻨﺮی ﯾﺎ ﻧﻘﯿﺾ آن اﺳﺖ‪ .‬ﺑﻪ ﻋﻨﻮان ﻣﺜﺎل ﻫﺮ ﯾ از ‪ x1‬و ‪ ¬x2‬ﻟﻴﺘﺮال‬
‫ﻫﺴﺘﻨﺪ‪ .‬رواﺑﻂ زﯾﺮ ﺑﻪ ﻓﺮم ‪ 2 − term DN F‬ﻧﻮﺷﺘﻪ ﺷﺪهاﻧﺪ‪.‬‬
‫)‪(٨‬‬
‫) ‪f1 ([x1 , ..., xD ]) = (x1 ∧ x2 ∧ ¬x3 ) ∨ (x4 ∧ x5‬‬
‫)‪(٩‬‬
‫) ‪f2 ([x1 , ..., xD ]) = (¬x1 ) ∨ (x4 ∧ ¬x5‬‬
‫اﻟﻒ‪ .‬ﻧﺸﺎن دﻫﯿﺪ ‪.|HK | ≤ 3DK‬‬
‫ب‪ .‬ﻓﺮض ﮐﻨﯿﺪ ‪ learner‬ﺑﺪاﻧﺪ ﺗﺎﺑﻌ ﮐﻪ ﻣ ﺧﻮاﻫﺪ ﯾﺎد ﺑ ﯿﺮد ﺑﻪ ﻓﺮﻣﺖ ‪ k − term DN F‬ﻗﺎﺑﻞ ﻧﻮﺷﺘﻦ اﺳﺖ‪ learner .‬از ﺑﯿﻦ‬
‫ﻓﺮﺿﯿﻪﻫﺎی ﺑﺎ ﺧﻄﺎی آﻣﻮزش ﺻﻔﺮ‪ ،‬ﯾ را ﺑﻪ ﻋﻨﻮان ﺧﺮوﺟ ﻣ دﻫﺪ‪ .‬ﺧﺮوﺟ ‪ learner‬را ̂‪ h‬ﻣ ﻧﺎﻣﯿﻢ‪ .‬ﻣ ﺧﻮاﻫﯿﻢ ﺑﺎ اﺣﺘﻤﺎل ‪ ٩۵‬درﺻﺪ‬
‫داﺷﺘﻪ ﺑﺎﺷﯿﻢ ‪ .errortrue (ĥ) ≤ 0.1‬ﺣﺪاﻗﻞ ﭼﻨﺪ ﻧﻤﻮﻧﻪ ﻣ ﺧﻮاﻫﯿﻢ؟‬
‫ج‪ .‬ﻓﺮض ﮐﻨﯿﺪ ‪ learner‬ﻧﺪاﻧﺪ ﺗﺎﺑﻌ ﮐﻪ ﻣ ﺧﻮاﻫﺪ ﯾﺎد ﺑ ﯿﺮد ﺑﻪ ﺻﻮرت ‪ k − term DN F‬ﻗﺎﺑﻞ ﻧﻮﺷﺘﻦ اﺳﺖ ﯾﺎ ﻧﻪ‪ .‬آﯾﺎ ﻣ ﺗﻮان ﮐﺎری‬
‫ﮐﺮد ﮐﻪ ﺑﻪ اﺣﺘﻤﺎل ‪ ٩۵‬درﺻﺪ داﺷﺘﻪ ﺑﺎﺷﯿﻢ ‪errortrue (ĥ) ≤ 0.1‬؟ اﮔﺮ ﺧﯿﺮ ﭼﺮا؟ آﯾﺎ ﮐﺮان ﺟﺎﯾ ﺰﯾﻨ در اﻳﻦ ﺣﺎﻟﺖ وﺟﻮد دارد؟‬
‫‪ ١١) .٢.٣‬ﻧﻤﺮه( ﻓﺮض ﮐﻨﯿﺪ ﯾ ﻣﺴﺎﻟﻪی دﺳﺘﻪﺑﻨﺪی دارﯾﻢ ﮐﻪ روی ﻫﺮ ﻋﺪد ﺣﻘﯿﻘ ‪ ،‬ﯾ از ﺑﺮﭼﺴﺐﻫﺎی ‪ +‬ﯾﺎ ‪ −‬ﻗﺮار ﻣ ﮔﯿﺮد‪ .‬ﺑﺮای ﻣﺪل ﮐﺮدن‬
‫ﻣﺴﺎﻟﻪ‪ ،‬ﭼﻨﺪ ﻓﻀﺎی ﻓﺮﺿﯿﻪ ﺑﻪ ﺻﻮرت } ‪ H = {H1 , ..., HK‬در ﻧﻈﺮ ﻣ ﮔﯿﺮﯾﻢ‪ Hj .‬ﻣﺠﻤﻮﻋﻪی ﺗﻤﺎم دﺳﺘﻪﺑﻨﺪﻫﺎی ﺑﻪ ﺻﻮرت ))‪sign(Pj (x‬‬
‫اﺳﺖ ﮐﻪ )‪ Pj (x‬ﭼﻨﺪﺟﻤﻠﻪای دﻟﺨﻮاه از درﺟﻪی ‪ j‬اﺳﺖ و ﺗﺎﺑﻊ ‪ sign‬ﺑﻪ ﺻﻮرت زﯾﺮ اﺳﺖ‪:‬‬
‫{‬
‫‪+ 0≤x‬‬
‫= )‪sign(x‬‬
‫)‪(١٠‬‬
‫‪− x<0‬‬
‫ﺑﻪ ﻋﻨﻮان ﻣﺜﺎل در ﺷ ﻞ ‪ ۴‬ﻣﺸﺎﻫﺪه ﻣ ﮐﻨﯿﻢ دﺳﺘﻪﺑﻨﺪ )‪ y = sign(x2 − 2x − 5‬ﮐﻪ ﻋﻀﻮی از ‪ H2‬اﺳﺖ‪ ،‬دادهﻫﺎی آﻣﻮزش را ﺑﻪ درﺳﺘ‬
‫دﺳﺘﻪﺑﻨﺪی ﮐﺮده اﺳﺖ‪.‬‬
‫اﻟﻒ‪ .‬ﺑﺮای ﻓﻀﺎی ﻓﺮﺿﯿﻪی ‪ ،Hj‬ﺑﻌﺪ ‪ ٧ VC‬را ﺑﻪ دﺳﺖ آورﯾﺪ‪.‬‬
‫‪۶ literal‬‬
‫‪dimension‬‬
‫‪٣‬‬
‫‪٧ Vapnick-Chervonenkis‬‬
‫ﺷ ﻞ ‪:۴‬‬
‫ب‪ .‬در اﯾﻦ ﺑﺨﺶ ﻣ ﺧﻮاﻫﯿﻢ ﺑﺎ اﺳﺘﻔﺎده از ‪ ٨ SRM‬ﻳ دﺳﺘﻪﺑﻨﺪ ﭘﻴﺪا ﮐﻨﻴﻢ‪ .‬ﻫﻤﭽﻨﻴﻦ ﻓﺮض ﮐﻨﻴﺪ ﺑﻬﺘﺮﯾﻦ دﺳﺘﻪﺑﻨﺪ‪ ،‬دﺳﺘﻪﺑﻨﺪی ﻣﺎﻧﻨﺪ‬
‫∗‪ h‬اﺳﺖ ﮐﻪ } ‪ h∗ ∈ {H1 ∪ ... ∪ HK‬و ﺧﻄﺎی واﻗﻌ ‪ ٩‬آن ﮐﻤﯿﻨﻪ اﺳﺖ‪ .‬دﺳﺘﻪﺑﻨﺪی ﮐﻪ ‪ SRM‬ﯾﺎد ﻣ ﮔﯿﺮد را ̂‪ h‬ﻣ ﻧﺎﻣﯿﻢ‪ .‬ﻓﻀﺎی‬
‫ﻓﺮﺿﯿﻪای ﮐﻪ ∗‪ h‬ﺑﻪ آن ﺗﻌﻠﻖ دارد را ∗‪ Hj‬ﻣ ﻧﺎﻣﯿﻢ‪ .‬ﻓﺮض ﮐﻨﯿﺪ ‪ m‬دادهی آﻣﻮزش دارﯾﻢ‪ ϵ(Hj∗ ) .‬را ﺑﻪ اﯾﻦ ﺻﻮرت ﺗﻌﺮﯾﻒ ﻣ ﮐﻨﯿﻢ‪:‬‬
‫√‬
‫‪( 2m‬‬
‫)‬
‫‪V C(Hj∗ ) ln V C(H‬‬
‫) ‪+ 1 + ln( 4δ‬‬
‫) ∗‪j‬‬
‫)‪(١١‬‬
‫= ) ∗‪ϵ(Hj‬‬
‫‪m‬‬
‫ﻧﺸﺎن دﻫﯿﺪ ﺑﻪ اﺣﺘﻤﺎل )‪ (1 − δ‬دارﯾﻢ‪:‬‬
‫) ∗‪errortrue (ĥ) ≤ errortrue (h ) + 2ϵ(Hj‬‬
‫)‪(١٢‬‬
‫∗‬
‫ج‪ .‬ﻓﺮض ﮐﻨﯿﺪ درﺟﻪی ﭼﻨﺪﺟﻤﻠﻪای را ﺑﻪ ‪ ۵‬ﻣﺤﺪود ﮐﻨﯿﻢ)} ‪ .(H = {H1 , H2 , H3 , H4 , H5‬ﻣ ﺧﻮاﻫﯿﻢ ﺑﻪ اﺣﺘﻤﺎل ‪ ٩۵‬درﺻﺪ‪:‬‬
‫‪ . errortrue (ĥ) ≤ errortrue (h∗ ) + 0.1‬ﺣﺪاﻗﻞ ﭼﻨﺪ ﻧﻤﻮﻧﻪی آﻣﻮزش ﻣ ﺧﻮاﻫﯿﻢ؟‬
‫‪ ٨) .٣.٣‬ﻧﻤﺮه(‬
‫اﻟﻒ‪ .‬دﺳﺘﻪﺑﻨﺪی را در ﻧﻈﺮ ﺑ ﯿﺮﯾﺪ ﮐﻪ در ﻓﻀﺎی دو ﺑﻌﺪی‪ ،‬ﯾ ﻣﺴﺘﻄﯿﻞ ﻣ ﺳﺎزد ﮐﻪ اﺿﻼع آن ﻣﻮازی ﻣﺤﻮرﻫﺎی ﻣﺨﺘﺼﺎت ﻫﺴﺘﻨﺪ‪.‬‬
‫ﺳﭙﺲ ﻓﺮض ﻣ ﮐﻨﺪ ﻧﻘﺎط داﺧﻞ ﻣﺴﺘﻄﯿﻞ ﻣﺘﻌﻠﻖ ﺑﻪ دﺳﺘﻪی ‪ +‬و ﻧﻘﺎط ﺧﺎرج ﻣﺴﺘﻄﯿﻞ ﻣﺘﻌﻠﻖ ﺑﻪ دﺳﺘﻪی ‪ −‬ﻫﺴﺘﻨﺪ‪ .‬ﺑﻌﺪ ‪ VC‬را ﺑﺮای اﯾﻦ‬
‫دﺳﺘﻪﺑﻨﺪ ﺑﻪ دﺳﺖ آورﯾﺪ‪.‬‬
‫ب‪ .‬دﺳﺘﻪﺑﻨﺪی را در ﻧﻈﺮ ﺑ ﯿﺮﯾﺪ ﮐﻪ در ﻓﻀﺎی دو ﺑﻌﺪی‪ ،‬ﯾ ﻣﺜﻠﺚ در ﻧﻈﺮ ﻣ ﮔﯿﺮد‪ .‬ﺳﭙﺲ ﻓﺮض ﻣ ﮐﻨﺪ ﻧﻘﺎط داﺧﻞ ﻣﺜﻠﺚ ﻣﺘﻌﻠﻖ ﺑﻪ‬
‫دﺳﺘﻪی ‪ +‬و ﻧﻘﺎط ﺧﺎرج ﻣﺜﻠﺚ ﻣﺘﻌﻠﻖ ﺑﻪ دﺳﺘﻪی ‪ −‬ﻫﺴﺘﻨﺪ‪ .‬ﻧﺸﺎن دﻫﯿﺪ ﺑﻌﺪ ‪ VC‬ﺑﺮای اﯾﻦ دﺳﺘﻪﺑﻨﺪ ﺑﺮاﺑﺮ ‪ ٧‬اﺳﺖ‪).‬راﻫﻨﻤﺎﯾ ‪ :‬وﻗﺘ‬
‫ﻫﺸﺖ ﻧﻘﻄﻪ دارﯾﻢ‪ ،‬دو ﺣﺎﻟﺖ در ﻧﻈﺮ ﺑ ﯿﺮﯾﺪ‪ .١ :‬ﯾ از ﻧﻘﺎط در ﭘﻮشﻣﺤﺪب ‪ ٧ ١٠‬ﻧﻘﻄﻪی دﯾ ﺮ ﻗﺮار دارد‪ .٢ .‬ﻫﯿﭻ ﯾ از ﻧﻘﺎط در‬
‫ﭘﻮشﻣﺤﺪب ‪ ٧‬ﻧﻘﻄﻪی دﯾ ﺮ ﻗﺮار ﻧﺪارد‪(.‬‬
‫ﺳﻮال ‪ ٣٠)۴‬ﻧﻤﺮه(‪ :‬درﺧﺖ ﺗﺼﻤﯿﻢ‬
‫ﻧﻤﺎدﮔﺬاری‪ :‬ﻓﺮض ﮐﻨﯿﺪ ‪ N‬دادهی آﻣﻮزش ﺑﻪ ﺻﻮرت }) ) ‪ D = {(x(1) , y (1) ), ..., (x(N ) , y (N‬دارﯾﻢ ﮐﻪ ‪ x(n) ∈ RD‬و }‪.y (n) ∈ {1, ..., C‬‬
‫ﻣﺆﻟﻔﻪ ‪d‬أم از )‪ x(n‬را ﺑﺎ ‪ xd‬ﻧﺸﺎن ﻣ دﻫﯿﻢ و آن را وﯾﮋﮔ ‪d ١١‬أم از ﻧﻤﻮﻧﻪی ‪ n‬أم ﻣ ﻧﺎﻣﯿﻢ‪ .‬در واﻗﻊ از ﻫﺮ ﻧﻤﻮﻧﻪ ‪ D‬ﺗﺎ وﯾﮋﮔ دارﯾﻢ ﮐﻪ ﻣ ﺗﻮاﻧﻨﺪ ﺣﻘﯿﻘ‬
‫ﺑﺎﺷﻨﺪ‪ .‬ﻫﺮ ﻧﻤﻮﻧﻪ ﺑﻪ ﯾ از ‪ C‬ﮐﻼس ﺗﻌﻠﻖ دارد‪.‬‬
‫)‪(n‬‬
‫‪ ٢) .١.۴‬ﻧﻤﺮه( ﻧﺸﺎن دﻫﯿﺪ اﮔﺮ وﯾﮋﮔ ِ ‪d‬ام و ‪ y‬از ﻫﻢ ﻣﺴﺘﻘﻞ ﺑﺎﺷﻨﺪ آﻧ ﺎه ‪ .Gain(y, xd ) = 0‬ﯾﻌﻨ اﻟ ﻮرﯾﺘﻢ ‪ ID3‬وﯾﮋﮔ ‪d‬ام را ﺑﻪ ﻋﻨﻮان‬
‫رﯾﺸﻪی درﺧﺖ ﺗﺼﻤﯿﻢ اﻧﺘﺨﺎب ﻧﻤ ﮐﻨﺪ‪) .‬ﻓﺮض ﮐﻨﯿﺪ در دادهﻫﺎ ﻧﻮﯾﺰ وﺟﻮد ﻧﺪارد و ﺑﻪ اﻧﺪازهی ﮐﺎﻓ ﻧﻤﻮﻧﻪ دارﯾﻢ‪(.‬‬
‫‪ ۴) .٢.۴‬ﻧﻤﺮه( ﻓﺮض ﮐﻨﯿﺪ ‪ N‬ﻧﻔﺮ دارﯾﻢ ﮐﻪ از ﻫﺮ ﮐﺪام ‪ D‬وﯾﮋﮔ دارﯾﻢ‪ .‬اﮔﺮ ﺑﯿﻤﺎری ﻓﺮد ‪n‬ام ﺧﻮﺷﺨﯿﻢ ﺑﻮد ‪ y (n) = 0‬و در ﻏﯿﺮ اﯾﻦ ﺻﻮرت‬
‫‪ .y (n) = 1‬ﻓﺮض ﮐﻨﯿﺪ ‪ x1‬ﺷﻤﺎرهی ﭘﺮوﻧﺪهی ﺑﯿﻤﺎر ‪n‬ام اﺳﺖ‪ .‬ﻫﻤﭽﻨﯿﻦ ﻣ داﻧﯿﻢ ﺷﻤﺎرهی ﭘﺮوﻧﺪه ﻣﻨﺤﺼﺮ ﺑﻪ ﻓﺮد اﺳﺖ‪ .‬اﮔﺮ ﺑﺮای ﺣﻞ اﯾﻦ‬
‫ﻣﺴﺎﻟﻪ از اﻟ ﻮرﯾﺘﻢ ‪ ID3‬و ﻣﻌﯿﺎر ﺑﻬﺮه اﻃﻼﻋﺎﺗ ‪ ١٢‬اﺳﺘﻔﺎده ﮐﻨﯿﻢ‪ ،‬آﯾﺎ ﻣﻤ ﻦ اﺳﺖ وﯾﮋﮔ ِ اول ﺑﻪ ﻋﻨﻮان رﯾﺸﻪی درﺧﺖ ﺗﺼﻤﯿﻢ ﻗﺮار ﮔﯿﺮد؟ اﮔﺮ‬
‫اﯾﻦ اﺗﻔﺎق ﺑﯿﻔﺘﺪ‪ ،‬آﯾﺎ ﺑﯿﺶ ﺑﺮازش ‪ ١٣‬رخ داده اﺳﺖ؟ اﮔﺮ ﭘﺎﺳﺦ ﻣﺜﺒﺖ اﺳﺖ‪ ،‬راﻫ ﺎری ﺑﺮای ﺟﻠﻮﮔﯿﺮی از اﯾﻦ ﻧﻮع ﺑﯿﺶ ﺑﺮازش اراﺋﻪ دﻫﯿﺪ‪.‬‬
‫)‪(n‬‬
‫‪ ۶) .٣.۴‬ﻧﻤﺮه( ﺗﻌﺮﯾﻒ)درﺧﺖ ﺗﺼﻤﯿﻢ ﺑﺪون ﺗ ﺮار(‪ :‬ﻓﺮض ﮐﻨﯿﺪ ﯾ‬
‫وﯾﮋﮔ ﺣﺪاﮐﺜﺮ ﯾ‬
‫درﺧﺖ ﺗﺼﻤﯿﻢ دارﯾﻢ ﮐﻪ در ﻫﺮ ﻣﺴﯿﺮ ﻣﺴﺘﻘﯿﻢ از رﯾﺸﻪ ﺑﻪ ﯾ‬
‫ﺑﺮگ‪ ،‬ﻫﺮ‬
‫ﺑﺎر ﺑﺮرﺳ ﻣ ﺷﻮد‪ .‬ﭼﻨﯿﻦ درﺧﺘ را ﺑﺪون ﺗ ﺮار ﻣ ﮔﻮﺋﯿﻢ‪.‬‬
‫‪٨ Structural‬‬
‫‪Risk Minimization‬‬
‫‪error‬‬
‫‪١٠ convex hull‬‬
‫‪١١ Attribute‬‬
‫‪١٢ Information gain‬‬
‫‪١٣ Overfitting‬‬
‫‪٩ true‬‬
‫‪۴‬‬
‫اﻟﻒ‪ ٢).‬ﻧﻤﺮه( ﻓﺮض ﮐﻨﯿﺪ وﯾﮋﮔ ﻫﺎ ﻣﻘﺎدﯾﺮ ﮔﺴﺴﺘﻪ و ﻣﺤﺪودی دارﻧﺪ) ﻣﺜﻼ } ‪∈ {0, 1, ..., αd‬‬
‫‪ .(xd‬ﻧﺸﺎن دﻫﯿﺪ درﺧﺖ ﺗﺼﻤﯿﻢ ﺑﺪون‬
‫)‪(n‬‬
‫ﺗ ﺮاری وﺟﻮد دارد ﮐﻪ ﺧﻄﺎی آﻣﻮزش آن ﺻﻔﺮ اﺳﺖ‪) .‬ﻓﺮض ﮐﻨﯿﺪ ﺣﺎﻟﺖ )‪ x(i) = x(j‬و )‪̸= y (j‬‬
‫)‪(i‬‬
‫‪ y‬در دادهﻫﺎی آﻣﻮزش رخ ﻧﻤ دﻫﺪ‪(.‬‬
‫ب‪ ٢).‬ﻧﻤﺮه( ﻓﺮض ﮐﻨﯿﺪ وﯾﮋﮔ ﻫﺎ ﭘﯿﻮﺳﺘﻪ ﻫﺴﺘﻨﺪ‪ .‬ﻫﻤﭽﻨﯿﻦ وﻗﺘ در ﯾ ﮔﺮهی درﺧﺖ ﯾ وﯾﮋﮔ ﭘﯿﻮﺳﺘﻪ را ﺑﺮرﺳ ﻣ ﮐﻨﯿﻢ‪ ،‬روی آن‬
‫آﺳﺘﺎﻧﻪ ﻣ ﮔﺬارﯾﻢ‪ .‬اﮔﺮ وﯾﮋﮔ از آﺳﺘﺎﻧﻪ ﮐﻤﺘﺮ ﺑﻮد ﺑﻪ زﯾﺮدرﺧﺖ ﭼﭗ و اﮔﺮ ﺑﯿﺸﺘﺮ ﺑﻮد ﺑﻪ زﯾﺮدرﺧﺖ راﺳﺖ ﻣ روﯾﻢ‪ .‬آﯾﺎ ﺑﻪ ازای ﻫﺮ دادهی‬
‫آﻣﻮزش ﺑﺎ وﯾﮋﮔ ﻫﺎی ﭘﯿﻮﺳﺘﻪ‪ ،‬درﺧﺖ ﺗﺼﻤﯿﻤ وﺟﻮد دارد ﮐﻪ ‪ .١‬ﺑﻪ ﺷ ﻞ ﻓﻮق وﯾﮋﮔ ﻫﺎی ﭘﯿﻮﺳﺘﻪ را ﺑﺮرﺳ ﮐﻨﺪ و ‪ .٢‬ﺑﺪون ﺗ ﺮار ﺑﺎﺷﺪ‬
‫‪ .٣‬ﺧﻄﺎی آﻣﻮزش آن ﺻﻔﺮ ﺑﺎﺷﺪ؟‬
‫ج‪ ٢).‬ﻧﻤﺮه( اﻟ ﻮرﯾﺘﻢ ‪ ID3‬در ﻫﺮ ﻣﺮﺣﻠﻪ ﯾ وﯾﮋﮔ را ﺑﻪ ﻋﻨﻮان رﯾﺸﻪ اﻧﺘﺨﺎب ﻣ ﮐﻨﺪ و در آن زﯾﺮدرﺧﺖ‪ ،‬دﯾ ﺮ از آن وﯾﮋﮔ اﺳﺘﻔﺎده‬
‫ﻧﻤ ﮐﻨﺪ‪ .‬ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ ﻗﺴﻤﺖ ب ﭼﺮا در ﺣﺎﻟﺖ ﭘﯿﻮﺳﺘﻪ)ﺑﺮﺧﻼف ﺣﺎﻟﺖ ﮔﺴﺴﺘﻪ( ﻧﺒﺎﯾﺪ وﯾﮋﮔ رﯾﺸﻪ را ﮐﻨﺎر ﮔﺬاﺷﺖ؟‬
‫‪ ١٨) .۴.۴‬ﻧﻤﺮه( در درﺧﺖ ﺗﺼﻤﯿﻢ ﭼﻨﺪ ﻣﺘﻐﯿﺮه ‪ ،١۴‬در ﻫﺮ ﮔﺮه ﺗﺎﺑﻌ از وﯾﮋﮔ ﻫﺎ ﺑﺮرﺳ ﻣ ﺷﻮد‪ .‬ﻣﺜﻼ ﻣﻤ ﻦ اﺳﺖ در ﯾ ﮔﺮه اﮔﺮ‬
‫‪ 0 ≤ x1 + 3x2 + 1‬ﺑﻪ زﯾﺮدرﺧﺖ ﺳﻤﺖ راﺳﺖ و اﮔﺮ ‪ x1 + 3x2 + 1 < 0‬ﺑﻪ زﯾﺮدرﺧﺖ ﺳﻤﺖ ﭼﭗ ﺑﺮوﯾﻢ‪ .‬در اﯾﻨﺠﺎ ﻓﺮض ﻣ ﮐﻨﯿﻢ در ﻫﺮ‬
‫ﮔﺮه ﺗﺎﺑﻌ ﺧﻄ از وﯾﮋﮔ ﻫﺎ)‪ (wT x + b‬ﺑﺮرﺳ ﻣ ﺷﻮد‪.‬‬
‫اﻟﻒ‪ ٢).‬ﻧﻤﺮه( ﻓﺮض ﮐﻨﯿﺪ دادهﻫﺎی آﻣﻮزش در ﻓﻀﺎی دو ﺑﻌﺪی ﺑﻪ ﺻﻮرت ﺷ ﻞ ‪ ۵‬ﻫﺴﺘﻨﺪ‪ .‬ﻧﺸﺎن دﻫﯿﺪ درﺧﺖ ﺗﺼﻤﯿﻢ ﭼﻨﺪ ﻣﺘﻐﯿﺮهای‬
‫وﺟﻮد دارد ﮐﻪ ﻓﻘﻂ ﯾ‬
‫ﮔﺮهی ﺗﺼﻤﯿﻢ ﮔﯿﺮی دارد و ﺧﻄﺎی آﻣﻮزش آن ﺻﻔﺮ اﺳﺖ‪.‬‬
‫ﺷ ﻞ ‪:۵‬‬
‫ب‪ ٣).‬ﻧﻤﺮه( ﻓﺮض ﮐﻨﯿﺪ ﻧﻤﻮﻧﻪﻫﺎی آﻣﻮزش در ﻓﻀﺎی دو ﺑﻌﺪی ﺑﻪ ﺻﻮرت ﺷ ﻞ ‪ ۵‬ﻫﺴﺘﻨﺪ‪ .‬درﺧﺖ ﺗﺼﻤﯿﻢ ﺗ‬
‫ﺧﻄﺎی آﻣﻮزش آن ﺻﻔﺮ ﺑﺎﺷﺪ‪.‬‬
‫ﻣﺘﻐﯿﺮهای ﺑﺴﺎزﯾﺪ ﮐﻪ‬
‫ج‪ ٣).‬ﻧﻤﺮه( ﻓﺮض ﮐﻨﯿﺪ دادهﻫﺎ ﻣﻄﺎﺑﻖ ﺷ ﻞ ‪ ۶‬ﺑﺎﺷﻨﺪ‪ .‬ﻧﺸﺎن دﻫﯿﺪ درﺧﺖ ﺗﺼﻤﯿﻤ ﭼﻨﺪ ﻣﺘﻐﯿﺮه‪ ،‬ﮐﺎﻣﻞ و ﺑﻪ ارﺗﻔﺎع ‪)٢‬ﻣﻄﺎﺑﻖ ﺷ ﻞ ‪(٧‬‬
‫وﺟﻮد دارد ﮐﻪ ﺧﻄﺎی آﻣﻮزش آن ﺻﻔﺮ اﺳﺖ‪.‬‬
‫ﺷ ﻞ ‪:۶‬‬
‫د‪ ۴).‬ﻧﻤﺮه(ﻓﺮض ﮐﻨﯿﺪ ﻣ داﻧﯿﻢ دادهﻫﺎ ﺑﺎ درﺧﺖ ﺗﺼﻤﯿﻤ ﭼﻨﺪ ﻣﺘﻐﯿﺮه‪ ،‬ﮐﺎﻣﻞ و ﺑﻪ ارﺗﻔﺎع ‪)٢‬ﻣﻄﺎﺑﻖ ﺷ ﻞ ‪ (٧‬ﺑﻪ درﺳﺘ دﺳﺘﻪﺑﻨﺪی ﻣ ﺷﻮﻧﺪ‪.‬‬
‫ﻣ ﺧﻮاﻫﯿﻢ ﭘﺎراﻣﺘﺮﻫﺎی } ‪ {w0 , b0 , w1 , b1 , w2 , b2‬را ﯾﺎد ﺑ ﯿﺮﯾﻢ‪ .‬ﻓﺮض ﮐﻨﯿﺪ وﻗﺘ در ﻫﺮﯾ از ﮔﺮهﻫﺎی ‪ B ،A‬و ‪ C‬ﻣ ﺧﻮاﻫﯿﻢ دادهﻫﺎ‬
‫را ﺑﻪ دو دﺳﺘﻪ ﺗﻘﺴﯿﻢ ﮐﻨﯿﻢ‪ ،‬از ﻣﺎﺷﯿﻦ ﺑﺮدار ﭘﺸﺘﯿﺒﺎن ﺑﺎ ﺣﺎﺷﯿﻪی ﻧﺮم اﺳﺘﻔﺎده ﮐﻨﯿﻢ‪ .‬اﮔﺮ دادهﻫﺎ ﺑﻪ ﺻﻮرت ﺷ ﻞ ‪ ۶‬ﺑﺎﺷﻨﺪ‪ ،‬آﯾﺎ ﺑﻪ درﺧﺘ ﮐﻪ‬
‫در ﺑﺨﺶ د ﺳﺎﺧﺘﯿﻢ ﻣ رﺳﯿﻢ؟‬
‫ه‪ ۶).‬ﻧﻤﺮه( ﻓﺮض ﮐﻨﯿﺪ ﻣ داﻧﯿﻢ دادهﻫﺎ ﺑﺎ درﺧﺖ ﺗﺼﻤﯿﻤ ﭼﻨﺪ ﻣﺘﻐﯿﺮه‪ ،‬ﮐﺎﻣﻞ و ﺑﻪ ارﺗﻔﺎع ‪)٢‬ﻣﻄﺎﺑﻖ ﺷ ﻞ ‪ (٧‬ﺑﻪ درﺳﺘ دﺳﺘﻪﺑﻨﺪی ﻣ ﺷﻮﻧﺪ‪.‬‬
‫ﺑﺮای ﯾﺎدﮔﯿﺮی ﭘﺎراﻣﺘﺮﻫﺎی } ‪ {w0 , b0 , w1 , b1 , w2 , b2‬ﺗﺎﺑﻊ ﻫﺰﯾﻨﻪی راﺑﻄﻪی ‪ ١٣‬را در ﻧﻈﺮ ﺑ ﯿﺮﯾﺪ‪ .‬در اﯾﻦ راﺑﻄﻪ‪ D1 ،‬ﻣﺠﻤﻮﻋﻪی ﻧﻘﺎﻃ‬
‫‪decision tree‬‬
‫‪۵‬‬
‫‪١۴ Multivariate‬‬
‫ﺷ ﻞ ‪:٧‬‬
‫اﺳﺖ ﮐﻪ ‪ 0 ≤ w0T x + b0‬و ‪ D2‬ﻣﺠﻤﻮﻋﻪی ﻧﻘﺎﻃ اﺳﺖ ﮐﻪ ‪ .w0T x + b0 < 0‬ﻫﻤﭽﻨﯿﻦ اﮔﺮ ‪ ،x(n) ∈ D1‬آﻧ ﺎه ‪ qn = 1‬و اﮔﺮ‬
‫‪ ،x(n) ∈ D2‬آﻧ ﺎه ‪.qn = −1‬‬
‫)‪(١٣‬‬
‫‪N‬‬
‫∑[‬
‫∑‬
‫] ∑‬
‫]‬
‫[‪λ‬‬
‫)‪||w0 ||2 + ||w1 ||2 + ||w2 ||2 + (1 − λ‬‬
‫‪ηn +‬‬
‫‪vj +‬‬
‫‪τk‬‬
‫‪2‬‬
‫‪n=1‬‬
‫‪j∈D 1‬‬
‫‪k∈D 2‬‬
‫[‬
‫]‬
‫‪s.t 1 − ηn ≤ qn w0T x(n) + b0‬‬
‫‪0 ≤ ηn n = 1, ..., N‬‬
‫[‬
‫]‬
‫‪1 − vj ≤ t(j) w1T x(j) + b1‬‬
‫‪0 ≤ vj x(j) ∈ D1‬‬
‫[‬
‫]‬
‫‪1 − τk ≤ t(k) w2T x(k) + b2‬‬
‫‪0 ≤ τk x(k) ∈ D2‬‬
‫‪argmin‬‬
‫‪w,η,v,τ‬‬
‫اﯾﺪهی ﺑﻪ ﮐﺎرﮔﯿﺮی ﺗﺎﺑﻊ ﻫﺰﯾﻨﻪی ﺑﺎﻻ ﭼﯿﺴﺖ؟ اﮔﺮ ﺑﺮای ﻧﻤﻮﻧﻪﻫﺎی ﺷ ﻞ ‪ ۶‬از اﯾﻦ ﺗﺎﺑﻊ ﻫﺰﯾﻨﻪ اﺳﺘﻔﺎده ﮐﻨﯿﻢ‪ ،‬ﻧﻮاﺣ ﺗﺼﻤﯿﻢﮔﯿﺮی ﭼ ﻮﻧﻪ‬
‫ﺧﻮاﻫﺪ ﺷﺪ؟‬
‫ﺳﻮال ‪ ٣٠)۵‬ﻧﻤﺮه(‪:‬ﭘﯿﺎدهﺳﺎزی ﻣﺎﺷﯿﻦ ﺑﺮدار ﭘﺸﺘﯿﺒﺎن‬
‫ﻣﺠﻤﻮﻋﻪ دادهی ‪ ١۵ MNIST‬را ﮐﻪ در اﺧﺘﯿﺎر ﺷﻤﺎ ﻗﺮار ﮔﺮﻓﺘﻪ‪ ،‬در ﻧﻈﺮ ﺑ ﯿﺮﯾﺪ‪ .‬اﯾﻦ ﻣﺠﻤﻮﻋﻪ داده ﺷﺎﻣﻞ ‪ ١٠٠٠٠‬ﺗﺼﻮﯾﺮ از ارﻗﺎم دﺳﺖﻧﻮﯾﺲ)‪١٠٠٠‬‬
‫ﺗﺼﻮﯾﺮ از ﻫﺮ رﻗﻢ( اﺳﺖ‪ .‬ﺗﺼﺎوﯾﺮ ﺳﯿﺎهﺳﻔﯿﺪ و ﺑﺎ اﻧﺪازه ‪ 28 × 28‬ﻫﺴﺘﻨﺪ‪ .‬در ﻓﺎﯾﻞﻫﺎﯾ ﮐﻪ در اﺧﺘﯿﺎر ﺷﻤﺎ ﻗﺮار ﮔﺮﻓﺘﻪ‪ ،‬ﻫﺮ ﺗﺼﻮﯾﺮ ﺑﺎ ﯾ ﺑﺮدار ﺑﻪ ﻃﻮل‬
‫‪ 784‬از اﻋﺪاد ﻋﺸﺎری در ﺑﺎزهی ]‪ [0, 1‬ﻧﺸﺎن داده ﺷﺪه اﺳﺖ‪ .‬ﻫﻤﭽﻨﯿﻦ ﺑﻪ ﻣﻨﻈﻮر آﺷﻨﺎﯾ ﺑﺎ ‪ ، ١۶ QP‬اﺳﺘﻔﺎده از ﺗﻮاﺑﻌ ﻣﺎﻧﻨﺪ ‪ svmtrain‬و ‪svmclassify‬‬
‫در ‪ matlab‬ﺑﺮای اﯾﻦ ﺗﻤﺮﯾﻦ ﻣﺠﺎز ﻧﯿﺴﺖ‪.‬‬
‫‪ ٧) .١.۵‬ﻧﻤﺮه( ﻣﺎﺷﯿﻦ ﺑﺮدار ﭘﺸﺘﯿﺒﺎن ﺑﺎ ﺣﺎﺷﯿﻪی ﻧﺮم را ﺑﺮای ﺣﺎﻟﺖِ دو ﮐﻼﺳﻪ ﭘﯿﺎدهﺳﺎزی ﻧﻤﺎﯾﯿﺪ‪ .‬در ﻗﺴﻤﺖﻫﺎی ﺑﻌﺪ ﻗﺼﺪ دارﯾﻢ ﻧﻮع و ﭘﺎراﻣﺘﺮِ‬
‫ﻫﺴﺘﻪ و ﻫﻤﭽﻨﯿﻦ ﭘﺎراﻣﺘﺮ ‪ C‬در ﺗﺎﺑﻊ ﻫﺰﯾﻨﻪ را ﺗﻨﻈﯿﻢ ﮐﻨﯿﻢ‪ .‬ﺑﻪ ﻫﻤﯿﻦ دﻟﯿﻞ ﺑﻬﺘﺮ اﺳﺖ ﭘﯿﺎدهﺳﺎزی ﺷﻤﺎ ﺑﻪ ﻧﺤﻮی ﺑﺎﺷﺪ ﮐﻪ ﺗﻐﯿﯿﺮ اﯾﻦ ﻣﻮارد‪ ،‬ﺑﺎ ﮐﻤﺘﺮﯾﻦ‬
‫ﺗﻐﯿﯿﺮ در ﮐﺪ ﻣﻤ ﻦ ﺑﺎﺷﺪ‪.‬‬
‫‪ ۶) .٢.۵‬ﻧﻤﺮه( در اﯾﻦ ﺑﺨﺶ ﻗﺼﺪ دارﯾﻢ دﺳﺘﻪﺑﻨﺪی ﺑﺮای ﺗﺸﺨﯿﺺ ﺗﺼﺎوﯾﺮ رﻗﻢ ‪ 9‬از ﺗﺼﺎوﯾﺮ رﻗﻢ ‪ 4‬ﺑﺴﺎزﯾﻢ‪ .‬ﭼﻨﺪ ﻣﻮرد از ﺗﺼﺎوﯾﺮ ارﻗﺎم‬
‫در ﻣﺠﻤﻮﻋﻪ دادهی ‪ MNIST‬را در ﺷ ﻞ ‪ ٨‬ﻣﺸﺎﻫﺪه ﻣ ﮐﻨﯿﻢ‪ .‬دادهﻫﺎی ﻣﻮرد ﻧﯿﺎز اﯾﻦ ﺑﺨﺶ در ﻓﺎﯾﻞ ‪ mnist49‬ﻗﺮار دارﻧﺪ‪ .‬در ﻫﺮﯾ از‬
‫ﺷ ﻞ ‪:٨‬‬
‫ﻣﺎﺗﺮﯾﺲﻫﺎی ‪ train‬و ‪ ،test‬ﺳﺘﻮنﻫﺎی ‪ 1‬ﺗﺎ ‪ 784‬ﻣﻘﺎدﯾﺮ روﺷﻨﺎﯾ ﭘﯿ ﺴﻞﻫﺎ اﺳﺖ و ﺳﺘﻮن آﺧﺮ رﻗﻤ اﺳﺖ ﮐﻪ اﯾﻦ ﺗﺼﻮﯾﺮ ﻧﺸﺎن ﻣ دﻫﺪ‪.‬‬
‫‪١۵ http://yann.lecun.com/exdb/mnist/‬‬
‫‪Programming‬‬
‫‪۶‬‬
‫‪١۶ Quadratic‬‬
‫ﻣﺎﺷﯿﻦ ﺑﺮدار ﭘﺸﺘﯿﺒﺎن ﺣﺎﺷﯿﻪی ﻧﺮم را روی اﯾﻦ دادهﻫﺎ اﺟﺮا ﮐﻨﯿﺪ‪ .‬در اﯾﻦ ﺑﺨﺶ از ﻫﺴﺘﻪی ‪ k(xi , xj ) = xTi xj‬اﺳﺘﻔﺎده ﮐﻨﯿﺪ‪ .‬ﭘﺎراﻣﺘﺮ ‪ C‬را‬
‫از ﺑﯿﻦ ﻣﻘﺎدﯾﺮ }‪ {0.001, 0.1, 1, 10, 100, 1000, 10000, 100000‬و ﺑﺎ روش ‪ 5f old CV‬ﺗﻌﯿﯿﻦ ﮐﻨﯿﺪ‪ .‬درﺻﺪ ﺧﻄﺎی دﺳﺘﻪﺑﻨﺪ را روی‬
‫ﻣﺠﻤﻮﻋﻪﻫﺎی آﻣﻮزش و آزﻣﻮن ﮔﺰارش ﻧﻤﺎﯾﯿﺪ‪.‬‬
‫) ‪( ||xi −xj ||2‬‬
‫‪ k(xi , xj ) = exp − 2σ2‬اﺳﺘﻔﺎده ﮐﻨﯿﺪ‪ .‬ﻣﻘﺪار ‪ σ‬را از ﻣﻘﺎدﯾﺮ‬
‫‪ ۵) .٣.۵‬ﻧﻤﺮه( اﯾﻦ ﺑﺎر از ﻫﺴﺘﻪی ﮔﺎوﺳ‬
‫}‪ {0.001, 0.1, 1, 10, 100, 1000, 10000, 100000‬و ﺑﺎ روش ‪ 5f old CV‬ﺗﻌﯿﯿﻦ ﮐﻨﯿﺪ‪ .‬درﺻﺪ ﺧﻄﺎی دﺳﺘﻪﺑﻨﺪ ﺣﺎﺻﻞ را روی‬
‫ﻣﺠﻤﻮﻋﻪﻫﺎی آﻣﻮزش و آزﻣﻮن ﮔﺰارش ﮐﻨﯿﺪ‪.‬‬
‫‪ ٨) .۴.۵‬ﻧﻤﺮه( در اﯾﻦ ﺑﺨﺶ ﻣ ﺧﻮاﻫﯿﻢ ﺗﺼﺎوﯾﺮ را ﺑﻪ ‪ ١٠‬دﺳﺘﻪ)ﯾ دﺳﺘﻪ ﺑﺮای ﻫﺮ رﻗﻢ( دﺳﺘﻪﺑﻨﺪی ﮐﻨﯿﻢ‪ .‬دادهﻫﺎی ﻣﻮرد ﻧﯿﺎز اﯾﻦ ﺑﺨﺶ در‬
‫ﻓﺎﯾﻞ ‪ mnist‬ﻗﺮار دارﻧﺪ‪ .‬اﺑﺘﺪا ﺑﺎ اﺳﺘﻔﺎده از روش ‪ one v.s. one‬ﻣﺴﺎﻟﻪ را ﺑﻪ ﺗﻌﺪادی ﻣﺴﺎﻟﻪی دﺳﺘﻪﺑﻨﺪیِ دو ﮐﻼﺳﻪ ﺗﺒﺪﯾﻞ ﮐﻨﯿﺪ‪ .‬در اﯾﻦ ﺑﺨﺶ از‬
‫) ‪( ||x −x ||2‬‬
‫‪ k(xi , xj ) = exp − i2σ2j‬اﺳﺘﻔﺎده ﮐﻨﯿﺪ‪ .‬ﻣﻘﺪار ‪ σ‬را از ﻣﻘﺎدﯾﺮ }‪{0.001, 0.1, 1, 10, 100, 1000, 10000, 100000‬‬
‫ﻫﺴﺘﻪی ﮔﺎوﺳ‬
‫و ﺑﺎ روش ‪ 5f old CV‬ﺗﻌﯿﯿﻦ ﮐﻨﯿﺪ‪ .‬ﭘﺎراﻣﺘﺮ ‪ C‬را از ﺑﯿﻦ ﻣﻘﺎدﯾﺮ }‪ {0.001, 0.1, 1, 10, 100, 1000, 10000, 100000‬و ﺑﺎ روش‬
‫‪ 5f old CV‬ﺗﻌﯿﯿﻦ ﮐﻨﯿﺪ‪ .‬درﺻﺪ ﺧﻄﺎی دﺳﺘﻪﺑﻨﺪ را روی ﻣﺠﻤﻮﻋﻪﻫﺎی آﻣﻮزش و آزﻣﻮن ﮔﺰارش ﻧﻤﺎﯾﯿﺪ‪.‬‬
‫‪ ۴) .۵.۵‬ﻧﻤﺮه( ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ ﻧﺘﺎﯾﺞ ﺑﻪ دﺳﺖ آﻣﺪه در ﻗﺴﻤﺖﻫﺎی ﻗﺒﻞ‪ ،‬ﺗﺎﺛﯿﺮ ﭘﺎراﻣﺘﺮﻫﺎی ‪ C‬و ‪ σ‬روی ﺧﻄﺎی آﻣﻮزش و آزﻣﻮن را ﺑﺮرﺳ ﻧﻤﺎﯾﯿﺪ‪.‬‬
‫ﻫﻤﭽﻨﯿﻦ ﺗﺎﺛﯿﺮ ﭘﺎراﻣﺘﺮﻫﺎی ‪ C‬و ‪ σ‬روی اﻧﺪازهی ﺣﺎﺷﯿﻪ و ﭘﯿﭽﯿﺪﮔ ﻣﺪل را ﺗﺤﻠﯿﻞ ﻧﻤﺎﯾﯿﺪ‪.‬‬
‫‪٧‬‬