HW4.pdf

‫نيمسال اول ‪92-93‬‬
‫يادگيری ماشين ‪( 44-777‬گروه دوم)‬
‫مدرس‪ :‬سليمانی‬
‫تمرين سری چهارم‪:‬يادگيری مبتنی بر نمونه‪ ،‬يادگيری جمعی و خوشهبندی‬
‫نمره‪74 :‬‬
‫موعد تحويل‪ 24:‬آذر ‪92‬‬
‫سوال ‪ 75( 7‬نمره)‪ :‬يادگيری مبتنی بر نمونه (‪)Instance-based learning‬‬
‫‪.1.1‬‬
‫‪kernel kNN‬‬
‫‪ً 4( .a‬وزُ)‬
‫تا تاسًَيسی راتغِی هزتَط تِ فاصلِی اقليذسی دٍ ًقغِ‪ ،‬دستِتٌذ ‪ kNN‬را تِ فزم هثتٌی تز ّستِ آى‬
‫تؼوين دّيذ‪ .‬ايي دستِتٌذ تا در اختيار داضتي تاتغ ّستِ ٍ دادُّای آهَسش‪ ،‬در هَرد يک ًقغِ جذيذ‬
‫تصوينگيزی هیکٌذ‪.‬‬
‫‪ً 3( .b‬وزُ) آيا ًتيجِی تٌذ (‪ )a‬هؼادل تا ‪ kernel-weighted kNN‬است (تَضيح)؟‬
‫‪ً 8( .1.1‬وزُ) پيادُساسی ‪ :kNN‬پايگاُ دادُ ارقام دستًَيس ‪ MNIST‬کِ در ‪ HW2‬هؼزفی ضذ را در ًظز تگيزيذ‪ .‬دستِتٌذ‬
‫‪ kNN‬را تِ صَرت تاتغ ‪ foundY=kNN(k,trainX,trainY,X) ،Matlab‬پيادُساسی ًواييذ‪ .‬دقت دستِتٌذ‬
‫رٍی ايي پايگاُ دادُ تِ دست آٍريذ‪.‬‬
‫‪ kNN‬را تِ اسای‬
‫سوال ‪ 27( 2‬نمره)‪ :‬يادگيری جمعی (‪)Ensemble learning‬‬
‫‪ .1.1‬در الگَريتن ‪ AdaBoost‬تاتغ ضزر‬
‫‪( )-‬‬
‫)(‬
‫)) ( (‬
‫يک تاتغ ًوايی در ًظز گزفتِ ضذُ است کِ‬
‫ٍ تِ تزتية در ّز دٍر (‬
‫هیضَد کِ تاتغ ّشيٌِ‬
‫)) ( (‬
‫)(‬
‫) يک دستِتٌذ ضؼيف‬
‫∑‬
‫) (‬
‫) (‬
‫تِ ّوزاُ ضزية‬
‫‪,‬‬
‫) (‬
‫تِ گًَِای پيذا‬
‫(تا ثاتت ًگِداضتي دستِتٌذّا ٍ ضزايثی کِ در دٍرّای قثل پيذا‬
‫ضذُاًذ) کويٌِ ضَد‪.‬‬
‫‪ً 8( .a‬وزُ) فزض کٌيذ تِ جای تاتغ ضزر ًوايی اس يک تاتغ ضزر هجذٍر خغا استفادُ ضَد ٍ تِ ػثارت ديگز‬
‫تاتغ ّشيٌِ‬
‫‪)/‬‬
‫)(‬
‫(‬
‫)(‬
‫‪.‬‬
‫∑‬
‫تاضذ‪ ،‬رٍاتظ هزتَط تِ پيذا کزدى دستِتٌذ‬
‫) (‬
‫ٍ ضزية‬
‫در‬
‫ّز دٍر را پيذا کٌيذ‪.‬‬
‫‪ً 3( .b‬وزُ) در هَرد هٌاسة تَدى يا ًثَدى دستِ تٌذ حاصل اس تٌذ (‪ )a‬در هقايسِ تا ‪ AdaBoost‬تحث کٌيذ‪.‬‬
‫‪ً 4( .1.1‬وزُ) آيا ‪ AdaBoost‬تا دستِتٌذ پايِ ‪ Decision stump‬تز رٍی ّز هجوَػِی آهَسش هتٌاّی ساسگار (ّيچ دٍ‬
‫دادُی آهَسش تا تزدار ٍيژگی يکساى ٍ تزچسة هتفاٍت ٍجَد ًذاضتِ تاضذ) هیتَاًذ در تؼذادی هتٌاّی دٍر تِ خغای‬
‫آهَسش صفز تزسذ؟‬
‫‪ .3.1‬فزض کٌيذ در يک هسالِی رگزسيَى تاتغ هغلَب‬
‫تا تاتغ هغلَب‬
‫تاضذ ٍ تَاتغ‬
‫را ًطاى دٌّذ يا تِ ػثارت ديگز‬
‫) (‬
‫𝜖‬
‫) (‬
‫𝜖 تِ تزتية تفاضل خزٍجی تاتغّای‬
‫) ( 𝜖‪ .‬تِ ايي تزتية اهيذ‪ 1‬هجذٍرات‬
‫‪Expectation‬‬
‫‪1‬‬
‫خغا رٍی کل تَسيغ (تزدار ٍرٍدی) تزای تاتغ‬
‫∑‬
‫‪0(𝜖 ( )) 1‬‬
‫∑‬
‫) (‬
‫(] )) (‬
‫تِ صَرت‬
‫هياًگيي ايي هقاديز را تزای تَاتغ‬
‫) (‬
‫ًطاى هیدّذ‪ .‬حال اگز تاتغ تزکيثی‬
‫را در ًظز تگيزيذ ٍ اهيذ هجذٍرات خغا تزای‬
‫∑ ([‬
‫) (‬
‫‪0(𝜖 ( )) 1‬‬
‫در هیآيذ ٍ‬
‫) (‬
‫رٍی کل تَسيغ را‬
‫تٌاهين‬
‫)‬
‫‪.‬‬
‫‪ً 6( .a‬وزُ) ًطاى دّيذ‬
‫دارين‬
‫(راٌّوايی‪ :‬هیتَاًيذ اس ًاهساٍی ‪ Jenson‬کِ تِ اسای ّز تاتغ هحذب‬
‫)‪( , -‬‬
‫)‪ ( , -‬استفادُ‬
‫ًواييذ‪).‬‬
‫‪,𝜖 ( )-‬‬
‫‪ً 6( .b‬وزُ) چٌاىچِ اهيذ خغای هذلّای پايِ صفز تاضذ ((‬
‫تاضذ (‬
‫]) ( 𝜖) ( 𝜖[‬
‫)‪ً ،‬طاى دّيذ‬
‫) ٍ خغای هذلّا ًاّوثستِ‬
‫‪.‬‬
‫سوال ‪ 22( :3‬نمره) خوشهبندی‬
‫‪ً 4( .1.3‬وزُ) دادُّای هَجَد در ضکل سيز را در ًظز تگيزيذ (ًقاط آتی رًگ)‪ .‬اگز هحل اٍليِ هزاکش خَضِّا در الگَريتن‬
‫‪ً k-means‬قاط قزهش رًگ‬
‫‪-‬‬
‫‪ٍ,‬‬
‫‪ ,‬تاضذ‪ ،‬هزاکش ًْايی خَضِّا در الگَريتن ‪ k-means‬چِ خَاّذ تَد ٍ‬
‫‪-‬‬
‫الگَريتن در چٌذ دٍر تکزار تِ ايي هزاکش ّوگزا هیضَد؟‬
‫}‬
‫‪ .1.3‬تاتغ ّشيٌِی سيز تزای خَضِتٌذی دادُّای‬
‫‖‬
‫) (‬
‫)(‬
‫)(‬
‫{ تِ‬
‫‖‬
‫خَضِ‬
‫‪+‬‬
‫∑‬
‫∑‬
‫) (‬
‫)(‬
‫* را در ًظز تگيزيذ‪:‬‬
‫∑‬
‫‪ً 1( .a‬وزُ) ايي تاتغ ّشيٌِ را تَصيف ًواييذ‪.‬‬
‫‪ً 4( .b‬وزُ) ًطاى دّيذ تاتغ ّشيٌِ تاال هؼادل تا تاتغ ّشيٌِی سيز است (‬
‫هیدّذ)‪:‬‬
‫‖‬
‫)(‬
‫‖‬
‫∑‬
‫)(‬
‫|‬
‫|∑‬
‫هياًگيي دادُّای خَضِی‬
‫را ًطاى‬
‫‪ً 3( .c‬وزُ) اس تيي تَاتغ ّشيٌِ ‪ ٍ k-means‬ايي تاتغ ّشيٌِ کويٌِ کزدى کذاميک تيطتز تِ سوت کن ًگِداضتي‬
‫تؼذاد اػضای خَضِّايی کِ دادُّای دٍر اس ّن دارد توايل دارد (تَضيح)؟‬
‫‪ً 7( .3.3‬وزُ) فزض کٌيذ تَسيغ دادُّا تا )‪ Poisson Mixture Model (PMM‬هذل ضَد ٍ يک تَسيغ پَاسَى ‪-‬هتغيزُ تا‬
‫پاراهتزّای‬
‫)‬
‫| (‬
‫هجوَػِ دادُ‬
‫‪,‬‬
‫‪-‬‬
‫تِ صَرت‬
‫)‬
‫(‬
‫∏‬
‫) | (‬
‫تؼزيف هیضَد ٍ تٌاتزايي‬
‫) (‬
‫∑‪ .‬گامّای ‪ M ٍ E‬الگَريتن ‪( EM‬جْت پيذا کزدى هقاديز پاراهتزّای ‪ )PMM‬تا در اختيار داضتي‬
‫}‬
‫)(‬
‫{ را هطخص ًواييذ‪.‬‬
‫‪ً 8( .4.3‬وزُ) تزرسی تجزتی خَضِتٌذی‪:‬‬
‫پايگاُ دادُ ‪ Old Faithful Geyser‬هزتَط تِ دادُّای فَراى تزای آتفطاى عثيؼی ‪ Old Faithful‬را در ًظز تگيزيذ کِ‬
‫ضاهل ‪ٍ 1‬يژگی سهاى تيي دٍ فَراى ٍ عَل فَراى تزای ‪ 171‬دادُ است‪ .‬قصذ دارين تا استفادُ اس خَضِتٌذی‪ ،‬دادُّا را تِ‬
‫دٍ گزٍُ تقسين کٌين‪.‬‬
‫‪ً 4( .a‬وزُ) الگَريتن ‪ k-means‬را تا‬
‫تِ اسای ‪ 11‬ضزٍع تصادفی اجزا ًوَدُ ٍ تْتزيي ًتيجِ را تا تَجِ تِ‬
‫هقذار تاتغ ّشيٌِ اًتخاب ًوَدُ ٍ ًوايص دّيذ‪.‬‬
‫(تزای الگَريتن ‪ k-means‬هیتَاًيذ اس تاتغ ‪ k-means‬در ‪ Matlab‬استفادُ ًواييذ)‬
‫‪ً 4( .b‬وزُ) الگَريتن ‪ EM+GMM‬را تِ اسای‬
‫تا ‪ 11‬ضزٍع تصادفی اجزا ًوَدُ ٍ تْتزيي ًتيجِ را تا تَجِ‬
‫تِ هقذار لگاريتن درستًوايی‪ 1‬اًتخاب ًوَدُ ٍ ًوايص دّيذ‪.‬‬
‫(تزای الگَريتن ‪ EM+GMM‬هیتَاًيذ اس تاتغ ‪ gmdistribution.fit‬در ‪ Matlab‬استفادُ ًواييذ)‬
‫‪likelihood‬‬
‫‪2‬‬