ML-HW1.pdf

‫به نام خدا‬
‫دانشكده مهندسي كامپيوتر‬
‫تمرین شماره ی ‪1‬‬
‫یادگیری ماشین (‪)40-۷۱۷‬‬
‫‪Machine Learning‬‬
‫مدرس ‪ :‬دكتر حمید بیگي‬
‫موعد تحویل ‪۹۴/۰۷/1۸ :‬‬
‫مالحظات‬
‫‪‬‬
‫اگر از کسی تقلبي گرفته شود‪ ،‬تمامی نمرات تمرینها‪ ،‬کوییزها‪ ،‬نمرات اضافه و ارائه صفر رد میشود‪.‬‬
‫‪‬‬
‫لطفاً پاسخ تمرینهای خود را به صورت مختصر و مفيد و خوانا و شفاف نوشته و ارسال نمایید‪.‬‬
‫‪‬‬
‫لطفاً پاسخ تمرین خود را به آدرس الكترونيكي ‪ machinelearning.ce@gmail.com‬حداکثر تا‬
‫موعد تحویل این تمرین ارسال نمایید‪.‬‬
‫‪‬‬
‫هر ایميل حاوی تمرین باید به فرمت ذیل باشد ‪:‬‬
‫‪‬‬
‫موضوع ایميل به شکل >‪ <StudentNumber>_HW#<HomeWorkNumber‬باید باشد‬
‫‪‬‬
‫یک و فقط یک فایل در ضمیمهی ایمیل قرار خواهد گرفت‪ ،‬حاوی پاسخ تمرینها و به شکل یک‬
‫فایل ‪ zip‬با نام ‪( <StudentNumber>_HW#<HomeWorkNumber>.zip‬در فایل‬
‫مذکور میتواند یک فایل ‪ PDF‬و یا تعدادی فایل ‪ JPG‬و یا ‪ PNG‬با نام شمارهی سواالتی که پاسخ‬
‫داده شده است قرار گیرد)‬
‫‪‬‬
‫منظور از >‪ <StudentNumber‬شماره ی دانشجویی فرد ارسال کننده و منظور از‬
‫>‪ <HomeWorkNumber‬شمارهی تمرین مورد نظر خواهد بود؛ مثالً اگر شخصی شمارهی‬
‫دانشجوییاش ‪ ۹۴۱۲۳۴۵۶‬میباشد‪ ،‬فایل ضمیمهی ایمیل تمرین سوم ایشان به شکل‬
‫‪ 94123456_HW#3‬میباشد‪.‬‬
‫‪‬‬
‫حداكثر حجم فایلهای ارسالی ‪ 5MB‬خواهد بود‪.‬‬
‫‪‬‬
‫در ایمیلهای ارسالی حاوی پاسخ تمرینهای هر شخص‪ ،‬متن ایميل ارسالي به هیچوجه مالک عمل نخواهد‬
‫بود‪.‬‬
‫‪‬‬
‫چنانچه فایل ارسالي به هر دلیلی قابل مشاهده نباشد (فایل ‪ zip‬خراب باشد و باز نشود‪ ،‬فایل ضمیمه‬
‫فراموش شده باشد‪ ،‬تصاویر واضح و روشن نباشد و ‪ )...‬به منزلهی عدم ارسال تمرین در موعد مقرر خواهد بود‪.‬‬
‫‪‬‬
‫اگر برای یک تمرین چندین ایميل دریافت گردد‪ ،‬مالک زمان ارسال تمرین و تصحیح تمرین‪ ،‬آخرین ایمیل‬
‫ارسالی خواهد بود‪.‬‬
‫‪‬‬
‫گروه اینترنتي ‪ https://groups.google.com/forum/#!forum/ce717‬برای ارتباط دانشجویان‬
‫درس با یکدیگر و با دستیاران آموزشی ایجاد شده است‪.‬‬
‫‪‬‬
‫کلیهی دانشجویان درس باید در این گروه عضو شوند‪.‬‬
‫‪‬‬
‫در زمان درخواست عضویت حتماً نام و نام خانوادگی و شمارهی دانشجویی خود را وارد نمایید‪.‬‬
‫‪‬‬
‫کلیهی ایمیل های ارسالی به گروه مذکور پس از تایید یکی از مدیران گروه به کلیهی افراد عضو‬
‫ارسال خواهد شد‪.‬‬
‫‪‬‬
‫کلیهی اعالنها و خبرها و مواردی که از طریق گروه به اطالع برسد به منزلهی اعالم رسمی به‬
‫کلیهی دانشجویان درس میباشد‪.‬‬
‫‪‬‬
‫برای ارسال ایمیل به کلیهی افراد گروه میتوانید به آدرس ‪ce717@googlegroups.com‬‬
‫ایمیل را ارسال نمایید‪ .‬این ایمیل در صورت تایید مدیر به کلیهی افراد عضو (شامل کلیهی‬
‫دانشجویان درس‪ ،‬کلیهی دستیاران آموزشی درس و استاد محترم درس) ارسال خواهد شد‪.‬‬
‫‪‬‬
‫لطفاً سواالتی که پاسخ آنها میتواند برای سایر دانشجویان درس نیز مفید باشد در این گروه‬
‫بپرسید‪.‬‬
‫‪ )1‬در طول حل سواالت این تمرین از کسی یا منبعی کمک گرفتهاید؟‬
‫بله‬
‫خير‬
‫در صورتیکه پاسخ شما به سوال باال «بله» میباشد‪ ،‬جزییات کامل را بیان کنید‪( .‬به عنوان مثال ‪ :‬احمد‬
‫احمدی صورت سوال ‪ ۵‬تمرین را برای من شفاف نمود)‬
‫‪ )2‬در طول حل سواالت این تمرین به کسی کمک کردهاید؟‬
‫بله‬
‫خير‬
‫در صورتیکه پاسخ شما به سوال باال «بله» می باشد‪ ،‬جزییات کامل را بیان کنید‪( .‬به عنوان مثال ‪ :‬من احمد‬
‫احمدی را راهنمایی کردم که برای حل سوال ‪ ۳‬به فصل دوم صفحهی ‪ ۷۱‬مراجعه نماید‪).‬‬
‫‪ )3‬اگر فضای فرضیهی ‪ 𝐻1‬از فضای فرضیهی ‪ 𝐻2‬کوچکتر باشد‪ ،‬احتمال رویداد بیش برازش (‪ )Overfitting‬را‬
‫در این دو فضای فرضیه با یکدیگر مقایسه کنید؟ برای پاسخ خود دالیل کافی ارائه نمایید‪.‬‬
‫‪ )۴‬اگر مجموعه دادهها را کوچکتر کنیم‪ ،‬احتمال رویداد بیش برازش (‪ )Overfitting‬چگونه تغییر میکند؟‬
‫برای پاسخ خود دالیل کافی ارائه نمایید‪.‬‬
‫‪ )5‬فرض کنید یک مجموعه داده با ‪ N‬نمونه موجود است‪ .‬اگر نیمی از نمونهها را برای آموزش و نیمهی دوم را‬
‫برای آزمایش به کار گیریم‪ ،‬اختالف خطای آموزش و آزمایش با افزایش ‪ N‬چه تغییری میکند؟‬
‫‪ )6‬حساسیت به ‪ Noise‬در دادهها‪ ،‬در مدلهای پیچیده بیشتر است و یا مدلهای سادهتر؟ برای پاسخ خود دالیل‬
‫کافی ارائه نمایید‪.‬‬
‫‪ )۷‬با ذکر حداقل دو دلیل بیان نمایید که چرا الگوریتم سادهی به خاطر سپردن و سپس جستجو در جدول‬
‫دادههای آموزشی برای یادگیری کافی نیست؟‬
‫‪ )۸‬فرض کنید علی در زمان ‪ t‬از خواب بیدار میشود و ‪ t‬یک نقطهی تصادفی است که با توزیع یکنواخت در بازهی‬
‫)‪ (0,10‬قرار خواهد گرفت‪.‬‬
‫الف) مقدار )‪ 𝑝(6 ≤ 𝑡 ≤ 8‬را محاسبه نمایید‪.‬‬
‫ب) مقدار )‪ 𝑝(6 ≤ 𝑡 ≤ 8 | 𝑡 > 5‬را محاسبه نمایید‪.‬‬
‫‪ )۹‬ثابت کنید اگر رخدادهای 𝑛𝐴 ‪ 𝐴1 , 𝐴2 , … ,‬مستقل باشند و 𝑖𝐵‪ ،‬یا 𝑖𝐴 باشد و یا 𝑖̅𝐴 باشد و یا مجموعهی‬
‫مرجع 𝑆‪ ،‬رخدادهای 𝑛𝐵 ‪ 𝐵1 , 𝐵2 , … ,‬نیز مستقلند‪.‬‬
‫‪ )1۰‬ثابت کنید اگر 𝑋 و 𝑌 دو متغیر تصادفی مستقل باشند‪ ،‬آنگاه ]𝑌[𝑟𝑎𝑉 ‪𝑉𝑎𝑟[𝑋 + 𝑌] = 𝑉𝑎𝑟[𝑋] +‬‬
‫‪ X )11‬را به صورت یکنواخت بین ‪ ۰‬و ‪ ۱‬انتخاب میکنیم و سپس ‪ Y‬را نیز به صورت یکنواخت بین ‪ ۰‬و ‪ X‬انتخاب‬
‫میکنیم‪ .‬بنابراین میتوان نوشت ‪:‬‬
‫‪0≤𝑥≤1‬‬
‫𝑒𝑠𝑖𝑤𝑟𝑒‪𝑜𝑡ℎ‬‬
‫‪1‬‬
‫‪0‬‬
‫{ = )𝑥(𝑝‬
‫الف) عبارت متناظر با )𝑥|𝑦(𝑝 را محاسبه نمایید‪.‬‬
‫ب) عبارت متناظر با )𝑦(𝑝 را محاسبه نمایید‪.‬‬
‫ج) عبارت متناظر با )𝑦|𝑥(𝑝 را محاسبه نمایید‪.‬‬
‫د) فرض کنید مقادیر انتخاب شدهی ‪ X‬و ‪ Y‬طول و عرض یک مستطیل باشند‪ .‬در این حالت مساحت متوسط‬
‫مستطیل منتخب را محاسبه نمایید‪.‬‬
‫‪ )12‬فرض کنید ‪ X‬یک متغیر تصادفی با توزیع دو جملهای (‪ )binomial‬با میانگین 𝑝𝑁 و واریانس‬
‫)𝑝 ‪ 𝑁𝑝(1 −‬میباشد‪ .‬ثابت کنید که‬
‫𝑋‬
‫𝑁‬
‫نیز دارای یک توزیع دو جملهای با میانگین 𝑝 و واریانس‬
‫)𝑝‪𝑝(1−‬‬
‫𝑁‬
‫میباشد‪.‬‬
‫‪ )13‬توزیع پواسون‪ ۱‬یک توزیع احتمالی گسسته است که احتمال اینکه یک حادثه به تعداد مشخصی در یک فاصله‬
‫زمانی رخ دهد را شرح میدهد؛ مانند تعداد ‪ packet‬هایی که در یک دقیقه به یک سرور میرسند‪ .‬تابع توزیع‬
‫احتمال برای این توزیع روابط ذیل برقرار است ‪:‬‬
‫‪Poisson Distribution‬‬
‫‪1‬‬
‫𝜆‪𝜆𝑘 𝑒 −‬‬
‫= )𝜆|𝑘(𝑃‬
‫!𝑘‬
‫که ‪ 𝜆 > 0‬پارامتر توزیع و } … ‪ 𝑘 ∈ {0,1,‬یک متغیر تصادفی گسسته برای نمایش تعداد رویدادهایی که در‬
‫یک واحد زمانی رخ میدهند میباشد‪.‬‬
‫الف) فرض کنید } 𝑛𝑘 ‪ {𝑘1 , 𝑘2 , … ,‬متغیرهای تصادفی مستقل با توزیع یکسان ( 𝑑 ‪ )𝑖. 𝑖.‬از یک توزیع‬
‫احتمال پواسون با پارامتر 𝜆 باشند‪ .‬تخمین ‪ MLE‬از 𝜆 ( 𝐸𝐿𝑀̂𝜆) را محاسبه نمایید‪.‬‬
‫ب) ‪ K‬را یک متغیر تصادفی که از توزیع احتمال پواسون با پارامتر 𝜆 تبعیت میکند درنظر بگیرید‪ .‬میانگین و‬
‫واریانس ‪ )𝐸[𝐾] , 𝑉𝑎𝑟[𝐾]( K‬را محاسبه نمایید‪ .‬با توجه به اینکه 𝐸𝐿𝑀̂𝜆 به نمونهها بستگی دارد و خود‬
‫یک متغیر تصادفی است‪ ،‬میانگین و واریانس 𝐸𝐿𝑀̂𝜆 را محاسبه و با میانگین و واریانس ‪ K‬مقایسه کنید‪ .‬از این‬
‫مقایسه چه نتیجهای متصور است؟‬
‫ج) فرض کنید که از قبل میدانیم که 𝜆 از توزیع احتمال گاما‪ ۲‬برآمده است‪ .‬بنابراین داریم ‪:‬‬
‫𝜆‬
‫‪−‬‬
‫𝛽 𝑒 ‪𝜆𝛼−1‬‬
‫= )𝜆(𝑝‬
‫𝛼 𝛽)𝛼(‪Γ‬‬
‫که ) ‪ Γ(.‬تابع گاما میباشد‪ .‬همچنین فرض کنید که از قبل میدانیم که ‪ 𝛼 > 1‬و ‪ .𝛽 > 0‬تخمین ‪MAP‬‬
‫از 𝜆 ( 𝑃𝐴𝑀̂𝜆) را محاسبه نمایید‪.‬‬
‫د) زمانی که تعداد نمونهها (‪ )n‬به سمت صفر و یا بینهایت میل میکند چه تاثیری بر روی هر یک از 𝑃𝐴𝑀̂𝜆‬
‫و 𝐸𝐿𝑀̂𝜆 و توزیع پیشین (‪ )prior distribution‬میگذارد؟‬
‫‪ )1۴‬گفته میشود که ‪ MLE‬همواره وجود ندارد و همچنین در برخی مواردی که وجود دارد‪ ،‬ممکن است یکتا‬
‫نباشد‪.‬‬
‫الف) حالتی را مثال بزنید که ‪ MLE‬وجود نداشته باشد‪ .‬لطفا مشخص نمایید که چه خانوادهای از توزیعها را‬
‫در نظر میگیرید و برای این خانواده از توزیعها بر روی چه انواعی از نمونهها ‪ MLE‬خوش تعریف نمیباشد‪.‬‬
‫ب) حالتی را مثال بزنید که ‪ MLE‬وجود دارد ولی یکتا نیست‪ .‬لطفا مشخص نمایید که چه خانوادهای از‬
‫توزیعها را در نظر میگیرید و برای این خانواده از توزیعها بر روی چه انواعی از نمونهها ‪ MLE‬چند مقدار‬
‫مختلف میتواند بپذیرد‪.‬‬
‫‪ )15‬فرض کنید دو تاس مختلف داریم که یکی سالم است و دیگری معیوب‪ .‬برای تاس معیوب داریم ‪:‬‬
‫‪Gamma Distribution‬‬
‫‪2‬‬
‫‪1‬‬
‫‪𝑥=6‬‬
‫‪2‬‬
‫{ = )𝑥(𝑝‬
‫‪1‬‬
‫}‪𝑥 ∈ {1,2,3,4,5‬‬
‫‪10‬‬
‫یک سکه را میاندازیم و اگر رو آمد تاس سالم را میاندازیم و اگر پشت آمد تاس معیوب را میاندازیم‪ .‬احتمال‬
‫اینکه سکه رو بیاید را 𝑝 درنظر بگیرید‪.‬‬
‫الف) به صورت میانگین چه عددی را پس از این اتفاق مشاهده خواهیم کرد؟ (براساس 𝑝 بیان نمایید)‬
‫ب) واریانس این حادثه را محاسبه نمایید‪( .‬براساس 𝑝 بیان نمایید)‬
‫موفق و موید باشيد‬