ASR_HW3.1_Solution.pdf

‫به نام خدا‬
‫بازشناسی گفتار‬
‫نیمسال دوم ‪94-95‬‬
‫دکتر صامتی‬
‫دانشکده مهندسی کامپیوتر‬
‫تمرین سری سوم [بخش اول] – پاسخ‬
‫‪ HMM‬و ‪GMM‬‬
‫زمان تحویل‪ 14 :‬اردیبهشت ‪1395‬‬
‫پاسخها‬
‫سوال ‪ .1‬یکی از روشهایی که در مواجهه با مسائل غیرمحدب که راهحلهای ‪ Sub-optimal‬دارند کاربرد دارد‪ ،‬اجرای چندبارهی‬
‫الگوریتم با شرایط اولیهی تصادفی مختلف است که تا حدودی هم میتواند مشکل گزینهی الف و هم مشکل گزینهی ب را حل‬
‫کند‪ .‬همچنین در راستای کم کردن مشکالت گفته شده‪ ،‬بسطهایی نیز برای روش ‪ EM‬ارائه شدهاند‪ .‬از جملهی این روشها میتوان‬
‫به ‪ CEM‬و ‪ SEM‬اشاره کرد‪ .‬این دو روش با اضافه کردن یک مرحلهی ردهبندی سعی دارند تا به جای در نظر گرفتن هر یک از‬
‫نمونهها‪ ،‬با خواص آماری مجموعهای از نمونهها سر و کار داشته باشند تا حساسیت الگوریتم کمتر شود‪ .‬البته با توجه به وابسته‬
‫بودن خود این الگوریتمها به خوشههای جداشدهی اولیه‪ ،‬هر چند نتیجه در عمل بهتر میشود‪ ،‬اما مشکل اصلی همچنان پابرجا‬
‫است‪ .‬برای اطالعات بیشتر در مورد این دو میتوانید به ]‪ [1‬مراجعه کنید‪.‬‬
‫سوال ‪ .2‬برای هر دو گزینهی مطرح شده‪ ،‬یکی از سادهترین روشها استفاده از ‪ k-fold cross validation‬است‪ .‬در این روش‪،‬‬
‫در ابتدا مجموعهی دادههای آموزشی به دو قسمت آموزش‪ 1‬و اعتبارسنجی‪ 2‬تقسیم میشوند‪ .‬سپس قسمتی که برای آموزش در نظر‬
‫گرفته شده است به ‪ k‬قسمت مساوی تقسیم میشود‪ .‬با ‪ k‬بار اجرای الگوریتم یادگیری‪ ،‬هر یک از این ‪ k‬قسمت یک بار برای‬
‫تست‪ 3‬و ‪ k-1‬قسمت باقیمانده برای آموزش استفاده میشوند‪ .‬در انتها صحت نتیجهای که از تجمیع ‪ k‬بار اجرا شدن الگوریتم به‬
‫دست میآید‪ ،‬روی مجموعهی اعتبارسنجی ارزیابی میشود‪ .‬به کمک ‪ k-fold cross validation‬و بسته به توان محاسباتیای که‬
‫در اختیار داریم‪ ،‬میتوان روی تمام دادهها و یا زیرمجموعهای از آن‪ ،‬تعداد ‪state‬های مختلف ‪ HMM‬یا تعداد ‪mixture‬های‬
‫مختلف ‪ GMM‬را ارزیابی کرد (از یک ‪ state‬یا ‪ mixture‬شروع میکنیم و تعداد را زیاد میکنیم) و تعداد ‪ state‬یا ‪mixture‬‬
‫که به کمترین خطا منجر میشوند را گزارش داد‪ .‬باید در نظر داشت که چون از ‪ k-fold cross validation‬استفاده کردهایم‪،‬‬
‫انتظار داریم ‪ overfitting‬رخ ندهد‪ .‬همچنین بدون استفاده از ‪ ،k-fold cross validation‬با استفاده از معیارهایی که برای‬
‫بیشتر شدن تعداد ‪state‬ها و یا ‪mixture‬ها جریمه در نظر میگیرند هم میتوان تعداد بهینهی ‪state‬ها و ‪mixture‬ها را تخمین‬
‫زد‪ .‬دو نمونه از معروفترین این معیارها ‪ AIC‬و ‪ BIC‬هستند که در زیر فرموالسیون آن آورده شده است‪:‬‬
‫𝑘‪𝐴𝐼𝐶 = −2log𝐿(𝑀) + 2‬‬
‫‪Training 1‬‬
‫‪Validation 2‬‬
‫‪Test 3‬‬
‫𝑛‪𝐵𝐼𝐶 = −2log𝐿(𝑀) + 𝑘log‬‬
‫که در آنها‪ ،𝐿(𝑀) ،‬درستنمایی مدل‪ ،𝑘 ،‬تعداد پارامترهای مدل (در اینجا تعداد ‪state‬ها و یا ‪mixture‬ها) و 𝑛‪ ،‬تعداد دادههای‬
‫آموزشی است‪.‬‬
‫با توجه به تعاریف فوق‪ ،‬مسلماً اولویت با مقدار ‪ AIC‬و ‪ BIC‬کمتر است‪ .‬همچنین در نظر داشته باشید که ‪ BIC‬جریمهی‬
‫بیشتری برای بزرگ شدن مدل در نظر میگیرد‪.‬‬
‫برای مطالعهی بیشتر در مورد معیارهای ‪ AIC‬و ‪ BIC‬میتوانید به ]‪ [2‬مراجعه کنید‪.‬‬
‫سوال ‪.3‬‬
‫الف) با داشتن مدل ‪ HMM‬برای دایفونها و یا ترایفونهای زبانهای مختلف‪ ،‬میتوان دنبالهی دایفونها و یا‬
‫ترایفونهای سخنرانی مفروض را استخراج کرد و احتمال وقوع دنبالهی به دست آمده را در هر یک از مدلها بررسی کرد و زبان‬
‫مربوط به مدلی را که بیشترین احتمال را خروجی میدهد‪ ،‬به عنوان زبان سخنران گزارش کرد‪.‬‬
‫ب) با داشتن مدل ‪ GMM‬برای دایفونها و یا ترایفونهای زبانهای مختلف‪ ،‬با توجه به طوالنی بودن سخنرانی میتوان‬
‫دنبالهی دایفونها و یا ترایفونهای سخنرانی مفروض را استخراج کرد‪ .‬سپس با به دست آوردن فراوانی هر یک از دایفونها یا‬
‫ترایفونها میتوان تخمینی از ‪ PDF‬زبان سخنران به دست آورد‪ .‬حال میتوان زبانی که ‪ GMM‬آن کمترین اختالف‪ 4‬با ‪ PDF‬به‬
‫دست آمده را دارد به عنوان زبان سخنران خروجی داد‪.‬‬
‫مراجع‬
‫‪[1] Biernacki, C., Celeux, G. and Govaert, G., 2003. Choosing starting values for the EM‬‬
‫‪algorithm for getting the highest likelihood in multivariate Gaussian mixture models.‬‬
‫‪Computational Statistics & Data Analysis, 41(3), pp.561-575.‬‬
‫‪[2] Burnham, K.P. and Anderson, D.R., 2004. Multimodel inference understanding AIC and‬‬
‫‪BIC in model selection. Sociological methods & research, 33(2), pp.261-304.‬‬
‫‪ 4‬یکی از سادهترین معیارهای اندازهگیری اختالف نیز میتواند ‪ Least Mean Square‬باشد‪.‬‬