به نام خدا بازشناسی گفتار نیمسال دوم 94-95 دکتر صامتی دانشکده مهندسی کامپیوتر تمرین سری سوم [بخش اول] – پاسخ HMMو GMM زمان تحویل 14 :اردیبهشت 1395 پاسخها سوال .1یکی از روشهایی که در مواجهه با مسائل غیرمحدب که راهحلهای Sub-optimalدارند کاربرد دارد ،اجرای چندبارهی الگوریتم با شرایط اولیهی تصادفی مختلف است که تا حدودی هم میتواند مشکل گزینهی الف و هم مشکل گزینهی ب را حل کند .همچنین در راستای کم کردن مشکالت گفته شده ،بسطهایی نیز برای روش EMارائه شدهاند .از جملهی این روشها میتوان به CEMو SEMاشاره کرد .این دو روش با اضافه کردن یک مرحلهی ردهبندی سعی دارند تا به جای در نظر گرفتن هر یک از نمونهها ،با خواص آماری مجموعهای از نمونهها سر و کار داشته باشند تا حساسیت الگوریتم کمتر شود .البته با توجه به وابسته بودن خود این الگوریتمها به خوشههای جداشدهی اولیه ،هر چند نتیجه در عمل بهتر میشود ،اما مشکل اصلی همچنان پابرجا است .برای اطالعات بیشتر در مورد این دو میتوانید به ] [1مراجعه کنید. سوال .2برای هر دو گزینهی مطرح شده ،یکی از سادهترین روشها استفاده از k-fold cross validationاست .در این روش، در ابتدا مجموعهی دادههای آموزشی به دو قسمت آموزش 1و اعتبارسنجی 2تقسیم میشوند .سپس قسمتی که برای آموزش در نظر گرفته شده است به kقسمت مساوی تقسیم میشود .با kبار اجرای الگوریتم یادگیری ،هر یک از این kقسمت یک بار برای تست 3و k-1قسمت باقیمانده برای آموزش استفاده میشوند .در انتها صحت نتیجهای که از تجمیع kبار اجرا شدن الگوریتم به دست میآید ،روی مجموعهی اعتبارسنجی ارزیابی میشود .به کمک k-fold cross validationو بسته به توان محاسباتیای که در اختیار داریم ،میتوان روی تمام دادهها و یا زیرمجموعهای از آن ،تعداد stateهای مختلف HMMیا تعداد mixtureهای مختلف GMMرا ارزیابی کرد (از یک stateیا mixtureشروع میکنیم و تعداد را زیاد میکنیم) و تعداد stateیا mixture که به کمترین خطا منجر میشوند را گزارش داد .باید در نظر داشت که چون از k-fold cross validationاستفاده کردهایم، انتظار داریم overfittingرخ ندهد .همچنین بدون استفاده از ،k-fold cross validationبا استفاده از معیارهایی که برای بیشتر شدن تعداد stateها و یا mixtureها جریمه در نظر میگیرند هم میتوان تعداد بهینهی stateها و mixtureها را تخمین زد .دو نمونه از معروفترین این معیارها AICو BICهستند که در زیر فرموالسیون آن آورده شده است: 𝑘𝐴𝐼𝐶 = −2log𝐿(𝑀) + 2 Training 1 Validation 2 Test 3 𝑛𝐵𝐼𝐶 = −2log𝐿(𝑀) + 𝑘log که در آنها ،𝐿(𝑀) ،درستنمایی مدل ،𝑘 ،تعداد پارامترهای مدل (در اینجا تعداد stateها و یا mixtureها) و 𝑛 ،تعداد دادههای آموزشی است. با توجه به تعاریف فوق ،مسلماً اولویت با مقدار AICو BICکمتر است .همچنین در نظر داشته باشید که BICجریمهی بیشتری برای بزرگ شدن مدل در نظر میگیرد. برای مطالعهی بیشتر در مورد معیارهای AICو BICمیتوانید به ] [2مراجعه کنید. سوال .3 الف) با داشتن مدل HMMبرای دایفونها و یا ترایفونهای زبانهای مختلف ،میتوان دنبالهی دایفونها و یا ترایفونهای سخنرانی مفروض را استخراج کرد و احتمال وقوع دنبالهی به دست آمده را در هر یک از مدلها بررسی کرد و زبان مربوط به مدلی را که بیشترین احتمال را خروجی میدهد ،به عنوان زبان سخنران گزارش کرد. ب) با داشتن مدل GMMبرای دایفونها و یا ترایفونهای زبانهای مختلف ،با توجه به طوالنی بودن سخنرانی میتوان دنبالهی دایفونها و یا ترایفونهای سخنرانی مفروض را استخراج کرد .سپس با به دست آوردن فراوانی هر یک از دایفونها یا ترایفونها میتوان تخمینی از PDFزبان سخنران به دست آورد .حال میتوان زبانی که GMMآن کمترین اختالف 4با PDFبه دست آمده را دارد به عنوان زبان سخنران خروجی داد. مراجع [1] Biernacki, C., Celeux, G. and Govaert, G., 2003. Choosing starting values for the EM algorithm for getting the highest likelihood in multivariate Gaussian mixture models. Computational Statistics & Data Analysis, 41(3), pp.561-575. [2] Burnham, K.P. and Anderson, D.R., 2004. Multimodel inference understanding AIC and BIC in model selection. Sociological methods & research, 33(2), pp.261-304. 4یکی از سادهترین معیارهای اندازهگیری اختالف نیز میتواند Least Mean Squareباشد.
© Copyright 2025 Paperzz