تمرین دوم درس بیوانفورماتیک آذرماه 39 -1دو رشته DNAبه طول 𝑛 را به صورت تصادفی تولید نمایید و با استفاده از الگوریتم Needleman-Wunschجدول پویای آنها را طبق تابع امتیاز زیر کامل کنید. 1 𝑏 = 𝑎 𝑓𝑖 { = )𝑏 𝜎(𝑎, 𝑒𝑠𝑖𝑤𝑟𝑒0 𝑜𝑡ℎ با توجه به تابع امتیاز باال ،مقدار خانهی پایین-سمت راست جدول پویا نشان دهندهی میزان شباهت دو رشتهی همردیف شده است .از تقسیم این عدد بر 𝑛 ،نسبت شباهت دو رشته به دست میآید. الف) برنامهی باال را 111مرتبه به ازای n = 1, 2, … ,1000اجرا کنید و متوسط نسبت شباهت دو رشته را به ازای nهای مختلف بدست آورید و نمودار آن را بر حسب nترسیم کنید .با توجه به این نمودار ،حدودا به ازای nهای بزرگ چند درصد از دو رشته پس از همردیفی با یکدیگر شبیه میشود؟ ب) به صورت تحلیلی بدست آورید که میانگین نسبت شباهت دو رشتهی تصادفی بزرگ پس از همردیفی طبق تابع امتیاز باال چقدر است؟ -2 الف) الگوریتمی ارائه کنید که تعداد همردیفی های بهینه دو رشته به طول mو nرا بدست آورد. ب) الگوریتم خود را به کد نوشته شده برای سوال 1بیفزایید. ت) اگر تابع جریمه به صورت زیر باشد 𝑏 = 𝑎 𝑓𝑖 " 𝑖𝑓 𝑎 ≠ 𝑏 𝑎𝑛𝑑 𝑎, 𝑏 ≠ " − " 𝑖𝑓 𝑎 = " − " 𝑜𝑟 𝑏 = " − 0 𝜎(𝑎, 𝑏) = { 1 𝛼 که αاز مجموعه زیر انتخاب میشود، }𝑁 ∈ 𝑥 ∝= {𝑥 | 1 ≤ 𝑥 ≤ 100 , 𝑥 ∈ 𝑁} ∪ {𝑥−1 | 1 ≤ 𝑥 ≤ 100, به ازای هریک از مقادیر 111 ،αمرتبه الگوریتم را به ازای رشته های تصادفی به طول یکسان اجرا کنید (طول دو دنباله را در همه تکرارها یکسان و مقداری ثابت در نظر بگیرید ،انتخاب این مقدار ثابت با تشخیص خودتان) .نمودار تعداد همردیفی های بهینه بر حسب αرا ترسیم کنید. ث) چگونه این نمودار را توجیه می کنید؟ می توانید رابطه ای برای تخمین آن پیدا کنید؟ -9فرض کنید برای دو رشته ،همردیفی انجام شده است .حال تابع جریمه مربوط به همردیفی عوض شده است ( 9نوع جریمه مطابق سوال .)2 الف) چه شرطی می توان برای تغییر تابع جریمه در نظر گرفت که حداقل یک همردیفی بهینه در حالت قبل ،در حالت جدید نیز بهینه باشد؟ ب) فرض کنید جدول برنامه نویسی پویا مربوط به همردیفی دو رشته در اختیار ماست .حال مقادیر جریمه های این جدول تغییر یافته است .چگونه می توان از جدول قبل برای کاهش حجم محاسبات برای بدست آوردن همردیفی بهینه در حالت جدید استفاده کرد؟ -4کروموزومهای باکتریها به طور معمول حلقوی است .فرض نمایید که کروموزومهای دو باکتری که دارای طول های mو n می باشند را به صورت خطی داریم و میخواهیم آنها را هم ردیف نماییم. الف) روشی ارائه دهید که این کار را در زمان )𝑛𝑚}𝑛 𝑂(𝑚𝑖𝑛{𝑚,انجام دهد. ب) اگر تنها بخواهیم یکسان بودن این دو رشته را تشخیص دهیم ،در آن صورت پیچیدگی زمانی چقدر است؟ -5در بسیاری از موارد عالقه مندیم که شباهت های درون یک رشته DNAرا بیابیم. الف) آیا می توان یک رشته خاص را توسط الگورریتم Smith-Watermanبا خود همردیف کرد؟ چرا؟ پ) برای یافتن شباهتهای درون یک رشته ،چه تغییری در الگوریتم Smith-Watermanباید ایجاد کرد؟ ب) آیا الگوریتم پیشنهادی شما دو ناحیه شبیه به هم که روی یکدیگر هستند را مییابد؟ پ) E-Coliیک باکتری حلقوی به طول ژنوم 4.6 ∗ 106است .میزان حافظه و زمان یافتن نواحی مشابه را با توجه به الگوریتم پیشنهادی تخمین بزنید.
© Copyright 2025 Paperzz