SUPERVISOR
Majid Talebi,Seyed Rasul Moosavi
مجید طالبی (استاد مشاور) سید رسول موسوی (استاد راهنما)
STUDENT
Samaneh Nemati
سمانه نعمتی
FACULTY - DEPARTMENT
دانشکده مهندسی برق و کامپیوتر
DEGREE
Master of Science (MSc)
YEAR
1388
TITLE
A Study of Existing Methods for the Analysis of Genetic Variations and SNPs and Providing a New Solution
A haplotype is a sequence of Single Nucleotide Polymorphism () from a given DNA and provides valuable genetic information. is the most common form of structural variant and haplotypes encode in a single DNA. Haplotype information is useful in several genetics studies including mapping complex disease genes and drug design. Also, haplotype information is essential for understanding the detailed analysis of the mechanisms of some diseases. So the study of haplotypes and consequently reconstructing them has been an important research area in the recent years. However, retrieving haplotype directly from DNA samples using existing technologies is expensive and also time consuming. This motivates the increasing interests in techniques for reconstruction of haplotypes from fragments which can be obtained quickly and economically. Fragments obtained from sequencing instruments are always associated with errors, which makes the haplotype construction difficult. In particular, the problem based on the Minimum Error Correction (MEC) model, which is the most frequently used model, is NP- hard. A formal definition for the Haplotype Assembly problem is as follows: given a set of (inconsistent) fragments obtained by DNA sequencing, find and correct the errors in the data to retrieve a maximally consistent pair of haplotypes compatible with the corrected fragments. Various methods have been proposed since Lancia introduced the first algorithm to solve this problem in 2001. Methods for solving this problem are divided into two categories, namely exact and inexact methods. Because the size of real data is usually huge, unfortunately exact algorithms are not practical for such data. Hence, the uses of heuristic algorithms on these data are recommended. The current state-of-the-art method for the problem is HapSAT. This algorithm makes a sat-based model, and tries to solve the model by using an existing sat-solver. In this dissertation, three heuristic algorithms are proposed, each of which tries to improve the solution of current heuristic algorithm, with separation of homozygote columns from heterozygote ones. The separation operation is performed before constructing the sat-based model. The first algorithm, ErrHapSAT, is based on using the error rate of the underlying sequencing machine. In this algorithm, the error rate is used as a threshold for recognize the homozygous columns. The second algorithm, named BoundHapSAT, separates the homozygous columns from heterozygous ones, using statistical analyses of matrix. Finally, in the third algorithm, called MinedHapSAT, the separation task is performed using the C4.5 algorithm. The C4.5 is a decision tree induction algorithm, which is one of the methods in machine learning. The performance of proposed algorithm was evaluated on several datasets. The datasets are divided into two groups, namely random generated (simulated) and real datasets. One of the real datasets is obtained from the Phase II of the HapMap projects, and the other one is the HuRef data that is a commonly used dataset for such researches. Each algorithm is compared with the best current algorithm. The results indicate that the proposed methods, with no sensible effect on running-time, increase the accuracy of the reconstructed haplotypes, which is very plausible for the subsequent analyses of the obtained haplotypes. Therefore, the proposed methods replace the current state-of-the-art for the Haplotype Assembly problem. Keywords: Haplotype Reconstruction, Single Nucleotide Polymorphism (), Minimum Error Correction (MEC), heuristic algorithm, NP-hard.
هاپلوتایپ مجموعه ای از چندشکلی های تک نوکلئوتیدی (اسنیپ ها) موجود در دی?ان?ای است و دربردارنده اطلاعات ارزشمند ژنتیکی می?باشد. اسنیپ?ها معمول ترین تغییرات ساختاری هستند که در دی?ان?ای کد می?شوند. با توجه به این که برخی از بیماری های ژنتیکی ناشی از تغییرات در ساختار ژنوم است، اطلاعات موجود در هاپلوتایپ?ها همواره مورد توجه پژوهشگران در زمینه?های مختلف علم ژنتیک بوده? است. به طوریکه مطالعه هاپلوتایپ?ها و همچنین بازسازی آن?ها در سال?های اخیر مورد توجه طیف وسیعی از محققین واقع شده است. در این بین بازسازی هاپلوتایپ یک مسئله مطرح در بازسازی کل ژنوم است. از آنجاییکه بازسازی هاپلوتایپ?ها به کمک روش?های الگوریتمی و استفاده از ماتریس اسنیپ نسبت به بدست? آوردن مستقیم آن?ها به کمک تکنولوژی?های فعلی، هم به لحاظ زمانی و هم هزینه مقرون به صرفه است، لذا در بازسازی هاپلوتایپ?ها استفاده از روش?های الگوریتمی توصیه می?گردد. همواره توالیهای بدست آمده از توالییابها همراه با خطا هستند، که این قضیه ساخت هاپلوتایپها را پیچیده میکند. خصوصا رویکرد حداقل تصحیح خطا، که از معروفترین نسخههای این مسئله بوده و ثابت شده که از دسته مسائلNP -سخت است. تعریف رسمی مسئله بازسازی هاپلوتایپ بدین صورت است: با وجود مجموعه?ای از قطعات ناسازگار که با کمک روش?های توالی?یابی موجود به دست آمده?اند، خطاهای موجود در داده?ها به نحوی یافته و اصلاح گردند که هاپلوتایپ?های بدست آمده با قطعه?های تصحیح شده حداکثر سازگاری را داشته باشند. از زمان ارائه اولین الگوریتم توسط لانسیا در سال 2001 تا کنون روش های متعددی برای حل این مسئله مطرح شده?است . این روش?ها عموما به دو دسته الگوریتم های دقیق و غیر دقیق تقسیم می شوند. از آنجایی که حجم دادههای واقعی بسیار بالاست، متاسفانه استفاده از الگوریتمهای دقیق در مورد اینگونه دادهها عملی نیست. از این رو استفاده از الگوریتمهای مکاشفهای در مورد این دادهها توصیه میگردد. در حال حاضر بهترین الگوریتم مکاشفهای موجود HapSAT است، که با تبدیل مسئله بازسازی هاپلوتایپ به مسئله حداکثر ارضای بولین، هاپلوتایپ?های موردنظر را محاسبه می?کند. در این پایان نامه سه الگوریتم مکاشفهای پیشنهاد شده است؛ که هر یک، به نوعی با تفکیک ستونهای هوموزیگوت از هتروزیگوت، در صدد بهبودی بر بهترین الگوریتم مکاشفهای موجود میباشند. عملیات جداسازی ستون?ها، پیش از مرحله تبدیل در الگوریتم HapSAT انجام می?شود. الگوریتم اول، ErrHapSAT مبتنی بر نرخ خطای دستگاه توالییاب میباشد. در این الگوریتم، نرخ خطا به عنوان مقدار آستانه برای تشخیص ستون?های هوموزیگوت به کار می?رود. الگوریتم دوم، تحت عنوان BoundHapSAT با تحلیل آماری ماتریس اسنیپ به مشخص کردن مرزهایی برای تفکیک ستونها از هم میپردازد. در الگوریتم سوم، MinedHapSAT، با کمک الگوریتم C4.5 در درخت تصمیم، که از روشهای یادگیری ماشین به شمار میرود، مرزهای تفکیک محاسبه میشوند. کارایی الگوریتم?های پیشنهادی بر روی سه مجموعه داده مختلف مورد ارزیابی قرار گرفته است. این داده?ها به دو گروه داده?های واقعی و داده?های شبیه?سازی شده تقسیم می?شوند. دسته اول داده?های واقعی برگرفته از فاز دوم پروژه هپ?مپ می?باشند. مجموعه داده واقعی دیگر تحت عنوان داده?های هیورف می?باشد که در آزمایشات مشابه مورد استفاده قرار گرفته است. نتایج حاصل از آزمایشها نشان میدهد که هر سه این روشها بدون تاثیر منفی بر روی سرعت، موجب افزایش دقت میشوند. با توجه به اینکه دقت هاپلوتایپهای بازسازی شده در حوزه ژنومیک بسیار حائز اهمیت است، این روشها میتوانند جایگزین بهترین روش مکاشفهای فعلی برای بازسازی هاپلوتایپ شوند. کلمات کلیدی: بازسازی هاپلوتایپ، اسنیپ، حداقل تصحیح خطا، الگوریتم مکاشفهای، NP-سخت