Skip to main content
SUPERVISOR
Seyed MohammadAli Khosravifard
سیدمحمدعلی خسروی فرد (استاد راهنما)
 
STUDENT
Mina Sadat Mahmoudi
میناسادات محمودی

FACULTY - DEPARTMENT

دانشکده مهندسی برق و کامپیوتر
DEGREE
Master of Science (MSc)
YEAR
1393
DNA sequencing is the workhorse of modern biology and medical studies . Its goal is to determine the order of nucleotides on a DNA sequence . The most popular approach , shotgun sequencing , is made up of two major parts : first cutting the sequence into pieces and reading them by a sequencing machine , and then putting the reads together and reconstructing the sequence by an assembler . Significant theoretical studies on sequencing problem have always pursued the goal of getting a unique sequence at the output of the assembler; otherwise the sequencing procedure would be considered as a failure . As this approach seems to be too strict , in this thesis we propose a new criterion . For each sequence , we consider the number of possible sequences at the output of the assembler and introduce the average of this number as a criterion for evaluating the sequencing procedure . First we present a combinatorial model for calculating the probability of having arbitrary number of equations of arbitrary elements of a random sequence . Then using this model , we calculate the probability of having a pair of leftmost interleaved repeats in a sequence . Defining the concept of compatibility of a sequence with a read set and considering the L-spectrum of the sequences , we find a lower bound on the average of the number of compatible sequences . Finally , by presenting the results of computations , we provide some conjectures on the behavior of the average of the number of compatible sequences and the number of different spectrums with respect to sequence length and read length . Key Words: DNA - Shotgun sequencing - de novo - assembly
امروزه توالی‌یابی دی‌ان‌ای، پایه و محرک مطالعات در حوزه ‌ی علوم ژنتیک، زیست‌شناسی و پزشکی است. منظور از توالی‌یابی ، تعیین ترتیب قرارگیری بازهای نوکلئوتیدی در دنباله‌ی دی‌ان‌ای است. با فناوری موجود، در حال حاضر توالی‌یابی غالبا به روش شاتگان انجام می‌گیرد. توالی‌یابی شاتگان از دو مرحله تشکیل شده است: قطعه‌قطعه کردن دنباله و خواندن قطعات توسط ماشین توالی‌یاب، و کنار هم قرار دادن خوانده‌ها و بازسازی دنباله‌ی اولیه توسط اسمبلر. در مطالعات شاخصی که تاکنون بر روی مسئله‌ی توالی‌یابی از دیدگاه نظری صورت گرفته است، همواره هدف رسیدن به یک دنباله‌ی یکتا در خروجی اسمبلر است و در صورتی که در خروجی نتوان به یک دنباله‌ی یکتا دست یافت، توالی‌یابی ناموفق در نظر گرفته می‌شود. با توجه به اینکه چنین رویکردی سخت‌گیرانه به نظر می‌رسد، در این پایان‌نامه، با در نظر گرفتن تعداد دنباله‌های ممکن در خروجی اسمبلر به ازای هر دنباله، میانگین این تعداد به عنوان معیاری برای سنجش عملکرد توالی‌یابی معرفی می‌شود. ابتدا برای محاسبه‌ی احتمال وقوع تعداد دلخواه تساوی‌ بین خانه‌های دلخواه از یک دنباله‌ی تصادفی، یک مدل ترکیبیاتی ‌ارائه شده است. سپس با استفاده از این مدل، احتمال رخداد یک جفت تکرار جایداده سمت چپی محاسبه شده است. در ادامه، با معرفی مفهوم سازگاری دو دنباله با یک مجموعه خوانده و با در نظر گرفتن طیف بدون نسخه‌ی تکراری دنباله‌ها، کران پایینی برای میانگین تعداد دنباله‌های سازگار ارائه شده است. در نهایت با ارائه‌ی نتایج محاسبات انجام‌شده، حدس‌هایی در رابطه‌ با الگوی رفتار میانگین تعداد دنباله‌های سازگار و تعداد طیف‌های متمایز بر حسب طول دنباله و طول خوانده‌ها ارائه شده است. واژه‌های کلیدی : - دی‌ان‌ای- توالی‌یابی شاتگانde novo روش - اسمبلی

ارتقاء امنیت وب با وف بومی