Skip to main content
SUPERVISOR
Mohammad hossein Saraee,Mohammad DavarpanahJazi
محمدحسین سرایی (استاد راهنما) محمد داورپناه جزی (استاد راهنما)
 
STUDENT
Zahra Mahoor
زهرا ماهور

FACULTY - DEPARTMENT

دانشکده مهندسی برق و کامپیوتر
DEGREE
Master of Science (MSc)
YEAR
1384

TITLE

Enhancement of association- based gene mapping accuracy using data mining methods and its implication on the improvement of prediction and modeling of type 1 diabet susceptibility
Bioinformatics is the field of science in which biology, computer science, and information technology merge to form a single discipline. The ultimate goal of the field is to enable the discovery of new biological insights as well as to create a global perspective from which unifying principles in biology can be established. The rationale for applying computational approaches to facilitate the understanding of various biological processes includes a more global perspective in experimental design and the ability to capitalize on the emerging technology of data mining. One of the main aims of current genetics research is to discover functional relationship between genotype and phenotype. Identifying the causal genetic variants and their functional patterns may greatly facilitate the preventive and diagnosis and biochemical understanding of genetic diseases. This so-called gene mapping. During recent years, there has been growing interest in using data mining methods in gene mapping, motivated by the lack of success of the traditional approaches for complex diseases, and also by the intriguing possibility of simultaneous detection of multiple loci. The data mining methods for linkage disequilibrium mapping can be categorized into three groups including dir=ltr The association gene mapping methods based on the haplotype clustering analysis are vastly used to localize a mutation in a gene sequence. In many cases the locations that are found based on these methods have large errors. In this work, we present a robust technique to lower the mean error of the association gene mapping in the haplotype clustering analysis. In this technique, we utilize the information gain to select a set of important features (i.e., markers) that are used in the clustering process. In other words, each marker is assigned a rank and then the high ranked markers are fed into the HapMiner algorithm for localizing the disease. In order to justify the proposed approach, We have applied the performance of our technique on a set of simulated dataset. The experiments show a significant reduction in the mean error of the gene mapping.
مبحث بین‌رشته‌ای بیوانفورماتیک شامل دستاوردهای نظری و عملی علوم کامپیوتر، ریاضی و بیولوژی بوده و در برگیرنده طراحی سیستم‌های کامپیوتری و مدل های ریاضی برای نگهداری، مدیریت و تحلیل مجموعه عظیمی از داده‌های زیستی و همچنین ارائه دانش زیستی می باشد. یکی ازاهداف اصلی تحقیقات ژنتیکی امروزی کشف ارتباطات عملکردی موجود بین ژنوتیپ‌‌ها(اطلاعات موروثی و رمزهای ژنتیکی) و فتوتیپ‌‌ها(بیماری ژنتیکی) است. تشخیص متغیر‌های مسبب یک فنوتیپ و الگو‌های عملکردی آن‌ها می‌تواند به سرعت موجب تشخیص و پیشگیری بسیاری از بیماری‌‌های ژنتیکی شده و درک بیوشیمی ‌‌این قبیل بیماری‌‌ها را افزایش دهد، این مبحث مکان یابی ژن‌ها نام دارد. در طی سال های اخیر، به روش های داده کاوی در مکان یابی ژنی توجه زیادی شده است که دلیل آن عدم موفقیت روش های قدیمی برای بیماری های پیچیده و همچنین افزایش امکان پیدا کردن همزمان چندین نشانگر است. روش های داده کاوی با استفاده از مکان یابی "عدم تعادل پیوند" به سه دسته روش های رده بندی، روش های خوشه کردن و روش های بر مبنای کشف الگوهای هاپلوتیپ تقسیم بندی می شوند. روش های رده بندی سعی می‌کنند مجموعه مکان هایی در ژنوتیپ برگزینند که به بهترین وجه فنوتیپ را پیشگویی کنند. اما ممکن است این مکان‌ها بصورت تصادفی انتخاب شوند. در این تحقیق برای اینکه فرایند رده بندی افراد بیمار و سالم بهبود داده شود ابتدا بوسیله روش HapMiner، مجموعه نشانگرهای مهم پیدا می شود سپس از روی این نشانگرها مدلسازی با استفاده از روش درخت‌های تصمیم گیری و رگرسیون ( CART ) انجام می شود. برای نشان دادن کاربرد عملی تحقیق این روش روی داده‌های بیماری دیابت نوع اول اعمال شد. با اعمال مدلسازی بر مجموعه نشانگرهای مهم در هاپلوتیپ های افراد جمعیت نسبت به مدلسازی برروی تمام نشانگرها افزایش دقت مدلسازی و پیشگویی حاصل شد. روش های مکان یابی ژنی بر اساس تحلیل خوشه بندی هاپلوتیپ به طور گسترده ای برای مکان یابی جهش در توالی ژن استفاده شده اند. در خیلی از موارد، مکان پیدا شده بر اساس این روش ها خطای بزرگی دارند. در این تحقیق، یک تکنیک جدید برای کاهش خطای مکان یابی ژنی رابطه ای در تحلیل خوشه بندی هاپلوتیپ ارائه شده است. در این روش بهره اطلاعات برای انتخاب مجموعه ویژگی های مهم(نشانگرها) برای استفاده در گام بعدی که فرایند خوشه بندی است، استفاده می شود. به عبارت دیگر، به هر نشانگر یک رتبه اختصاص داده می شود و سپس نشانگرهای با رتبه بالا به الگوریتم HapMiner برای مکان یابی بیماری به عنوان ورودی داده می شود. بازدهی این تکنیک روی داده شبیه سازی شده بررسی شده است. آزمایشات عملی انجام شده در این تحقیق کاهش محسوس در خطای میانگین در مکان یابی ژنی را نشان می دهد.

ارتقاء امنیت وب با وف بومی