Skip to main content
SUPERVISOR
Mohammad hossein Saraee,Mansor Salehi
محمدحسین سرایی (استاد راهنما) منصور صالحی (استاد مشاور)
 
STUDENT
Azadeh Mohammadi
ازاده محمدی

FACULTY - DEPARTMENT

دانشکده مهندسی برق و کامپیوتر
DEGREE
Master of Science (MSc)
YEAR
1385
Genetic information has recently attracted a significant attention in the diagnosis and In this thesis, by investigating different approaches of gene selection, a novel framework for gene selection is proposed, which uses the advantageous features of conventional methods and covers their weak points. In addition to gene expression values, the proposed method uses gene ontology, which is a reliable source of information on genes. Use of gene ontology beside gene expression data, can compensate in part for the limitations of microarrays; including having a small number of samples and erroneous measurement results. In the proposed framework, at first a significant number of irrelevant genes are omitted using the filtering method (fisher). Since filtering methods do not take into account the correlation among genes, the remaining genes will still have a large amount of redundancy. In order to reduce redundancy in remaining genes a greedy approach has been proposed for removing similar genes. This approach calculates the similarity between genes considering the gene ontology information as well as gene expression data using a hybrid criterion and then removes redundant genes according to this criterion. Finally genes that remain after this stage are processed more accurately by the SVMRFE method to derive the disease marker genes. The proposed method has been applied on DLBCL and colon cancer datasets. It is observed that the proposed method improves the performance of Microarray data sets often contain missing value due to different reasons including scratches or dust on the slide, error in experiments, image corruption and insufficient resolution. In this thesis a novel method is proposed which integrates CST clustering and gene ontology to estimate missing values at the preprocessing stage. The performance of the proposed method has been studied on the DLBCL data sets with different percentage of missing values. Comparing the results of proposed method with other existing estimating methods shows that the proposed method can estimate missing values with a higher accuracy. Key Words Gene Selection, Gene Ontology, Gene Expression, Microarray, Missing Value
امروزه استفاده از اطلاعات ژنتیکی افراد در تشخیص و رده‌بندی انواع بیماری‌ها از جمله سرطان‌ها، مورد توجه قرار گرفته است. یکی از بهترین و دقیق‌ترین روش‌ها در این زمینه، بررسی مقادیر بیان ژنی در افراد مختلف توسط فناوری ریزآرایه می‌باشد. یکی از مشکلات داده‌های ریزآرایه کم بودن تعداد نمونه‌ها در مقایسه با تعداد ژن‌ها است. این مسئله سبب کاهش دقت رده‌بندی و افزایش هزینه‌های محاسباتی و آزمایشگاهی می‌شود، در عین حال بسیاری از این ژن‌ها در ایجاد بیماری مورد بررسی نقشی ندارند، در نتیجه تشخیص و انتخاب ژن‌های موثر در بروز بیماری علاوه بر آنکه سبب افزایش دقت رده‌بندی وکاهش هزینه‌ها می‌شود، از نظر زیستی نیز از اهمیت ویژه‌ای برخوردار است و می‌تواند اطلاعات مفیدی درباره علل و نحوه درمان بیماری‌ها در اختیار محققین قرار دهد. تشخیص و انتخاب ژن‌های موثر در بروز بیماری، از میان هزاران ژن مورد بررسی در آزمایش ریزآرایه، انتخاب ژن نام دارد. در این پایان‌نامه با بررسی روش‌های مختلف انتخاب ژن، تلاش شده است با بهره‌گیری از مزایای روش‌های موجود، چارچوب جدیدی برای انتخاب ژن‌های موثر در بروز بیماری ارائه شود، به‌نحوی که نقاط ضعف روش‌های متداول پوشش داده شوند. در روش پیشنهادی، علاوه بر داده‌های بیان ژنی از یکی دیگر از منابع معتبر موجود درباره ژن‌ها یعنی آنتولوژی ژن نیز کمک گرفته شده است. استفاده از آنتولوژی ژن در کنار مجموعه داده‌های بیان ژنی تا حدی می‌تواند محدودیت‌های ریزآرایه یعنی کم بودن تعداد نمونه‌ها و خطای احتمالی در مقادیر اندازه‌گیری شده را جبران نماید. در چارچوب ارائه شده ابتدا بخش عمده‌ای از ژن‌های غیرمرتبط با کمک روش فیلتری (فیشر) حذف می‌شوند، اما روش‌های فیلتری همبستگی موجود بین ژن‌ها را مدنظر قرار نمی‌دهند در نتیجه ژن‌های باقیمانده دارای حجم بالایی از افزونگی می‌باشند. به‌منظور کاهش افزونگی در ژن‌های باقیمانده، یک رویکرد حریصانه برای حذف ژن‌های مشابه پیشنهاد شده است. در این رویکرد میزان مشابهت ژن‌ها با در نظر گرفتن اطلاعات آنتولوژی ژن و داده‌های بیان ژنی و بر اساس یک معیار تلفیقی محاسبه می‌شود و سپس بر اساس این معیار، ژن‌های افزونه از مجموعه ژن‌ها حذف می‌شوند. در نهایت ژن‌های باقیمانده از این مرحله، به‌عنوان ژن‌های کاندید به‌طور دقیق‌تر توسط روش SVMRFE مورد بررسی قرار می‌گیرند تا مجموعه ژن‌های نشانگر بیماری بدست آید. روش پیشنهادی بر روی دو مجموعه داده سرطان DLBCL و سرطان کلون اعمال شده است. نتایج بدست آمده نمایانگر تاثیر مثبت روش پیشنهادی بر کارایی رده‌بندی است، به‌علاوه مقایسه این روش با روش‌های انتخاب ژن متداول، نشان می‌دهد که روش ارائه شده به ازای تعداد ژن‌های مساوی، از کارایی بهتری برخوردار است. همچنین از آنجایی که بسیاری از مجموعه داده‌های ریزآرایه به دلایل مختلف از جمله وجود خراش یا گرد و غبار بر روی اسلاید، بروز خطا در حین آزمایش، اختلال در تصویر ریزآرایه و پایین بودن قدرت تفکیکی تصاویر، شامل مقادیر گمشده می‌باشند در این پایان‌نامه با استفاده از تلفیق روش خوشه‌بندی CST و آنتولوژی ژن روش نوینی برای تخمین مقادیر گمشده در مرحله پیش‌پردازش ار واژه‌های کلیدی: 1- انتخاب ژن 2- آنتولوژی ژن 3- بیان ژن 4- ریزآرایه 5- مقدار گمشده

ارتقاء امنیت وب با وف بومی