SUPERVISOR
جعفر قیصری (استاد راهنما) مرضیه کمالی (استاد راهنما) یوسف قیصری (استاد مشاور)
STUDENT
Niloofar Borhani
نیلوفر برهانی
FACULTY - DEPARTMENT
دانشکده مهندسی برق و کامپیوتر
DEGREE
Master of Science (MSc)
YEAR
1396
TITLE
Data integration for prediction of inter-omics layers interactions in multi-layer networks using matrix factorization
New technologies and methodologies in biological systems make the measurement of more characteristics of cellular components such as genes , proteins , transcripts and metabolites possible . These components have essential interactions among each other. A comprehensive evaluation of functions and communications of each cellular component in systems biology is called omics, the most important of which are layers of genomics , proteomics , transcriptomics and metabolomics . These omics layers are related to each other by fundamental interactions. So far, due to the extent and complexity of biological systems , the investigations have been focused on one of the layers while the interactions between those layers have not been taken into account. Results of studying one omics layer describe a limited part of a biological system , however, many diseases originate as a result of interactions in broad and complex molecular network . Therefore, the interactions of omics and effects of omics layers on each other should also be considered in biological systems investigations. The integration of omics data would lead to a better understanding of functions of cellular components , cause of disease and identification of drug targets . In this thesis, omics data has been integrated and a computational method has been developed for predicting interactions between omics layers in multi-layer interaction networks. With the development of various forms of matrix factorization methods and the emergence of deep learning , the integration of information and data of the omics layers as well as the creation a multi-layer network of omics interactions has been made possible . In this thesis , miRNAs and proteomics data in Diabetic nephropathy collected from real experiments has been used . In order to predict the interactions between proteins and miRNAs , a generalized non-negative matrix tri-factorization method has been proposed . The proposed model has employed methods on the interaction matrix of these layers . This model is not only reduces large size and complexity of data , but also reveals latent components of data . Then , protein interactions and gene ontology data has been integrated to analyze effects of data integration. Because of the dynamic nature of biological phenomena and the probabilistic characteristics of experimental measurements , integration of data limits model performance. Then, deep matrix factorization method has been used which improved model performance. In this method , two deep neural networks for proteomics and miRNAs are used to find the best representation vectors for proteins and miRNAs . Also , employing a decoder has improved model performance . By modifying inputs or adding neural networks , a generalization of deep matrix factorization method has been proposed to integrate more information in the model as well as making the modeling of more than two heterogeneous object types possible . The problem of over fitting in deep neural networks has been solved by techniques such as dropout , regularization , and early stopping . It also has been suggested to use the singular value decomposition technique to determine the dimensions of the representation vectors . To evaluate the performance of the methods , two sets of colon cancer data and Gene ontology of the genes have been modeled . In this thesis, a novel method of modeling multi-layer interaction network has been proposed to investigate omics layers together, which will help to predict more appropriate drug targets in the future. Link prediction , Matrix factorization , Deep matrix factorization , Multi-layer interaction network , Omics integration , Data integration
امروزه با پیشرفت تکنولوژی در علوم زیستی، امکان سنجش مشخصههای بیشتری از اجزاء سلول نظیر ژنها، پروتئینها، ترنسکریپتها، متابولیتها و غیره فراهم شده است. میان هر کدام از انواع اجزاء تعاملات و ارتباطاتی برقرار است. ارزیابی جامع عملکرد و ارتباطات هر کدام از اجزاء سلول در بیولوژی سیستمی، امیکس نامیده میشود. لایههای ژنومیکس، پروتئومیکس، ترنسکریپتومیکس، متابولومیکس و غیره از یکدیگر مجزا نیستند و تعاملات و برهمکنشهایی اساسی بین این لایهها وجود دارد، اما به دلیل گستردگی و پیچیدگی سیستمهای بیولوژیک، تاکنون مطالعات تنها بر روی یک لایهی امیکس و بدون در نظر گرفتن اثرات دیگر لایهها صورت گرفته است و یافتههای بهدست آمده، تنها بخش محدودی از یک سیستم بیولوژیک را توصیف کرده است، در صورتی که منشا ء تعاملات و برهمکنشهای یک شبکه مولکولی گسترده و پیچیده است. بنابراین ادغام دادههای امیکس و بررسی ارتباطات و تا?ثیر متقابل لایهها بر یکدیگر و ترسیم شبکه چند لایه، منجر به درک عمیق و گستردهتر از عملکرد اجزاء سلولها، شناخت بهتر و کاملتر بیماریها و شناسایی اهداف دارویی خواهد شد. در این پایاننامه، هدف ادغام دادههای امیکس و ایجاد روشهای محاسباتی برای پیشبینی ارتباطات میان سطوح امیکس در شبکه چندلایه میانکنشی با استفاده از روشهای تجزیه ماتریسی و یادگیری عمیق است. برای پیشبینی ارتباطات در این شبکه، استفاده از روشهای متداول مدلسازی در بیولوژی سیستمی امکانپذیر نیست زیرا یافتهها و دادههای امیکس از تعداد انبوهی اجزاء ناهمگن تشکیل شده و اطلاعات اندکی از ارتباطات بین سطوح وجود دارد. با توسعهی فرمهای مختلف روشهای تجزیه ماتریسی و ظهور یادگیری عمیق، این امکان فراهم گردیده تا بتوان اطلاعات و دادههای لایههای امیکس را با یکدیگر ادغام نمود و شبکهای چند لایه از میانکنشهای امیکسها ایجاد کرد. در این راستا، از دادههای سطوح پروتئوم و miRNA در بیماری دیابتیک نفروپاتی استفاده شده که از آزمایشهای واقعی جمعآوری شده است. به منظور پیشبینی تعاملات بین پروتئینها و miRNA ها، استفاده از روش تجزیه سهتایی ماتریسی نامنفی تعمیم یافته پیشنهاد شده است. با اعمال روشهای تجزیه ماتریسی بر روی ماتریس ارتباطات این سطوح، میتوان مدلی بهدست آورد که ضمن کاهش ابعاد زیاد و پیچیدگی دادههای اولیه، مو?لفههای پنهان آنها را آشکار کند. پس از آن برای بررسی اثر ادغام دادهها، اطلاعات شبکه برهمکنش پروتئینی و انتولوژی ژنها نیز اضافه شده است. گرچه گاهی ادغام دادهها در مدلسازی باعث بهبود عملکرد نشده، اما مدلی که از اطلاعات بیشتری بهره میبرد، قابل اعتمادتر خواهد بود، زیرا با توجه به ذات دینامیکی پدیدههای زیستی و همچنین برمبنای احتمالی بودن نتایج اندازهگیریها در آزمایشها، ممکن است بخشی از اطلاعات مجموعه دادههای مختلف با یکدیگر متفاوت باشند. در ادامه، در راستای بهبود عملکرد مدلسازی، استفاده از روش تجزیه ماتریسی عمیق پیشنهاد شده است. در این روش، برای یافتن مناسبترین بردارهای بازنمایی نظیر هر یک از اجزاء، از دو شبکه عصبی عمیق نظیر سطوح پروتئوم و miRNA بهره گرفته شده است. همچنین اضافه کردن کدبردار، باعث بهبود عملکرد مدل شده است. به علاوه با تغییر ورودی و یا اضافه شدن شبکههای عصبی، روش تجزیه ماتریسی عمیق برای ادغام سایر اطلاعات و نیز مدلسازی بیش از دو نوع شیء ناهمگن، تعمیم داده شده است. مشکل بیشبرازش شبکههای عصبی عمیق، به کمک تکنیکهایی نظیر حذف تصادفی، منظمسازی L2 و توقف زود هنگام رفع شده است. همچنین جهت تعیین ابعاد بردار بازنمایی، بهرهگیری از تکنیک تجزیه به مقادیر تکین پیشنهاد شده است. برای بررسی عملکرد روشها، دو دسته دادهی سرطان کولون و تعیین اصطلاح انتولوژی ژنها نیز مدلسازی شدهاند. در این پایاننامه ، روشی جدید برای مدلسازی شبکه چند لایه میانکنشی با هدف تحلیل لایههای امیکس در کنار یکدیگر پیشنهاد شد که میتواند در آینده برای پیشبینی اهداف دارویی مناسبتر کمککننده باشد. پیشبینی یال، تجزیه ماتریسی، تجزیه ماتریسی عمیق، شبکه چند لایه میانکنشی، ادغام امیکسها، ادغام داده