Skip to main content
SUPERVISOR
چنگیز اصلاحچی (استاد مشاور) سید رسول موسوی (استاد راهنما)
 
STUDENT
Ali Mohammad Ali Maddi
علی محمدعلی مدی

FACULTY - DEPARTMENT

دانشکده مهندسی برق و کامپیوتر
DEGREE
Master of Science (MSc)
YEAR
1391

TITLE

Proposing a new protein complexes detection method in PPI networks based on eliminating noise of network via effect of removing hubs
Biologically, protein complexes are the key molecular entities to perform many essential biological functions, such as transcription and replication of DNA, catalyzing biological reactions, signal transduction, cell cycle and so on. Understanding principles of cellular organization and function can be enhanced if we detect known and predict undiscovered protein complexes within the cells. While there are a number of ways to detect protein complexes experimentally, but there are several limitations to this methods. The remarkable thing is that thousands of different proteins exist, which have the ability to interact with other proteins. Thus, the major problem is to identify the groups of millions of protein that is proposed. Due to these limitations, alternative computational approaches for detecting the complexes are thus useful complements to the experimental methods for detecting protein complexes. Over the last decade, high-throughput experimental techniques have allowed us to collect a large amount of protein-protein interaction (PPI) data for many species. A popular ion for representing this data is the PPI network, which makes it possible to predict protein complexes from the network. Such predictions may be used as an inexpensive tool to direct biological experiments. This networks can be represented as undirected graphs, in which nodes represent proteins and edges represent interactions between pairs of proteins. This networks allow us to tackle the problem of complex prediction with the aid of clustering techniques. But because of too much noise which include waste edges and incomplete data in such graphs, available graph clustering algorithms have not achieved to appropriate results. Also unfortunately, many of clustering algorithms have several limitations that are not suitable for using of PPI networks. Such as, some of them are designed only for unweighted graphs and some of them assign proteins to the only one group. While PPI networks are modeled in a weighted graph and many evidences have demonstrated that many proteins belong to more than one main group and protein complexes overlap with each other. In this research we propose a novel four-part method based on removing hubs to reduce and considerable amount of noise in the network. This new algorithm utilizes both given edge weights and can find overlapping clusters. So by using of our proposed method complexes can be more accurately distinguished on different data sets than ClusterONE algorithm. Keywords : Complex detection, PPI networks, Hubs removal, Graph clustering
از نقطه نظر زیست شناسی ، کامپلکس ها به عنوان واحدهای اصلی فرآیندهای زیستی از اهمیت خاصی برخوردار هستند. این گروه های پروتئینی در فرآیندهایی همچون رو نویسی و تکثیر DNA ، تسریع واکنش های زیستی ، هدایت سیگنال ها ، چرخه حیات سلولی و سایر فرآیند های زیستی نقش اساسی دارند. کشف گروه های پروتئینی موجود در کنار پیش بینی و تشخیص گروه هایی که هنوز شناخته نشده اند سبب می شود درک بهتر و کامل تری از اصول ساختاری و رفتاری سلول ها حاصل شود. اگرچه روش های آزمایشگاهی مختلفی برای شناسایی این گروه ها معرفی شده است ، اما محدودیت های مختلف و خاصی نیز در این بین موجود است. نکته قابل توجه در این باب وجود هزاران پروتئین گوناگون می باشد که هر کدام توانایی تعامل با پروتئین های دیگر را دارند. به این ترتیب مشکل بزرگ پیش رو، تشخیص گروه های پروتئینی اصلی از میان میلیون ها گروه پیشنهادی می باشد. به این ترتیب روش های جایگزین محاسباتی را می توان مکمل های مفید و سودمندی برای روش های آزمایشگاهی دانست. طی دهه گذشته مقدار بسیار زیادی از داده های مربوط به تعامل های پروتئین-پروتئین مربوط به گونه های مختلفی از موجودات ، توسط تکنیک های آزمایشگاهی قدرتمندی جمع آوری شده اند. این داده ها که معمولا به صورت شبکه های تعاملی پروتئین-پروتئین نمایش داده می شوند ، این امکان را میسر می سازند تا بتوان کامپلکس ها را از دل آن ها کشف نمود. رویکردی که در مقابل روش های آزمایشگاهی ، می تواند هزینه بسیار کمتری داشته باشد. به این دلیل که این شبکه ها را می توان به صورت گرافی مدل کرد که پروتئین ها راس های آن و هر یال نماینده ای برای تعامل میان یک جفت پروتئین باشد، این توانایی وجود دارد تا مسئله اصلی به مسئله خوشه بندی گراف ها در علوم کامپیوتر تقلیل پیدا کند. اما وجود نویز بسیار در چنین گراف هایی که شامل وجود یال های زاید و ناقص بودن داده های اولیه برای تشکیل این گراف ها می شود ، سبب شده است روش های موجود نتوانند به دقت های مطلوب و مناسبی برسند. علاوه براین متاسفانه این روش ها محدودیت های بسیار زیادی دارند که برای استفاده در شبکه های تعاملی پروتئین-پروتئین مناسب نیستند. به عنوان مثال ، بعضی از آن ها تنها برای گراف های بدون وزن طراحی شده اند و برخی دیگر هر پروتئین را تنها به یک گروه اختصاص می دهند ؛ درحالی که شبکه های تعاملی پروتئین-پروتئین به صورت گراف های وزندار مدل می شوند و ثابت شده است که بسیاری از پروتئین ها به بیشتر از یک گروه متعلق هستند. در این تحقیق ما با معرفی یک روش جدید چهار بخشی مبتنی بر حذف هاب ها توانستیم مقدار قابل توجهی از نویز موجود در شبکه را کاهش دهیم و علاوه بر در نظر گرفتن ویژگی هم پوشانی گروه ها ، قابلیت پردازش گراف های وزن دار را نیز به صورت توام در نظر گرفته ایم. در نتیجه در روش پیشنهادی توانسته ایم کامپلکس ها را با دقت بیشتری نسبت به الگوریتم ClusterONE روی مجموعه داده های مختلف تشخیص دهیم. واژگان کلیدی: تشخیص کامپلکس ها، شبکه های تعاملی پروتئین پروتئینی، حذف هاب ، خوشه بندی گراف

ارتقاء امنیت وب با وف بومی