SUPERVISOR
جعفر قیصری (استاد راهنما) یوسف قیصری (استاد مشاور)
STUDENT
Nasim Hassanpour
نسیم حسن پور
FACULTY - DEPARTMENT
دانشکده مهندسی برق و کامپیوتر
DEGREE
Master of Science (MSc)
YEAR
1394
TITLE
Determination of distinguishing features to identify drug-targets in protein-protein interaction network
The living cell is a self-instructed biochemical entity, which responds to its enviroment in several complex ways that provide its own survival and breeding. In the last two decades, researchers have aimed at identification of the components of the cell and the way they intract with each other. Nowadays, the main purpose of cell studies are achiving the ability to predict and interfere with cell decisions. The science of systems biology is the knowledge which mentions systematic study of cells, especially cellular processes such as molecular interactions and intercellular comunications. Mathemathics and engeneering knowledge, methodes, and tools have enabled systems biology to model and analyze its components in new ways. For example, biological networks are modeled based on Graph theory. In this thesis, the goal is to find dinstinctive features among appropriate nodes as drug targets and other nodes of protein -protein interaction network to design new drugs. Accordingly, at first we studied some biological networks modeled and their features which have been used to identify important components of biolofical networks with their problems and limitations. Then the human protein protein interaction network is modeled as a graph which is so complex. Thousonds of genes are modeled as graph nodes and the interactions between them are modeled as graph edges. Analysing this network is difficult and the drug targets detection in it is highly important, because it can be focused on drug targets and it may change the behavior of the cell by influencing the medicine on them. Therefore, some features have been introduced to identify the significant parts of the biological networks. Because network is modeled in the form of graph, this properties identify drug targets in it by using methods based on graph theory. Subsequently, it is observed that these features do not provide accurate results for identifing important parts of the network for effecting drugs. After that, the controlability based method for drug targets identification has been implemented on the protein protei interaction network and the result showing ltr" align=justify Key words : topological features, biological network, controlability, motif, machine learning.
سلول موجودی خودآموخته است و درون خود مکانیزمهای متعددی برای کنترل و تنظیم فعالیتهایش دارد. تا دو دههی گذشته هدف پژوهشگران شناخت اجزای سازندهی سلول و چگونگی ارتباط آنها با یکدیگر بوده است. اما امروزه هدف اصلی از مطالعهی سلولها، توانایی پیشبینی و دخالت در تصمیمگیریهای سلول است. دانشی که مطالعهی سیستماتیک در زمینهی سلولها بویژه فرآیندهای سلولی مانند برهمکنشهای مولکولی و ارتباطات بین سلولی را مورد بررسی قرار میدهد علم زیست شناسی سیستمها نام دارد. پیشرفت دانش مهندسی سبب شده که این علم با ابزارهای خود بتواند سیستمهای زیستی را مدلسازی و در نهایت آنالیز کند. شبکههای زیستی به روشهای متعددی مدلسازی میشوند و تعدادی از مدلها بر پایهی نظریهی گراف ایجاد میگردند. در این پایان نامه، هدف یافتن ویژگیهای متمایز کننده بین گرههای مناسب به عنوان هدف دارو و سایر گرههای شبکههای برهمکنش پروتئینی برای طراحی داروهای جدید است. به همین منظور ابتدا به مطالعهی شبکههای زیستی مدلسازی شده و بررسی ویژگیهایی که تاکنون برای تشخیص اجزاء مهم شبکههای زیستی مورد استفاده قرار گرفتهاند و مشکلات و محدودیتهای آنها پرداخته شده است. سپس شبکهی برهمکنش پروتئینی انسان به شکل گراف مدلسازی شده است. پس از مدلسازی شبکهی زیستی در قالب گراف مجموعهی بسیار گستردهای حاصل میشود، هزاران ژن گرههای گراف را تشکیل میدهند و برهمکنش بین ژنها یالهای گراف هستند. آنالیز چنین شبکهای بسیار دشوار است و تشخیص اهداف دارویی (گرههای مهم و حساس نسبت به دارو در شبکههای زیستی) در این شبکه از اهمیت بالایی برخوردار است. زیرا میتوان پس از تشخیص اهداف دارویی شبکه روی آنها متمرکز شد و در صورت امکان، با تأثیر دارو بر آن بخشها رفتار سلول را تغییر داد. بنابراین ویژگیهایی جهت تشخیص بخشهای مهم موجود در شبکههای زیستی معرفی شدهاند و چون شبکهها به شکل گراف مدل میشوند این ویژگیها با استفاده از تئوری گراف اهداف دارویی را در شبکه شناسایی میکنند. پس از آن مشاهده میشود ویژگیهایی که برای تشخیص اجزاء مهم شبکهها معرفی شدهاند دارای محدودیتهایی هستند و در شناسایی بخشهای مهم شبکهها برای اثر دادن دارو بر آنها نتایج کامل و دقیقی ارائه نمیدهند. سپس الگوریتم کنترلپذیری شبکههای زیستی بر روی شبکه برهمکنش پروتئینی سلول انسانی پیادهسازی شده و نتایج حاصل که گویای رتبهبندی میزان اهمیت پروتئینها از دیدگاه اهداف دارویی هستند ارائه شدهاند. مجددا مشاهده میشود که این نظریه با دقت قابل قبولی قادر به جداسازی اهداف دارویی از سایر نودها نیست. پس از آن موتیفهای موجود در شبکه برهمکنش پروتئینی انسان شناسایی و جداسازی شدهاند. همچنین نسبت حضور و نرخ تکرار اهداف دارویی در آنها محاسبه شده و با نسبت حضور و نرخ تکرار اهداف دارویی در شبکهی کلی مورد مقایسه قرار گرفتهاند. علاوه بر این تمامی موتیفهای شناسایی شده در شبکه از نظر تعداد، نوع و مکان قرارگیری اهداف دارویی بررسی شدهاند. مشاهده میشود که احتمال حضور اهداف دارویی در موتیفها بسیار بیشتر از احتمال حضور آنها در کل شبکهی برهمکنش پروتئینی انسان است. سپس در جهت یافتن تابعی برای شناسایی و تشخیص اهداف دارویی با دقت بیشتری پیش میرویم و در این راستا ویژگیهای توپولوژی و برخی ویژگیهای مربوط به موتیفها که از مطالعات در این رساله استخراج شده مورد استفاده قرار گرفتهاند. در نهایت یک راهکار مناسب مبتنی بر ساخت تابع بر اساس ویژگیها جهت تشخیص بخشهای مهم و ضروری در شبکههای زیستی ارائه شده تا بتوان آن بخشها را شناسایی کرد و سپس تحت تأثیر دارو قرار داد و عملکرد سلول را تغییر داد. سپس، صحت و دقت عملکرد آن راهکار با تستها و نمودارهای آماری بررسی میگردد. پس از آن به مطالعه بر الگوریتمهای یادگیری ماشین پرداخته شده و برای شناسایی اهداف دارویی مورد استفاده قرار گرفتهاند. با آزمایش بر ماشینهای مختلف، ماشینی که بهینهترین عملکرد را در شناسایی اهداف دارویی دارد پیشنهاد شده است. علاوه بر این، ویژگیهای بیشتری از شبکه استخراج شده و برای آموزش و شناسایی در اختیار ماشین قرار گرفتهاند. مشاهده میشود استفاده از ماشین روش مناسبی برای جداسازی اهداف دارویی است و افزایش ویژگیها سبب بهبود عملکرد ماشین میشود. واژههای کلیدی : شبکهی زیستی، ویژگیهای توپولوژی، شبکههای برهمکنش پروتئینی، معیارهای مرکزیت، کنترلپذیری، موتیف، یادگیری ماشین.