Skip to main content
SUPERVISOR
Zeinab Maleki,Naser Ghadiri modaress
زینب مالکی (استاد مشاور) ناصر قدیری مدرس (استاد راهنما)
 
STUDENT
Erfan Farhangi Maleki
عرفان فرهنگی ملکی

FACULTY - DEPARTMENT

دانشکده مهندسی برق و کامپیوتر
DEGREE
Master of Science (MSc)
YEAR
1394
In today's world, we are faced with systems whose components and relationships between these components are of different types. These systems have recently modeled as heterogeneous networks. Heterogeneous networks are those consisting of various nodes and edges. These types of networks are a kind of complex networks and compared to homogeneous networks, they contain richer structural and semantic information. As a result, acquiring knowledge and exploring these types of networks requires special algorithms with different capabilities of the algorithms designed for the heterogeneous networks. On the other hand, heterogeneous networks are usually composed of many vertices and edges, and their rate of growth is much higher than homogeneous networks. Regarding the nature of these types of networks, knowledge extraction from this type of networks and relations discovery are so complicated. Thus, fast and accurate methods are required. Complex networks have many examples in the real world and are widely used today for modeling complicated processes. Biological networks are one kind of the complex networks. The purpose of this research is to provide fast and scalable methods for gaining knowledge from heterogeneous complex networks. Since in the heterogeneous networks, it is very important to consider the local and global features of the network together, we have chosen the label propagation algorithm which is a semi-supervised learning algorithm and in addition to introducing label propagation algorithms, we try to improve the speed and scalability of them in accordance with the needs of heterogeneous complex networks by providing a distributed platform for it, and finally we measure the accuracy of the proposed algorithms. In the current thesis, two distributed label propagation algorithms, namely DHLP-1 and DHLP-2, in the heterogeneous networks have been introduced. First, the heterogeneous network consisting of three concepts of drug, disease, and target has been formed and then, new drug-target, disease-target, and drug-disease associations have been predicted by label propagation. Vertex centric programming and Apache Giraph platform have been employed to make the introduced algorithms distributed. The experiments revealed that the runtime of the algorithms has decreased in the distributed version rather than non-distributed one. The effectiveness of our algorithm against other algorithms has been shown through 10-Fold Cross-Validation as well as other experiments. Keywords Vertex Centric, Label Propagation, Complex Networks, Heterogeneous Networks, Semi-Supervised Learning, Drug Repositioning
در دنیای کنونی معمولاً با سیستم­هایی مواجه می­باشیم که اجزای تشکیل­دهنده­ی آنها و ارتباطات بین این اجزاء دارای انواع مختلف و متعددی می­باشند. این نوع سیستم­ها به صورت شبکه­ی نامتجانس مدل­سازی می­شوند. شبکه­های نامتجانس، شبکه­هایی هستند که از یال­ها و رأس­های با انواع مختلف تشکیل شده­اند. این نوع شبکه­ها گونه­ای از شبکه­های پیچیده می­باشند و در مقایسه با شبکه‌های متجانس حاوی اطلاعات ساختاری و معنایی غنی‌تری می­باشند، در نتیجه کسب دانش و کاوش در این نوع شبکه‌ها، نیازمند الگوریتم­های خاص با قابلیت­هایی متفاوت با الگوریتم­های مربوط به شبکه­های متجانس می­باشد. از سوی دیگر شبکه­های نامتجانس معمولاً از رئوس و یال­های زیادی تشکیل شده­اند و سرعت رشد آنها در مقایسه با شبکه­های متجانس بسیار زیاد است. با توجه به ماهیت این نوع شبکه­ها، استخراج دانش از این نوع شبکه­ها و کشف رابطه­ها بسیار پیچیده می­باشد بنابراین نیاز به روش­های سریع و دقیق برای این منظور احساس می­شود. شبکه­های پیچیده نمونه­های زیادی در دنیای واقعی دارند و امروزه به طور گسترده برای مدل­سازی فرایندهای پیچیده استفاده می­شوند. یکی از انواع شبکه­های پیچیده، شبکه­های زیستی می­باشد. هدف از این پژوهش، ارائه‌ی روش­هایی سریع و مقیاس­پذیر برای کسب دانش از شبکه‌های پیچیده‌ی نامتجانس می‌باشد. از آنجا که در شبکه­های نامتجانس لحاظ کردن ویژگی­های محلی و سراسری شبکه در کنار هم بسیار حائز اهمیت است، روش یادگیری نیمه نظارتی «انتشار برچسب» را انتخاب کرده و می­کوشیم تا علاوه بر ارائه­ی یک روش انتشار برچسب، متناسب با نیازهای شبکه­های پیچیده­ی نامتجانس، با فراهم آوردن یک بستر توزیع­شده برای آن، سرعت و مقیاس­پذیری را در این الگوریتم ارتقاء بخشیم و میزان دقت را نیز مورد ارزیابی قرار دهیم. در این پایان­نامه دو روش توزیع­شده­ی انتشار برچسب در شبکه­های نامتجانس به نام های DHLP-1 و DHLP-2 معرفی شده است. ابتدا شبکه­ی نامتجانس متشکل از سه مفهوم دارو، بیماری و هدف تشکیل یافته است و سپس توسط انتشار برچسب روابط دارو-هدف، دارو-بیماری و بیماری-هدف جدید پیش­بینی شده­اند. جهت توزیع­شدگی روش­های معرفی­شده، از برنامه­نویسی رأس­محور و بستر Apache Giraph استفاده شده است. آزمایش­های انجام شده نشان می‌دهند که زمان اجرای روش­ها در حالت توزیع­شده نسبت به غیر توزیع­شده به شدت کاهش یافته است و همچنین توسط تحلیل­های آماری 10-Fold Cross Validation و آزمایش­های عملی دیگر، کارایی الگوریتم نسبت به روش­های مشابه نشان داده شده است. کلمات کلیدی: 1- برنامه­نویسی رأس­محور 2- انتشار برچسب 3-شبکه­های پیچیده 4- شبکه­های نامتجانس 5- یادگیری نیمه نظارتی 6- جایگزینی دارو

ارتقاء امنیت وب با وف بومی