Skip to main content
SUPERVISOR
حسن کربکندی (استاد مشاور) محمدحسین سرایی (استاد راهنما)
 
STUDENT
NarjesKhatoon Habibi
نرجس خاتون حبیبی

FACULTY - DEPARTMENT

دانشکده مهندسی برق و کامپیوتر
DEGREE
Master of Science (MSc)
YEAR
1385

TITLE

Protein Contact Map Prediction Using Committee Machine Approach
Bioinformatics is a multi-disciplinary field that applies principles from Mathematics, Physics, Chemistry and Computer Science to widespread, numerous and complex biological data. The aim of bioinformatics is to solve biological problems in molecular level. Proteins are the basic functional units of living organism’s cells which carry out almost all the activities of life. Each protein molecule comprises of an amino acid chain. Four structures are defined for protein, namely primary, secondary, tertiary (3-D) and quaternary. Primary structure is the amino acid chain. Secondary structures are local structures which are generated by hydrogen bonds. The most common types of the secondary structures are alpha helices and beta sheets. Tertiary structure is the final shape of a protein molecule which is formed by folding amino acid chain. In fact, it is the spatial status of the secondary structures in relation to eachother. The quaternary structure is formed by collection of several proteins. Protein function is dependent on its tertiary structure. The determination of the 3-D structure of proteins, is an important step toward understanding the behavior of them. Tertiary structure itself is dependent on amino acid chain. The determination of tertiary structure is not as straightforward process as the primary one. Existing experimental processes to determine tertiary structure are costly and time-consuming which encourage researchers to find methods to predict protein tertiary structure only based on its amino acid chain. Contact map prediction is one of such method. Protein contact map is a simplified, 2-D representation of protein spatial structure. The purpose of contact map prediction problem is to compute an estimate of contact map of a protein based on its primary structure and features that are computable or predictable from primary structure. Over the years, a variety of statistical and machine learning methods have been developed to predict contact map. Committee machine is a machine learning method which divides the learning task among a number of learners and input spaces into some sub-spaces. Learner’s responses to an input, are combined to produce the system’s final response that is more accurate than of every individual’s response. The aim of this research is to propose a novel method for contact map prediction based on committee machine. In the proposed method, learner group is a set of neural networks. Different features are extracted and then in two phases, the learner group is generated as predictive model. The important principle in evaluating contact map prediction is the ratio of correct predicted contacts to all predicted ones. To analyze the results of the proposed model, two o Key Words: Bioinformatics, Machine Learning, Committee Machine, Neural Network, Protein Contact Map, Contact Map Prediction
بیوانفورماتیک علمی است بین‌رشته‌ای که قواعد ریاضی، فیزیک، شیمی و علوم کامپیوتر را به داده‌های وسیع، متنوع و پیچیده زیست‌شناسی، اعمال می‌کند. هدف بیوانفورماتیک، حل مسائل زیست‌شناسی در سطح مولکولی است. پروتئین‌ها از اجزای اصلی سلول‌های موجودات زنده هستند. هر مولکول پروتئین، از زنجیره‌ای از اسیدهای آمینه تشکیل می‌شود. برای پروتئین چهار ساختار (اول، دوم، سوم، چهارم) تعریف شده است. ساختار اول، همان زنجیره اسیدهای آمینه آن است. ساختارهای دوم، ساختارهای محلی هستند که توسط برقراری پیوندهای ئیدروژنی به‌وجود می‌آیند. رایج‌ترین آن‌ها، مارپیچ‌‌های آلفا و صفحه‌های بتا هستند. ساختار سوم، شکل کلی یک مولکول پروتئین و در واقع، موقعیت فضائی ساختارهای دوم نسبت به یکدیگر است که در اثر تاشدن زنجیره اسید آمینه شکل می‌گیرد. ساختار چهارم از تجمع چندین پروتئین ایجاد می‌گردد. محققان، پیوسته پروتئین‌های جدیدی کشف و توالی اسیدهای آمینه آن‌ها را تعیین می‌کنند. عمل پروتئین، وابسته به شکل ساختار سوم آن است. مولکول‌هائی که یک پروتئین می‌تواند به آن‌ها متصل شود، بستگی به شکل سه‌بعدی پروتئین دارند. ساختار سوم خود، وابسته به توالی اسید آمینه است. متاسفانه، تعیین ساختار سوم، به سادگی تعیین ساختار اول پروتئین نیست. روش‌های فعلی تعیین ساختار سوم، بسیار پر هزینه و زمان‌بر هستند. در نتیجه محققان بر روی روش‌هائی کار می‌کنند که بتوانند ساختار سوم پروتئین را صرفا بر اساس توالی اسید آمینه آن پیش بینی نمایند. پیش‌بینی نقشه تماس، یکی از این روش‌هاست. با داشتن نقشه تماس، می‌توان ساختار سوم را پیش‌بینی نمود. نقشه تماس پروتئین، یک نمایش ساده شده و دوبعدی از ساختار فضائی پروتئین است. هدف در مساله پیش‌بینی نقشه تماس، محاسبه تقریبی نقشه تماس یک پروتئین با استفاده از توالی اسید آمینه آن و ویژگی‌هائی است که صرفا از روی توالی قابل محاسبه و یا پیش‌بینی هستند. رویکردهای آماری و یادگیری ماشین متعددی برای پیش‌بینی نقشه تماس ارائه شده است. ماشین گروهی، یک روش یادگیری ماشین است که در آن وظیفه یادگیری میان چند یادگیر و فضای ورودی به چند زیرفضا تقسیم می‌شود. پاسخ‌ یادگیرها به یک ورودی، به نحوی با یکدیگر ترکیب شده و پاسخ نهائی سیستم را تشکیل می‌دهند. این پاسخ، دقیق‌تر از پاسخ هر یک از یادگیرهاست. هدف این تحقیق، ارائه یک روش نوین پیش‌بینی نقشه تماس بر اساس ایده ماشین گروهی است. گروه یادگیر در روش پیشنهادی، مجموعه‌ای از شبکه‌های عصبی است. ویژگی‌هائی متعددی برای آموزش سیستم استخراج می‌شوند. سپس یک گروه از شبکه‌های عصبی به عنوان مدل پیش‌بینی کننده ایجاد می‌گردد. معیار مهم در ارزیابی پیش‌بینی نقشه تماس، نسبت تماس‌های درست پیش‌بینی شده به تعداد کل تماس‌های پیش‌بینی شده است. برای تحلیل نتایج مدل پیشنهادی، دو روش دیگر نیز پیاده‌سازی و نتایج آن‌ها مقایسه شده است. نتایج، نشان‌دهنده کارائی روش ماشین گروهی در مسئله پیش‌بینی نقشه تماس است. واژه‌های کلیدی: 1- بیوانفورماتیک 2- یادگیری ماشین 3- ماشین گروهی 4- شبکه عصبی 5- نقشه تماس پروتئین 6- پیش‌بینی نقشه تماس

ارتقاء امنیت وب با وف بومی