Skip to main content
SUPERVISOR
Mohammad hossein Saraee,Mohammad Reza Ahmadzadeh
محمدحسین سرایی (استاد راهنما) محمدرضا احمدزاده (استاد راهنما)
 
STUDENT
Elaheh Barati
الاهه براتی

FACULTY - DEPARTMENT

دانشکده مهندسی برق و کامپیوتر
DEGREE
Master of Science (MSc)
YEAR
1387

TITLE

New and Robust Pre-processing Method for Improving Data Mining Techniques
Over the last decades, the ability of producing and collecting data has increased dramatically and the data volume is growing rapidly. These data contain valuable information. These databases have become increasingly large, and thus more difficult to process with the available technologies. The field of Knowledge Discovery in Databases has arisen from the need to obtain useful information from these databases and since its beginning it has generated a large body of research. The central step in Knowledge Discovery in Databases is Data mining which means the process of extracting implicit information which was previously hidden and probably will be valuable. As a matter of fact, Data mining aims at discovering interesting and previously unknown patterns form data sets. The need for mining structured data has increased in the past few years. However, most data mining algorithms are not capable of working on data stored in relational databases directly. Most existing techniques are propositional and they extract patterns just from one table. Indeed, the presence of all the interesting data in a table is necessary. Therefore, it requires a pre processing step for transforming relational data into algorithm specified form. Unfortunately, it causes to lose some valuable information. One of the multi relational data mining methods is Inductive Logic Programming. ILP requires the data to be in the form of logic clauses and it requires extra effort in preprocessing step. The other approaches are Bayesian Networks, Neural Networks, Multi Relational Data Mining on relational databases and Multi Relational Database as a Set of Trees. In this research after reviewing the existing methods, relational database as a set of trees method was selected. By converting multi relational database into trees, it is possible to apply existing tree mining techniques to identify frequent patterns in this kind of databases. The frequent patterns that can be identified in such set of trees can be used as the basis for other multi relational data mining techniques. In this study, we proposed a new structure by combining two existing representations for multi relational databases which were key based tree representation and object based tree representation. We used two different tree mining algorithms to identify patterns from the trees representing multi relational database based on the proposed method. Moreover, by applying some changes in the structure of tree representation, we could use this structure for 0cm 0cm 0pt" Keywords: Multi relational data mining, relational database to trees, tree mining, medical data mining, frequent patterns.
درسال های اخیر، توانایی تولید و جمع آوری داده افزایش چشم گیری داشته و حجم داده با سرعت زیادی رو به افزایش است. داده کاوی یا اکتشاف دانش از پایگاه های داده، به معنای فرآیند استخراج غیربدیهی اطلاعات ضمنی (غیرصریح) است که قبلاً برما پوشیده بوده و احتمالاً مورد استفاده و با ارزش خواهند بود. با وجود این، اغلب الگوریتم های داده کاوی نمی توانند به طور مستقیم روی داده های ذخیره شده در این پایگاه های داده کارکنند. اغلب روش های داده کاوی موجود گزاره ای بوده و الگوها را فقط از یک جدول ساده استخراج می کنند. درواقع، حضور همه داده ها در یک جدول ضروری است. بنابراین، برای استفاده از الگوریتم های داده کاوی یک مرحله پیش پردازش لازم است که متاسفانه منجر به از دست دادن بعضی از اطلاعات باارزش می شود. یکی از روش های کاوش پایگاه داده های رابطه ای برنامه نویسی منطق استقرائی است. در استفاده از برنامه نویسی منطق استقرائی لازم است داده ها به فرم عبارت های منطقی باشند و این امر به پیش پردازش زیادی احتیاج دارد. از روش های دیگر می توان به شبکه های بیزین، شبکه های عصبی، داده کاوی رابطه ای روی پایگاه داده رابطه ای و پایگاه داده رابطه ای به عنوان مجموعه ای از درخت ها اشاره کرد. در این تحقیق با بررسی روش های موجود، روش پایگاه داده رابطه ای به عنوان مجموعه ای از درخت ها انتخاب شد. با تبدیل پایگاه داده رابطه ای به درخت، امکان استفاده از الگوریتم های کاوش درخت برای استخراج الگوهای مختلف فراهم می شود. در این تحقیق با ترکیب دو طرح موجود در روش تبدیل پایگاه داده رابطه ای به درخت که مبتنی بر کلید و شیء بودند، ساختار جدیدی ارائه گردید. با استفاده از درخت های تولید شده در روش پیشنهادی و اعمال دو الگوریتم مختلف کاوش درخت، الگوهای تکراری تولید شده از ساختار مبتنی برکلید بیشتر و از ساختار مبتنی برشیء کمتر بودند. به علاوه، با اعمال تغییراتی در ساختار نمایش درخت توانستیم از این ساختار برای دسته بندی استفاده کنیم. در این تحقیق روش پیشنهادی روی یک مجموعه داده پزشکی به عنوان مطالعه موردی اعمال شد. یکی از چالش های استفاده از داده کاوی روی داده های پزشکی مسئله مقادیرگمشده است. بنابراین در این تحقیق پس از اعمال روش های مختلف مقابله با مقادیرگمشده، بهترین روش انتخاب شد و روی مجموعه داده اعمال گردید. سپس با استفاده از الگوریتم های کاوش درخت، الگوهای تکراری براساس مقادیر تائید متفاوت تولید گردیدند. از این الگوها برای استخراج قوانین مختلف استفاده شد. قوانین استخراج شده می توانند با فراهم کردن اطلاعات مفید، به پزشکان در رابطه با تشخیص بیماری کمک نمایند. کلمات کلیدی: داده کاوی رابطه ای، پایگاه داده رابطه ای به درخت، درخت کاوی، داده کاوی پزشکی، الگوهای تکراری.

ارتقاء امنیت وب با وف بومی