Skip to main content
SUPERVISOR
Mohammad Ali Montazeri,Ali Zeinal Hamadani
محمدعلی منتظری (استاد راهنما) علی زینل همدانی (استاد راهنما)
 
STUDENT
Mohammad Hamed Movahedi
محمدحامد موحدی

FACULTY - DEPARTMENT

دانشکده مهندسی برق و کامپیوتر
DEGREE
Master of Science (MSc)
YEAR
1391
Outlier detection is considered as a critical and crucial stage in data pre-processing. What adds to the importance of this stage is that the results of data mining depend on it. In outlier detection, data that are totally different from other data and do not show the normal data’s behavior are detected and deleted. Data mining will be continued by using normal data. If the outliers will not be deleted, and be processed accompanying with the normal data, it may lead to getting incorrect model that does not show the normal behavior of data. These data are deleted while either their numbers are high in some cases or they have special meanings and values. This study investigates the usage of outlier in these cases in order to examine whether the separate processing of these data is advantageous or not. For this purpose, the data processing approaches will be separately done on outliers and normal data in order to achieve model/models of expressing each group’s behavior. In analyzing the results, will use accuracy, and the accuracy of suggested approach, which is the separate analysis of normal data and outlier is compared with the normal approach, which is outlier deletion. In this regard, four standard data set, which are usually applied in outlier detection, that are German credit, WDBC, Pima Indian Diabetes and BCW and one set of dummy data will be utilized. Based on the accomplished implementations, processing of these data, at least according to the approach that was used in this study, is not suitable as a common method. Key words: outlier, outlier detection, using outlier
کشف داده پرت مرحله مهمی در پیش پردازش داده ها است و نتایج داده کاوی وابسته به انجام صحیح آن می باشد. در کشف داده پرت، داده هایی که با سایر داده ها تفاوت زیادی دارند و رفتار داده های معمولی را نشان نمی دهند، شناسایی شده و حذف می گردند. مراحل بعدی داده کاوی تنها بر روی داده های معمولی انجام می شوند. چنانچه داده های پرت حذف نشوند و همراه با داده های معمولی پردازش شوند، ممکن است مدل نا صحیحی ایجاد کنند و مدل نهایی بیانگر رفتار معمول نمونه ها نباشد. حذف این داده ها در حالی صورت می گیرد که در برخی موارد تعداد داده های پرت زیاد است یا این داده ها دارای ارزش و مفهوم خاصی هستند. در این تحقیق به بررسی استفاده از داده های پرت در چنین مواردی پرداخته خواهد شد تا مشخص شود که آیا پردازش جداگانه این داده ها می تواند سودمند باشد یا خیر. به این منظور روش های داده کاوی به طور جداگانه بر روی داده های معمولی و پرت اعمال می شوند تا مدل یا مدل هایی برای بیان رفتار هر گروه حاصل شود. برای ارزیابی نتایج از دقت استفاده می شود و دقت روش پیشنهادی، که پردازش جداگانه داده های معمولی و پرت است با روش معمول که همان حذف داده های پرت است مقایسه می گردد. در این راستا از چهار مجموعه داده استاندارد که معمولاً در کشف داده پرت استفاده می شوند یعنی German credit،WDBC، Pima Indian Diabetes و BCW یک مجموعه داده ساختگی بهره برده می شود. بر طبق پیاده سازی های انجام شده پردازش این داده ها حداقل به روشی که در این تحقیق مورد استفاده قرار گرفته است، به عنوان یک روش معمول، مناسب نیست.

ارتقاء امنیت وب با وف بومی