Skip to main content
SUPERVISOR
Soroush Alimoradi,Ali Zeinal Hamadani
سروش علی مرادی (استاد راهنما) علی زینل همدانی (استاد مشاور)
 
STUDENT
Asghar Rahmani
اصغر رحمانی

FACULTY - DEPARTMENT

دانشکده ریاضی
DEGREE
Master of Science (MSc)
YEAR
1389

TITLE

Outlier identification in high dimentions
Outliers are data points that lying far away from the main part of a data set and probably not following the assumed model. These data points are often the special points of interest in many practical situations and their identification is the main purpose of the investigation. Moreover, accurate identification of outliers plays an important role in statistical analysis, since they can strongly influence the stroked="f" filled="f" path="m@4@5l@4@11@9@11@9@5xe" o:preferrelative="t" o:spt="75" coordsize="21600,21600" , i=1,… ,n , is Mahalanobis distance, MD i = where and S are arithmetic mean and sample covariance matrix. ltr"
شناسایی نقاط پرت به عنوان نقاط مورد علاقه در بسیاری از زمینه‌های تحقیقاتی و نقاط تأثیرگذار بر روش‌های کلاسیک آماری از اهمیت بالایی برخوردار است. به ویژه در ابعاد بزرگ که حضور این نقاط شانس بیشتری دارند و تشخیص آن‌ها به کمک معیارهای ساده آماری امکان‌پذیر نیست. استفاده از روش‌های استوار به منظور ارائه نتایج واقعی از برآوردگرهای پارامتر مکان و مقیاس با تأثیر‌پذیری بسیار اندک نسبت به نقاط پرت در این خصوص مناسب است. امروزه پیدایش مجموعه داده‌های واقعی با تعداد مشخصه‌های فراوان در برخی از شاخه‌های مهم علمی مانند پزشکی به چشم می‌خورد که شناسایی نقاط پرت در آن‌ها از اهداف مهم مطالعاتی محسوب می‌شود. به این ترتیب تلاش برای بررسی و توسعه شیوه‌های استوار کارآمد در چنین مجموعه داده‌هایی گسترش یافته است و دو عامل دقت در شناسایی و زمان محاسبه روش‌ها همواره مدنظر بوده است. در این پایان‌نامه اکثر برآوردگرها و روش‌های استوار خصوصاً روش‌های کارآمد در مجموعه داده‌های با ابعاد بزرگ بیان شده است و سپس با به کارگیری برخی از ویژگی‌های این روش‌ها یک الگوریتم محاسباتی سریع در خصوص شناسایی نقاط پرت معرفی شده است. این الگوریتم با استفاده از مولفه‌های اصلی در فضای تبدیل یافته ، نتایج قابل ملاحظه‌ای برای داده‌های با بعد بالا نشان می‌دهد. همچنین قابلیت تحلیل وضعیت‌های موجود در کاربردهای خاص زیستی را دارد که در آنها تعداد ابعاد (مشخصه‌ها) به مراتب بزرگتر از تعداد مشاهدات هستند . علاوه بر این ، مقایسه‌ای از عملکرد الگوریتم مذکور با دیگر روش‌های شناسایی نقاط پرت در ابعاد کم و نتایج حاصل از آن روی داده‌های واقعی و شبیه‌سازی شده با چندین هزار بعد ، ارائه شده است.

ارتقاء امنیت وب با وف بومی