Skip to main content
SUPERVISOR
Reyhaneh Rikhtegaran
ریحانه ریخته گران (استاد راهنما)
 
STUDENT
Elnaz Mojoudi renani
الناز موجودی رنانی

FACULTY - DEPARTMENT

دانشکده ریاضی
DEGREE
Master of Science (MSc)
YEAR
1396

TITLE

Variable selection in model-based clustering with a regularization approach
Nowadays, with the advent of the Internet and the advancement of technology, a large number of data and variables are being produced and collected in many fields. Clustering is one of the useful methods for analyzing data with large number of variables called high-dimensional data. The purpose of clustering methods is identifying homogeneous structures among individuals described by variables. There is usually no description or information about the pattern and structure of the data before clustering, which is a big challenge. One of the most popular and important data clustering approaches is the multivariate model-based clustering approach. The presence of irrelevant variables that do not possess clustering information may obscure the data group structure. Therefore, it is necessary to delete the irrelevant variables by applying variable-selection methods. Given to the importance of this issue, this thesis deals with the problem of variable selection in the framework of model-based clustering approach by applying Gaussian mixture models. For this purpose, three methods of variable selection and their related algorithms are described and studied.
امروزه به دلیل گسترش اینترنت و پیشرفت‌های بسیار در فناوری‌های اطلاعات، حجم وسیعی از داده‌ها و متغیرها در حوزه‌های گوناگون تولید می شوند. خوشه‌بندی یکی از ابزارهای مفید برای تحلیل داده‌های بعد بالا است که سال‌ها مورد مطالعه‌ی محققان قرار گرفته است و در شاخه‌های علمی بسیاری به منظور درک و تفسیر داده‌ها استفاده می‌شود. حضور تعداد زیادی از متغیرهای نامرتبط که حاوی اطلاعات مفیدی برای خوشه‌بندی نیستند، ممکن است ساختارهای واقعی خوشه‌بندی را بپوشانند. بنابراین، حذف این متغیر‌های بدون اطلاعات مفید با خوشه‌بندی، از طریق انتخاب متغیر ضروری است. در این پایان نامه به مساله‌ی انتخاب متغیر در خوشه‌بندی مدل محور با توزیع آمیخته‌ی نرمال پرداخته می شود. در این رابطه سه روش انتخاب متغیر و الگوریتم‌های انتخاب متغیر مربوط به آن‌ها را معرفی می‌کنیم. روش انتخاب متغیر SRUW، برای متغیرها سه نقش ممکن مختلف در نظر می‌گیرد. به عبارتی در این روش یک متغیر می‌تواند یا به خوشه‌بندی مرتبط باشد (S)، یا به عنوان متغیرهای اضافی(U)، طبق یک رابطه‌ی رگرسیونی خطی توسط زیر مجموعه‌ای از متغیرهای مرتبط (R ? S) توصیف شود و یا به عنوان متغیر های مستقل(W) از تمامی متغیرها مستقل باشد. این روش برای تعیین زیر مجموعه‌های SRUW، از یک الگوریتم گام به گام پس‌رو استفاده می‌کند که در هر مرحله مدل‌های مختلف را با معیار BIC با یکدیگر مقایسه می‌کند تا مشخص شود کدام متغیر ها باید از مجموعه‌های U ،R ،S و W خارج و یا به آن‌ها وارد شود. همچنین تعمیمی از رویکرد انتخاب متغیر SRUW معرفی می‌شود که در آن با استفاده از روش منظم‌سازی شبه لاسو و اعمال تابع جریمه‌ی لاسو بر روی پارامترهای مدل آمیخته‌ی نرمال، متغیرها را رتبه‌بندی می کند

ارتقاء امنیت وب با وف بومی