یادگیری معیار فاصله ی بیزین با هدف خوشه بندی فازی متمایز کننده

STUDENT

DEGREE

YEAR

Large number of machine learning algorithms, strongly depend on the underlying distance metric for representing the important relationships among the observed data points. Distance metric learning is defined as learning a good similarity measure or distance metric for input data. There are several deterministic and probabilistic approaches for supervised and unsupervised distance metric learning. In this thesis, we focus on unsupervised metric learning algorithms. Most of existing unsupervised methods are based on dimensionality reduction and there is not enough work in which the large separability between different clusters to be satisfied. We propose a probabilistic approach for this problem in which we formulate metric learning and fuzzy c-means clustering simultaneously to obtain large separability between different clusters in projected space. We use Markov Chain Monte Carlo (MCMC) algorithms to infer the latent variables in our probability model. Our approach can also reduce the dimensionality of data automatically without getting the number of reduced dimensions as input. The experimental results on real-world data sets demonstrated the effectiveness of the proposed algorithm. Keywords: 1. Distance Metric Learning 2. Fuzzy C-Means 3. Unsupervised Learning 4. Probabilistic Graphical Models 5. Markov Chain Monte Carlo

یادگیری معیار فاصله نیازی بنیادین در بسیاری از کاربرد‌های یادگیری ماشین، داده‌کاوی و شناسایی الگو به شمار می‌رود. فرآیند یادگیری در بسیاری از این کاربرد‌ها بر اساس شباهت میان داده‌ها انجام می‌شود و به طور معمول شباهت میان داده‌ها با استفاده از معیار‌های فاصله‌ی شناخته شده‌ای مانند فاصله‌ی اقلیدسی یا فاصله‌ی ویرایش اندازه‌گیری می‌شود. اما در بسیاری از موارد، اندازه‌گیری فاصله‌ی اقلیدسی میان داده‌ها در فضای ورودی، معیار مناسبی برای اندازه‌گیری شباهت میان داده‌ها محسوب نمی‌شود. بنابراین یادگیری معیار فاصله‌ی مناسب در بسیاری از الگوریتم‌های یادگیری، نقش کلیدی در کارایی آن‌ها ایفا می‌کند. تا‌کنون تحقیقات بسیاری در زمینه یادگیری معیار فاصله انجام شده و الگوریتم‌های متفاوتی در سه دسته‌ی با ناظر، بدون ناظر و با ناظر ضعیف ارائه شده‌اند. در روش‌های با ناظر و با ناظر ضعیف از اطلاعاتی که در مورد رده‌ی داده‌ها وجود دارد، برای طبقه‌بندی داده‌ها به گونه ای که حاشیه‌ی میان خوشه‌های مختلف حداکثر شود استفاده می‌گردد. اما هدف اکثر الگوریتم‌های یادگیری معیار فاصله‌ی بدون ناظر کاهش بعد معرفی می‌شود. با توجه به این‌که در برخی مواقع برچسب گذاری داده‌ها کاری هزینه‌بر و زمان‌بر است، روش‌های بدون ناظر با چالش بیشتری رو‌به‌رو هستند. تا کنون الگوریتم‌های مختلفی برای یادگیری معیار فاصله‌ی بدون ناظر ارائه شده‌اند که از روش‌های قطعی یا احتمالاتی برای حل مساله استفاده کرده‌اند. استفاده از مدل احتمالاتی برای حل مسائل یادگیری دارای مزیت‌هایی است که از جمله‌ی آن‌ها می‌توان به مدل کردن عدم قطعیت موجود در مساله اشاره کرد. همچنین در این روش‌ها می‌توان با استفاده از اطلاعاتی که از متغیر‌های مساله موجود است، برای هریک از آن‌ها یک تابع توزیع اولیه تعریف کرد که این کار استفاده از الگوریتم‌های نمونه‌گیری مانند الگوریتم متروپولیس هستینگز، برای استنتاج مدل احتمالاتی و تخمین متغیر‌های مساله را بدون ایجاد بیش‌پوشش بر روی داده‌ها تسهیل می‌کند. در این پایان نامه ما به بررسی یادگیری معیار فاصله‌ی بدون ناظر با هدف بهبود کیفیت خوشه‌بندی و افزایش حاشیه‌ی ‌‌میان خوشه‌ها می‌پردازیم و با ارائه‌ی مدلی احتمالاتی، یادگیری معیار فاصله و خوشه‌بندی فازی را به صورت همزمان انجام می‌دهیم. در روش پیشنهادی ارائه شده امکان یادگیری معیار فاصله‌ی مناسب با حفظ تعداد ابعاد داده‌ها و همچنین کاهش ابعاد آن‌ها وجود دارد. کاهش بعد در الگوریتم پیشنهادی به صورت خودکار و بدون نیاز به مشخص کردن تعداد ابعاد توسط کاربر، قابل انجام است. نتایج حاصل از آزمایشات انجام شده نشان می‌دهند که روش پیشنهادی، کیفیت خوشه‌بندی را بر روی مجموعه داده‌های مورد آزمایش، به صورت قابل توجهی افزایش داده است و عملکرد بهتری نسبت به سایر روش‌ها‌ی مرسوم داشته است. کلمات کلیدی: 1- یادگیری معیار فاصله 2- خوشه بندی فازی 3- یادگیری بدون ناظر 4- مدل های گرافی احتمالاتی 5-زنجیره ی مارکوف مونت کارلو