ارایه روشی جدید در یادگیری معیار فاصله برای تشخیص الگو

STUDENT

DEGREE

YEAR

Large numbers of machine learning algorithms heavily rely on a similarity or distance metric to measure the semantic relations of input data. Automatically defining a good metric is the subject of distance metric learning . In this thesis we investigate two new approachs for semisupervised and unsupervised metric learning. In most of semi-supervised algorithms, the similar set S and dissimilar set D are given and algorithms try to satisfy the following constraints: The members of set S should be close together and at the same time members of dissimilar set D should be far apart. In this paper, without using the similar set S and only by using the dissimilar set D , we try to divide data into small number of pure groups. Our convex optimization formula guarantees to find the global optima and the experimental results show that our algorithm has significant improvement over the existing algorithms. in the other side in unsupervised metric learning algorithm Due to the lack of label information in these category the work is harder. the second new algorithm in this thesis i an unsupervised metric learning algorithm that in contrast of other approaches that work based on dimensionality reduction such that some geometric or statistical properties are achieved during the optimization., our method works based on the large separability between different class data where we use fuzzy c-means to make up the lack of label information. Through our method, we are able to handle both numerical and categorical data which is one of the open issues in distance metric learning. The experimental results show that our algorithm has significant improvement over the existing algorithms. Keywords: machine learning ; distance metric learning;

: استفاده از یک معیار فاصله ی مناسب به منظور محاسبه ی میزان شباهت داده های ورودی، یکی از عوامل اساسی موفقیت تعداد زیادی از الگوریتم های یادگیری ماشین است. یادگیری خودکار و کسب یک معیار فاصله ی مناسب، موضوع اصلی بحث یادگیری معیار فاصله است. هدف اصلی این پایان نامه، ارایه دو روش یادگیری معیار فاصله، یکی در حوزه ی یادگیری معیار فاصله ی نیمه نظارتی و دیگری در حوزه ی یادگیری معیار فاصله ی بدون نظارت است. در حوزه ی الگوریتم های نیمه نظارتی دو مجموعه ی و شامل زوج داده های مشابه و غیرمشابه به عنوان ورودی به مساله داده می شوند و الگوریتم به دنبال برآورده کردن شرط نزدیک کردن داده های مشابه و دور کردن داده های غیرمشابه است. الگوریتم پیشنهادی بدون استفاده از مجموعه ی S و تنها با استفاده از مجموعه D سعی در تقسیم داده ها به نواحی کوچک و خالص داردکه در عین حال حاشیه ی بین این ناحیه ها بیشترین مقدار ممکن باشد. محدب بودن رابطه ی نوشته شده در این مساله، دستیابی به یک بهینه سراسری را ضمانت می کند. آزمایش‌های انجام شده برتری روش پیشنهادی را نسبت به سایر روش‌های مشابه نشان می دهد. از سویی دیگر در حوزه ی الگوریتم های بدون نظارت، به دلیل نبودن هیچ‌گونه اطلاعات جانبی از مساله، کار کمی دشوارتر می شود. روش پیشنهادی دوم این پایان نامه، ارایه یک روش یادگیری معیار فاصله ی بدون نظارت است که برخلاف روش‌های موجود در این حوزه که از روش‌های کاهش بعد به منظور حفظ ویژگی های هندسی و آماری داده ها استفاده می کنند، در روش پیشنهادی از رویکرد استخراج اطلاعات به وسیله ی الگوریتم فازی Kmeans و سپس افزایش حاشیه ی بین داده های خوشه های مختلف به طور همزمان استفاده می شود. در این روش به دلیل محدب نبودن مساله‌ی بهینه‌سازی نوشته شده از حل به روش تکراری استفاده شده و به یک بهینه ی محلی بسنده شده است. ویژگی مهم این روش توانایی کار با انواع پایگاه داده ها، شامل داده های حقیقی، اسمی و ترکیبی است. آزمایش‌های انجام شده برتری و عملکرد بالای روش ارایه شده را نسبت به سایر روش‌های مشابه نشان می دهد.