Skip to main content
SUPERVISOR
مهران صفایانی (استاد مشاور) عبدالرضا میرزایی دمابی (استاد راهنما)
 
STUDENT
Zahra Moslehi
زهرا مصلحی

FACULTY - DEPARTMENT

دانشکده مهندسی برق و کامپیوتر
DEGREE
Doctor of Philosophy (PhD)
YEAR
1391

TITLE

Combination of Unsupervised Metric Learning and Clustering: Fuzzy and Nonlinear Learners
The learning process in lots of machine learning algorithms is based on the similarity of the training data. Some kinds of specific similarity measures for two different categories of structural and vector data exist. In many cases, Euclidean distance, which is applied for the vector data, is not a suitable criterion for determining the similarity among input data. In distance metric learning , the new projected space is extracted in such a way that the new Euclidean distance well illustrates the similarity of the data. A considerable number of unsupervised and supervised metric learning algorithms exist. In unsupervised metric learning algorithms, the linear or nonlinear suace of the data is learned regardless of the data In this dissertation, we focus on the unsupervised metric learning with real world application in clustering. In unsupervised clustering, the objective is to find a set of clusters, where each cluster only contains the same In this dissertation, two different linear and nonlinear algorithms are introduced in this area. Dis-FCM is a linear method in which, unlike most available methods that apply k-means clustering, a new formulation is presented in which the benefits of FCM clustering are applied for obtaining the estimated align=left Keywords : Machine Learning, Pattern Recognition, Metric Learning, Clustering, Probabilistic Graphical Model, Gaussian Process
فرآیند یادگیری در بسیاری از الگوریتم ?های یادگیری ماشین،بر اساس میزان شباهت داده? های آموزشی انجام می? شود. به عنوان مثال در رده? بند k NN، رده هر داده به کمک شبیه? ترین داده موجود تخمین زده می ?شود. بهطور معمول داده? های آموزشی به دو دسته داده ?های ساختاری و یا داده? های برداریتقسیم می? شوند و از معیارهای شباهت شناخته شده? ای برای هر نوع داده استفاده می ?شود.به عنوان مثال شباهت بین داده? های ساختاری معمولا با فاصله ویرایش بین آن?ها وشباهت بین داده? های برداری با فاصله اقلیدسی بین آن?ها اندازه? گیری می?شود. دربسیاری از موارد فاصله ویرایش و یا فاصله اقلیدسی یک معیار مناسب برای تعیین شباهتبین داده? ها نیست. به همین منظور یادگیری متری برای محاسبه یک معیار شباهت مناسببین داده? های ورودی مطرح شده است. در یادگیری متری تلاش می? شود فضای جدید داده ?ها بهگونه ?ای استخراج شود که فاصله ویرایش و یا فاصله اقلیدسی بین داده? ها در این فضایجدید به خوبی نمایانگر شباهت بین داده? ها باشد. از یک دیدگاه، الگوریتم? های یادگیری متری به دو دستهالگوریتم ?های یادگیری متری برای داده? های ساختاری و الگوریتم ?های یادگیری متریبرای داده ?های برداری تقسیم ?بندی می? شود. در الگوریتم ?های یادگیری متری ساختاریتلاش می? شود از اطلاعات کمکی موجود به گونه ?ای استفاده شود که فاصله ویرایش معیارمناسبی از شباهت داده? ها در فضای جدید باشد. به طور مشابه، هدف الگوریتم‌هاییادگیری متری برداری استخراج فضای جدید داده‌ها به گونه‌ای است که به طور معمول فاصله اقلیدسی معیار مناسبی از شباهت داده‌ها باشد. الگوریتم? های یادگیری متری برداری، به دو دسته الگوریتم ?هایبدون ناظر و الگوریتم ?های با ناظر تقسیم می? شوند. در الگوریتم? های یادگیری متریبدون ناظر تلاش خواهد شد زیرفضای خطی و یا غیرخطی متناظر با داده? ها بدون توجه بهرده داده ?ها فراگرفته شود. در الگوریتم ?های با ناظر، فضای جدید داده ?های آموزشی بهکمک رده داده ?ها و یا اطلاعات کمکی که نمایانگر شباهت و یا عدم شباهت داده? ها استاستخراج می? شود. در فضای جدید تلاش خواهد شد حاشیه بین رده? های گوناگون تا حد ممکنافزایش یابد. از دیدگاهی دیگر الگوریتم‌های یادگیری متری برداری، به چنددسته الگوریتم ?های سراسری، محلی، خطی و غیرخطی تقسیم می ?شوند. در روش? های سراسریبه دنبال برآورده کردن یک مجموعه خاصیت بر روی کل داده ?ها هستیم. حال آن?که در روش? هایمحلی سعی می? کنیم یک سری خواص همسایگی و محلی برآورده شود. در روش? های خطی یکتبدیل خطی بر روی داده ?ها اعمال می ?شود و در روش? های غیرخطی تبدیل اعمال شده برروی داده ?ها غیرخطی است. در این رساله، ما بر الگوریتم? های یادگیری متری برداری بدونناظر با هدف خوشه بندی در دنیای واقعی تمرکز می ?کنیم. در خوشه بندی، یکی از اهداف اصلی، بدست آوردن خوشه هایی است که در آن هرخوشه تنها شامل داده هایی از یک رده باشد و در عین حال فشردگی هر خوشه و تمایز بین خوشه های گوناگون زیاد باشد.بدون داشتن اطلاعات رده داده ها، بدست آوردن خوشه های این چنینی غیرممکن است. حالچنانچه یک الگوریتم یادگیری متری بدون ناظر به صورت مستقل اجرا شود و به دنبال آن فرآیندخوشه? بندی اجرا شود، نتایج بهتری حاصل خواهد شد. با اعمال یک الگوریتم کاهش بعد،ساختار مخفی داده ها استخراج می شود و بنابراین نتایج بهتری مورد انتظار خواهد بود. یک روش دیگر اعمال خوشه بندی در فضای اولیه وبدست آوردن رده های تخمینی است. در این صورت، می توان از یک الگوریتم یادگیری متری باناظراستفاده کرد و سعی در بهبود فرآیند خوشه بندی کرد. با این وجود خوشه بندی در ابتدایالگوریتم ممکن است الگوریتم مناسبی نباشد و سایر مراحل الگوریتم را به بیراههبکشاند. بنابراین، اجرای مستقل این دو الگوریتم باعث خواهد شد کیفیت خوشه? بند بهمیزان کمی تحت تاثیر الگوریتم یادگیری متری قرار گیرد. یادگیری پارامترهایالگوریتم یادگیری متری به صورت توأم به همراه پارامترهای یادگیر خوشه ?بند در اینرساله مورد توجه قرار می گیرد. در این رساله چهار الگوریتم در این حوزه معرفی می شود. الگوریتم ها در حوزه یادگیریمتری خطی و غیرخطی ارائه می شوند. الگوریتم Dis-FCM قادر است داده‌های اسمی راپوشش دهد. الگوریتم BDFC نسخه احتمالی الگوریتم Dis-FCM است که پس از آن معرفی شد. الگوریتم MGP-LVM یک الگوریتم غیر خطی در این راستا است و الگوریتم MFGP-LVM نسخه سریع آن است. در آخر نیز چهار الگوریتم معرفی شده جمع بندی و با یکدیگرمقایسه خواهند شد.

ارتقاء امنیت وب با وف بومی