Skip to main content
SUPERVISOR
عبدالرضا میرزایی دمابی (استاد راهنما) مهران صفایانی (استاد مشاور)
 
STUDENT
Ramin Barati
رامین براتی

FACULTY - DEPARTMENT

دانشکده مهندسی برق و کامپیوتر
DEGREE
Master of Science (MSc)
YEAR
1393

TITLE

Probabilistic topic modeling in continuous feature space using mixture of Gaussians
With the advent of Internet technologies, users now have huge collections of text, audio and video at their fingertips. Even though this explosion of information has its benefits, it has brought about serious challenges regarding the retrieval and discovery of these contents. With recent advancements in text information retrieval, specially probabilistic topic models, it would be desirable to use these successful experiences in media other than text. Regardless, the fundamental differences in the nature of observations of text and other media, has made the use of these models very limited. There are various proposals for overcoming this problem. G-LDA is one such model. G-LDA is a probabilistic topic model for audio documents which extends standard LDA to continuous spaces. In G-LDA, distribution of topics are assumed to be Gaussians which may not be true with regards to different applications. In this thesis, we propose an extension of G-LDA to Gaussian mixtures called GM-LDA. Replacing Gaussian topics with mixtures enable the model to learn multi-modal, non-Gaussian topics too. This change will allow a better modeling of documents in a more compact topic space. We also have explored the use of this model in document modeling, genre classification and song auto-tagging tasks which shows acceptable results. With respect to G-LDA, topics learned by GM-LDA perform 11% better in genre classification while reducing the number of topics by 40%. In song auto-tagging task, the performance of the topics learned are comparable with G-LDA and other models Key Words: Music information retrieval, Probabilistic topic modeling, Gaussian mixtures, Latent Dirichlet allocation, Continuous feature space
پیشرفت تکنولوژی و فراگیری اینترنت به کاربران این اجازه را داده است که مجموعه‌های بسیار بزرگی از متن، صوت و تصویر را به راحتی در اختیار داشته باشند. این انفجار اطلاعاتی، با وجود تمامی راحتی که به ارمغان آورده، مشکلاتی نیز به وجود آورده است. جست‌وجو و یافتن محتوای مورد نظر در این آرشیوها به یک چالش بزرگ تبدیل شده است. با پیشرفت‌هایی که در زمینه‌ی بازیابی متن، به ویژه مدل‌های احتمالاتی عناوین، صورت گرفته، امید آن می‌رود که بتوان از این تجربیات موفق در زمینه‌های صوت و تصویر نیز بهره برد. با وجود این، تفاوت ذاتی نوع داده‌های متنی و چند رسانه‌ای کارایی این مدل‌ها را در این زمینه‌ها محدود کرده است. برای برطرف کردن این مانع روش‌های متنوعی پیشنهاد شده است. یکی از این مدل‌ها، G-LDA است. G-LDA یک مدل احتمالاتی عناوین برای اسناد صوتی است که از تعمیم LDA استاندارد به فضای مشاهداتی پیوسته به دست آمده است. با این حال، در G-LDA توزیع عناوین نرمال فرض شده در حالی که با توجه به کاربرد آن ممکن است فرض صحیحی نباشد. در این نوشته تعمیمی از مدل G-LDA با نام GM-LDA را پیشنهاد می‌دهیم که از GMM برای توزیع عناوین استفاده می‌کند. استفاده از GMM به جای توزیع نرمال این اجازه را به GM-LDA می‌دهد که عناوینی که توزیع غیر نرمال و یا چندقله‌ای دارند را نیز یاد بگیرد. این تغییر باعث می‌شود که توانایی مدل‌کردن اسناد به طور قابل توجهی افزایش یابد. همچنین کارآمدی عناوین یادگرفته شده توسط مدل را در وظایف مدل‌سازی اسناد موسیقی، دسته‌بندی ژانر و برچسب‌زنی خودکار آهنگ ارزیابی می‌کنیم که نتایج قابل قبولی را از خود نشان می‌دهند. استفاده از عناوین استخراج شده توسط مدل پیشنهادی در وظیفه‌ی دسته‌بندی با کاهش بعد 40 درصدی 11 درصد بهتر عمل می‌کنند. در وظیفه‌ی برچسب‌زنی خودکار نیز عملکرد این عناوین قابل رقابت با روش‌های مقایسه شده می‌باشد. واژه‌های کلیدی: ?- بازیابی اطلاعات موسیقی، ?- مدل احتمالاتی عناوین، ?- مخلوط گاوسی، ?- تخصیص پنهان دیریکله، ?- فضای مشاهداتی پیوسته.

ارتقاء امنیت وب با وف بومی