Skip to main content
SUPERVISOR
Mohammad hossein Saraee,Maziar Palhang
محمدحسین سرایی (استاد راهنما) مازیار پالهنگ (استاد مشاور)
 
STUDENT
Ayoub Bagheri
ایوب باقری

FACULTY - DEPARTMENT

دانشکده مهندسی برق و کامپیوتر
DEGREE
Master of Science (MSc)
YEAR
1386

TITLE

Implementation and Improvement of Some Algorithms for Feature Selection Problem in Text Classification
Today, Progress through software and hardware facilities, causing easily be stored amounts of data. Day by day the number of text documents is increasing, e-mail, web pages, texts, news and articles are only part of this range of increasing. Thus the need for text mining techniques such as methods for automatic text dir=ltr Keywords: Text dir=ltr
امروزه پیشرفت امکانات نرم افزاری و سخت افزاری، موجب آسانی ذخیره شدن مقادیر زیادی داده شده است. تعداد مستندات متنی روز به روز در حال افزایش است، نامه های الکترونیکی، صفحات وب، متون خبری و مقالات تنها بخشی از این گستره رو به افزایش هستند. بنابراین نیاز به تکنیک های متن کاوی همانند روش های خودکار برای رده بندی متون احساس می شود. در امر رده بندی خودکار متون، انتخاب ویژگی از درون متن جزء مهم ترین مراحل می باشد. انتخاب ویژگی برای کاهش ابعاد فضای ویژگی استفاده می شود، چرا که فضای ویژگی برای متون شامل ده ها هزار کلمه خواهد بود که پردازش های بعدی سیستم را امکان ناپذیر می کند. تاکنون روش های مختلفی برای انتخاب ویژگی برای داده های متنی طراحی شده اند که هر یک دارای معایب و مزایایی هستند، ولی روشی کلی که اکثر سیستم های رده بندی متون از آن استفاده کنند و میزان کارایی بالایی نیز داشته باشد معرفی نشده است. برای بهبود کارایی سیستم رده بندی متون در این پایان نامه دو روش جدید برای انتخاب ویژگی ارائه شده است. روش اول بر پایه الگوریتم مبتنی بر احتمال سرد شدن شبیه سازی شده پیاده سازی شده است. در الگوریتم سرد شدن شبیه سازی شده نیاز به استفاده از تابع برازندگی مناسب وجود دارد. بنابراین از روش بسامد سند برای ارزیابی راه حل در هر تکرار الگوریتم سرد شدن شبیه سازی شده استفاده شده است. روش بسامد سند به عنوان تابع برازندگی دارای هزینه محاسباتی کمی است. روش دومی که برای انتخاب ویژگی در این کار ارائه شده است روش بهبود یافته اطلاعات متقابل است که آن را اطلاعات متقابل اصلاح شده نام نهادیم. در نهایت کارایی روش های پیشنهادی با کارایی روش های مربع چی، ضریب همبستگی، مربع چی ساده، بهره اطلاعاتی، اطلاعات متقابل، بسامد سند و انحراف معیار بسامد کلمه بر روی مجموعه ای از متون فارسی مقایسه شده است و به این نتیجه رسیدیم که هر دو روش پیشنهادی دارای کارایی بهتری در اکثر موارد می باشند. در بین روش های بررسی شده روش های مربع چی و ضریب همبستگی نسبت به روش های پیشنهادی قابل مقایسه هستند. همچنین پس از بررسی نتایج به این نکته رسیدیم که در اکثر مقایسه ها روش پیشنهادی مبتنی بر الگوریتم سرد شدن شبیه سازی شده ، به روش اطلاعات متقابل اصلاح شده چیره خواهد شد. همچنین الگوریتم های پیشنهادی در رده سیاسی پایین ترین و رده ورزشی بالاترین کارایی دارند. واژه های کلیدی: رده بندی متون، انتخاب ویژگی، الگوریتم سرد شدن شبیه سازی شده، اطلاعات متقابل اصلاح شد

ارتقاء امنیت وب با وف بومی