ارائه روش¬هایی برای مسئله ریشه¬یابی در زبان فارسی

STUDENT

DEGREE

YEAR

nowadays improvement of hardware and software tools redounds to ease of vast data storing. Day by day the number of text documents is increasing, e-mail, web pages, texts, news and articles are only part of this range of increasing. Hence, the need for text mining techniques like automated methods for text justify; LINE-HEIGHT: normal; MARGIN: 0in 0in 0pt" and its related stem are stored in some kind of structured form. Consequently, for each stored word, we find its stem. However, the approach needs more space. Also, for each new word, table must be updated manually. In statistical methods, through a process of inference and based on a corpus, rules are formulated regarding word formation. This approach does not require any linguistic knowledge whatsoever, being totally independent of the morphological structure of the target language. Stemming is used for improvement of performance of text mining techniques. It is also used for space dimension reduction, because the feature space includes tens of thousands of words that will cause the next processes of system be impossible. Different methods to stemming have been designed in various languages each with advantages and disadvantages. In Persian also some algorithms for stemming have been proposed that have their own advantages and disadvantages, but there is not a general method for text mining in Persian that has high performance. For improvement of stemming in Persian in this thesis, two new methods are presented. The first method is based on study of Persian morphological structure. The proposed approach is a hybrid method. In this method a lookup table and automata are used for finding stems. This method is a static method and it lacks flexibility. So it has some errors in stemming. Second approach also like first stemming method, is a hybrid method. First step of this method uses a lookup table. Second step of this method implemented with decision tree algorithm. Since learner methods are dynamic, some parts of disadvantages will cover. In the end, for comparison of performance, one of general Persian stemmers has been chosen. In this thesis also a complete preprocessing method for Persian documents is proposed. For examination of performance, text justify; LINE-HEIGHT: normal; MARGIN: 24pt 0in 0pt" dir=ltr Keywords: Text Mining, Text 0in 0in 10pt" dir=ltr

امروزه پیشرفت امکانات نرم افزاری و سخت افزاری، موجب آسانی ذخیره شدن مقادیر زیادی داده شده است. تعداد مستندات متنی روز به روز در حال افزایش است؛ نامه های الکترونیکی، صفحات وب، متون خبری و مقالات تنها بخشی از این گستره رو به افزایش هستند. بنابراین نیاز به تکنیک های متن کاوی همانند روش های خودکار برای رده بندی متون و بازیابی اطلاعات احساس می شود. در مسئله های متن کاوی ریشه یابی کلمات جزء مهم ترین مراحل می باشد. ریشه یابی به معنی تبدیل کلماتی که ریشه ی یکسان دارند به یک ریشه ی واحد است. ریشه یابی به منظور افزایش کارایی در متن کاوی و کاهش فضای خصیصه انجام می شود. تاکنون روش های مختلفی برای ریشه یابی کلمات در زبان های مختلف ارائه شده است. در زبان فارسی نیز در زمینه ی ریشه یابی روش هایی پیشنهاد شده است که هر یک دارای معایب و مزایایی هستند، ولی روشی کلی که در متن کاوی در زبان فارسی از آن استفاده کنند و میزان کارایی بالایی نیز داشته باشد معرفی نشده است. برای بهبود کارایی ریشه یابی در زبان فارسی در این پایان نامه دو روش جدید ارائه شده است. روش اول بر اساس مطالعه ی ساختار ریخت شناسی زبان فارسی پیاده سازی شده است. این روش یک روش ترکیبی است. در این روش جدول جستجو و اتوماتا برای یافتن ریشه مورد استفاده قرار می گیرند. این روش یک روش ایستا بوده و انعطاف پذیری بالایی ندارد به همین دلیل دچار بعضی خطاها در ریشه یابی کلمات می شود. روش دوم نیز مانند روش اول یک روش ترکیبی است. بخش اول این روش مانند روش اول با استفاده از جدول جستجو پیاده سازی شده است. قسمت دوم این روش با استفاده از الگوریتم یادگیری درخت تصمیم گیری پیاده سازی شده است. از آنجایی که روش های یادگیر پویا هستند، بخشی از ضعف های روش اول پوشانده می شوند. در نهایت به منظور مقایسه کارایی از یکی از الگوریتم های ریشه یابی متداول در زبان فارسی استفاده کردیم. همچنین یک پیش پردازش کامل برای متون فارسی پیشنهاد گردید. برای بررسی کارایی از دو روش رده بندی متون با استفاده از چندین الگوریتم معمول رده بندی و روش بازیابی اطلاعات استفاده شد. پس از بررسی نتایج به این نکته رسیدیم که در مقایسه ها روش های پیشنهادی کارایی بسیار خوبی دارند. همچنین مشاهده شد پیش پردازش پیشنهادی تاثیر بسیار بالایی بر کارایی رده بند و سیستم بازیابی اطلاعات دارد. واژه های کلیدی: متن کاوی، رده بندی متون، بازیابی اطلاعات، ریشه یابی، پیش پردازش