Skip to main content
SUPERVISOR
Mohammad hossein Saraee
محمدحسین سرایی (استاد راهنما)
 
STUDENT
Navid Sheydaei
نوید شیدائی

FACULTY - DEPARTMENT

دانشکده مهندسی برق و کامپیوتر
DEGREE
Master of Science (MSc)
YEAR
1389

TITLE

Persian Text Mining: Towards Preprocessing and categorization of Persian News Articles
Nowadays amount of information and documentation text is spreading day by day. E-mails, Web pages, news text, scientific papers and … are the only part of increasing information. These broad information contain a hidden knowledge. Providing a tool that can effectively and efficiently identify, extract and manage the vast information and knowledge hidden within it, is essential. One of the important methods in order to meet this need of users is using text mining techniques such as automatic text left; LINE-HEIGHT: 115%; MARGIN: 0cm 0cm 10pt" align=left Keywords : Text Mining, Stemming, PreProcessing, Text ltr"
امروزه میزان اطلاعات و مستندات متنی روز به روز در حال گسترش است. نامه های الکترونیکی، صفحات وب، متون خبری، مقالات علمی و ... تنها بخشی از این اطلاعات رو به افزایش است. این اطلاعات گسترده دربردارنده یک دانش پنهان می باشند. فراهم کردن ابزاری که بتواند به طور موثر و کارا این اطلاعات گسترده و دانش پنهان درون آن را شناسایی، استخراج و مدیریت کند امری مهم و ضروری است. یکی از روش های مهم در راستای براورده کردن این نیاز کاربران، استفاده از تکنیک های متن کاوی همانند روش های دسته بندی خودکار متون است. با کمک دسته بندی متون می توان اسناد را به یک یا چند دسته ی از پیش معرفی شده، منتسب کرد. از جمله کاربردهای دسته بندی می توان به رده بندی اسناد خبری، صفحات وب، پیام های الکترونیکی، فیلترینگ و ... اشاره کرد. با توجه به اهمیت موضوع و کارهایی که در این زمینه برای زبانهای دیگر دنیا انجام شده است، نیاز به رده بندی متون پارسی به خوبی احساس می شود. در این پایان نامه به ابعاد مختلف رده بندی متون پارسی پرداخته شده است. در ابتدا مسئله پیش پردازش و ریشه یابی کلمات مورد بررسی قرار گرفته است و با ارائه راهکارهایی سعی در بهبود فرایند پیش پردازش متون پارسی شده است. در روش ارائه شده با مطالعه ساختار ریخت شناسی زبان پارسی و با کمک گیری از جداول جستجو، سعی می شود ریشه یکسانی برای کلمات همگون یافته و نتایج را در قالب لیستی از کلمات ریشه یابی شده ذخیره کند. در ادامه الگوریتمی برای رده بندی متون ارائه شده است. این الگوریتم در رده الگوریتم های رده بندی انجمنی قرار می گیرد و به این صورت کار می کند که ابتدا آیتم های پرتکرار مرتبط به هر برچسب کلاس را پیدا می کند. با این کار کلماتی که از لحاظ معنایی در متون مختلف تاثیر گذارترند یافته می شوند. سپس به جای بررسی کلیه آیتم ها در تولید قوانین، تنها به بررسی آن آیتم های پر تکرار برای هر برچسب کلاس پرداخته می شود. در یافتن آیتم های پرتکرار از گونه ای از الگوریتم Apriori استفاده شده است. که ابتدا آیتم های پایگاه داده را به صورت بیتی ذخیره می کنید و سپس با اعمال عملگر های بیتی به یافتن آیتم های پرتکرار می پردازد. الگوریتم ارائه شده توانایی پیشنهاد چند برچسب برای یک سند ناشناخته را نیز دارا می باشد، بنابر این می توان آن را در رده الگوریتم های رده بندی چند برچسبه نیز در نظر گرفت. به این معنی که در هنگام رده بندی اسناد، می توان سند ناشناخته را به چندین رده منتسب نمود. به منظور بررسی میزان کارایی روش های ارائه شده، آنها را با الگوریتم های شناخته شده هر بخش، با ثابت نگه داشتن سایر بخش ها، مقایسه نموده ایم. پس از بررسی نتایج و مقایسه معیارهای گوناگون ارزیابی کارایی، به این نکته رسیدیم که در مقایسه ها روش های پیشنهادی کارایی بسیار خوبی نسبت به روش های موجود دارند hyhy; واژه های کلیدی: متن کاوی، ریشه یابی، پیش پردازش، دسته بندی متون، رده بندی چند برچسبه

ارتقاء امنیت وب با وف بومی