Skip to main content
SUPERVISOR
Mohammad hossein Saraee,Maziar Palhang
محمدحسین سرایی (استاد راهنما) مازیار پالهنگ (استاد مشاور)
 
STUDENT
Pirooz Shamsinejad Babaki
پیروز شمسی نژادبابکی

FACULTY - DEPARTMENT

دانشکده مهندسی برق و کامپیوتر
DEGREE
Master of Science (MSc)
YEAR
1384
In recent years vast amount of textual information is collected and stored in various databases around the world, including the Internet as the largest database of all. Text has turned into an important and critical resource for discovering information. From business to medical and security worlds, for catching up with competitors, to treat diseases and to prevent threats against national security, necessity to extract information from the text or to establish textual associations is undeniable. This burgeoning growth of published text means that even the most avid reader cannot hope to keep up with all the reading in a field, and nuggets of insight or new knowledge are at risk of languishing undiscovered in the literature. Text mining offers a solution to this problem by replacing or supplementing the human reader with automatic systems undeterred by the text explosion. It involves analyzing a large collection of documents to discover previously unknown information. The information might be relationships or patterns that are buried in the document collection and which would otherwise be extremely difficult, if not impossible, to discover. Text clustering is one of the most important areas in text mining which includes text preprocessing, dimension reduction by selecting some terms (features) and finally clustering using selected terms. Feature selection is appeared to be the most important step in the process. Conventional unsupervised feature selection methods define a measure of discriminating power of terms to select proper terms from corpus. Evaluation of terms in groups has not been investigated in reported works. In thesis a new and robust unsupervised feature selection approach is proposed that evaluates terms in groups. Considering terms in group is to find terms that can group with other terms to be used for clustering based only on low power of discriminating. In addition a new Modified Term Variance measuring method is proposed for evaluating group of terms. Furthermore a genetic based algorithm is designed and implemented for computing new measure and finding final feature vector use by clustering task. In order to evaluate and justify our approach the proposed method and also conventional term variance method are implemented and tested using corpus collection Reuters-21578. Results of comparing these two methods are very promising and show that our method produces better average accuracy and F1-measure than conventional term variance method. .
در دنیای امروز با توجه به حجم عظیم اطلاعات متنی که در اینترنت و پایگاه داده های مختلف در سرتاسر دنیا موجود می باشد، متن، تبدیل به یک منبع مهم و حیاتی برای کشف اطلاعات شده است. از دنیای تجارت تا دنیای پزشکی و امنیت برای سبقت گرفتن از رقبا، کشف درمان بیماریها و یا جلوگیری از اقدامات ضدامنیتی نیازمندی به استخراج اطلاعات از متن و یا برقرار کردن ارتباط بین متون غیر قابل انکار می باشد. تکنیک های کاوش متن به عنوان پاسخی به این نیاز بشر امروز مطرح شده اند. از جمله مهمترین مسائل موجود در کاوش متن دسته بندی متون می باشد. دسته بندی متون از تعدادی مرحله تشکیل شده است: ابتدا باید اسناد مورد عمل پیش پردازش قرار گیرند و سپس عمل کاهش بعد روی اسناد با انتخاب تعدادی از ترمها (ویژگیها) انجام می شود و در نهایت به وسیله ترمهای انتخاب شده، دسته بندی انجام می شود. در بین این مراحل، انتخاب ویژگی یکی از مهمترین آنها می باشد. روشهای انتخاب ویژگی بدون نظارت متداول با تعریف یک معیار برای قدرت تفکیک کنندگی ترم به انتخاب ترمهای مناسب از درون انبار سند می پردازند. در این پایان نامه یک روش جدید برای انتخاب ویژگی بدون نظارت ارائه شده است که برخلاف روشهای متداول، تعدادی از ترمها را بصورت گروهی مورد ارزیابی قرار می دهد. هدف از بررسی گروهی ترمها یافتن ترمهایی می باشد که اگرچه به تنهایی از قدرت تفکیک کنندگی کمی برخوردار هستند اما زمانی که در کنار ترمهای دیگر قرار گیرند می توانند در دسته بندی متون مفید واقع شوند. در روش جدید یک معیار واریانس اصلاح شده برای بررسی مجموعه ای از ترمها ارائه شده است و برای محاسبه معیار واریانس ترم اصلاح شده یک الگوریتم ژنتیک طراحی شده است که بردار ویژگی نهایی را برای عمل دسته بندی انتخاب می کند. روش ارائه شده به همراه روش انتخاب مبتنی بر واریانس ترم پیاده سازی شده و بر روی مجموعه انبار سند رویترز-21578 آزمون شده اند. نتایج اعمال این دو روش و مقایسه آنها نشان می دهد روش جدید به دقت میانگین و معیار F1 بهتری نسبت به روش واریانس ترم متداول دست پیدا کرده است.

ارتقاء امنیت وب با وف بومی