Skip to main content
SUPERVISOR
Naser Ghadiri modaress
ناصر قدیری مدرس (استاد راهنما)
 
STUDENT
Milad Moradi Vastegani
میلاد مرادی وستگانی

FACULTY - DEPARTMENT

دانشکده مهندسی برق و کامپیوتر
DEGREE
Master of Science (MSc)
YEAR
1393

TITLE

Concept-based single- and multi-document biomedical text summarization
In recent decades with the rapid growth in the volume of available textual information resources, automatic text summarization has become a useful tool to acquire and manage intended information. Using text summarization tools, clinicians and researchers in the biomedical domain can save their time and effort to manage numerous textual information resources. Various summarization methods have been developed so far using different approaches, and we divide the available challenges into two parts. The first part of challenges is related to summarizers which utilize term-based methods and generic criteria to measure the informativeness of sentences. Regarding the characteristics of biomedical text, it seems that there is a requirement to employ more efficient measures by biomedical summarizers. To address this issue, we propose a method that uses concept-level analysis of text in combination with itemset mining to identify the main subtopics of input text. In this method, the informativeness of each sentence is measured according to its meaning and the occurrence of main subtopics in the sentence. The results reported by the evaluation of this method show that using concept extraction and itemset mining, we can quantify the informativeness of sentences more efficiently, leading to an increase in the performance of biomedical summarization. The second part of challenges concerns biomedical summarizers which use the frequency of concepts extracted from input text to select related sentences. To address challenges related to such methods, we propose another summarization method that utilizes concept-level analysis and a probabilistic We perform extensive experiments to evaluate the performance of these two methods for single-document and multi-document summarization. The results of evaluations show that compared to the competitor methods, the two summarizers proposed in this thesis improve the performance of biomedical text summarization. Keywords Informativeness, Itemset mining, Concept distribution, Probabilistic classification
در دهه‌های اخیر، با رشد روزافزون منابع اطلاعات متنی، خلاصه‌سازی خودکار متن تبدیل به ابزاری کارآمد برای مدیریت حجم وسیع سندهای متنی و دستیابی به اطلاعات مورد نظر شده است. پزشکان و پژوهشگران حوزه زیست‌پزشکی با استفاده از ابزارهای خلاصه‌سازی متن می‌توانند در زمان و هزینه لازم جهت مدیریت منابع متعدد اطلاعات متنی صرفه‌جویی کنند. تا کنون روش‌های مختلفی برای خلاصه‌سازی متن ارائه شده است که در این پژوهش چالش‌های مربوط به کارهای پیشین را به دو دسته تقسیم می‌کنیم. بخش اول چالش‌ها مربوط به سیستم‌های خلاصه‌سازی می‌باشد که از روش‌های مبتنی بر کلمه و معیارهای عمومی مانند مکان جملات، طول جملات و غیره به منظور سنجش میزان سودمندی آنها استفاده می‌کنند. با در نظر گرفتن خصوصیات مربوط به متون حوزه زیست‌پزشکی، اینگونه به نظر می‌آید که معیارهای کارآمدتری باید توسط سیستم‌های خلاصه‌ساز زیست‌پزشکی به کار گرفته شود. به منظور پاسخگویی به این چالش‌ها، سیستم خلاصه‌سازی را ارائه می‌کنیم که با تحلیل متن ورودی در سطح مفهومی و به کارگیری تکنیک استخراج مجموعه آیتم به شناسایی موضوعات اصلی متن می‌پردازد. در این سیستم، سودمندی جملات بر اساس معنای آنها و با توجه به پوشش جملات از موضوعات اصلی متن سنجیده می‌شود. نتایج به دست آمده از ارزیابی این سیستم خلاصه‌ساز نشان می‌دهد که با به کارگیری استخراج مفاهیم و شناسایی موضوعات مهم متن به وسیله تکنیک استخراج مجموعه آیتم، می‌توان به صورت کارآمدتری میزان سودمندی جملات را مورد سنجش قرار داد، که نتیجه آن افزایش کارایی در خلاصه‌سازی زیست‌پزشکی می‌باشد. بخش دوم چالش‌ها مربوط به سیستم‌های خلاصه‌ساز زیست‌پزشکی می‌باشد که بر اساس اطلاعات مربوط به تعداد تکرار مفاهیم استخراج شده از متن ورودی به انتخاب جملات سودمند می‌پردازند. به منظور پاسخگویی به چالش‌های مرتبط با این خلاصه‌سازها، سیستم خلاصه‌ساز دیگری را بر مبنای تحلیل مفهومی متن و استفاده از یک روش دسته‌بندی احتمالاتی ارائه می‌دهیم. این سیستم با پیروی از توزیع مفاهیم مهم در متن ورودی، احتمال سازگار بودن جملات با توزیع مفاهیم متن اصلی را تخمین می‌زند. به منظور شناسایی مفاهیم مهم در این سیستم خلاصه‌ساز، چند روش انتخاب ویژگی را معرفی می‌کنیم و کارایی هر یک را مورد ارزیابی قرار می‌دهیم. نتایج به دست آمده از ارزیابی این سیستم خلاصه ساز نشان می‌دهد که با استفاده از یک روش کارآمد به منظور شناسایی مفاهیم مهم و تخمین احتمال سازگار بودن جملات با توزیع این مفاهیم، می‌توان کارایی این دسته از سیستم‌های خلاصه‌ساز زیست‌پزشکی را بهبود داد. آزمایش‌های گسترده‌ای به منظور ارزیابی کارایی این دو سیستم برای خلاصه‌سازی تک‌سندی و چندسندی به انجام رسیده است. نتایج آزمایش‌ها نشان می‌دهد که در مقایسه با روش‌های رقیب، استفاده از این دو سیستم باعث افزایش کارایی در خلاصه‌سازی زیست‌پزشکی می‌شود. کلمات کلیدی: 1- سودمندی جملات 2-استخراج مجموعه آیتم 3-توزیع مفاهیم 4- دسته‌بندی احتمالاتی

ارتقاء امنیت وب با وف بومی