Skip to main content
SUPERVISOR
Naser Ghadiri modaress
ناصر قدیری مدرس (استاد راهنما)
 
STUDENT
Mozhgan Nasr Azadani
مژگان نصرآزادانی

FACULTY - DEPARTMENT

دانشکده مهندسی برق و کامپیوتر
DEGREE
Master of Science (MSc)
YEAR
1394
Today, the volume of biomedical text information available for physicians and researchers in different forms including scientific research and Electronic Health Records is growing explosively. In order to be aware of up-to-date knowledge, get familiar with modern tools and achievements, and deliver proper patient care, biomedical physicians and clinicians require efficient access to patients’ records and scientific articles. In addition to physicians, it is also necessary for researchers to manage a substantial volume of biomedical literature so as to generate new hypotheses and ideas. Studying and skimming a large number of Electronic Health Records, biomedical articles, and scientific texts is one of the challenges that physicians and researchers of this domain are faced with. The use of data mining techniques and text summarization systems is a practical solution for saving time and having easy access to all information. There have been a variety of methods for domain-independent text summarization using statistical, machine learning, optimization, clustering, and graph-based approaches as well as for biomedical text summarization employing concept extraction, machine learning, graph-based, and other approaches. One of the most important disadvantages of general text summarization approaches is their worse performance in comparison with domain-specific approaches, which is due to complex concepts and characteristics of biomedical literature. Among domain-specific methods, graph-based ones have a good performance since they take advantage of graph structure to represent the text and do not require training data. One of the weak points of these approaches is that they do not take into account different aspects of text components and relations in graph creating process. This can lead to less coverage as well as high redundancy in the final summary. The purpose of this research is to propose a graph-based biomedical text summarization system to address the weakness mentioned above. To this aim, we propose a summarization system which represents the text using concept-based analysis and itemset mining technique. It then identifies different main topics of the text employing graph clustering concept. This way, the summarizer extracts those parts from the original text that sufficiently represent the gist of the source text, and it also introduces them as the system generated summary. The innovations of such summarizer include the use of domain-specific knowledge and itemset mining technique in graph creating as well as clustering based on itemsets. Extensive experiments have been carried out to assess the performance of the proposed summarization system in comparison with other methods. The obtained results revealed that exploiting concept extraction and itemset mining technique in graph creating as well as discovering main topics with the use of clustering can improve the performance of the graph-based biomedical text summarization systems. Keywords Text mining, Itemset mining, Graph clustering, Text similarity measure
امروزه، حجم اطلاعات متنی که به صورت الکترونیکی در قالب‌های متفاوت تحقیقات علمی و پرونده‌های سلامت بیماران در دسترس پزشکان و پژوهشگران حوزه ی زیست‌پزشکی قرار دارد، با رشد بسیار فزاینده‌ای مواجه شده است. پزشکان و متخصصین حوزه ی سلامت به منظور به‌روز ماندن در زمینه‌های تحقیقاتی، آشنایی با جدیدترین ابزارها و دستاوردها و هم‌چنین مراقبت هر چه بهتر بیماران، نیازمند دسترسی کارآمد به اطلاعات بیماران و مقالات علمی موجود هستند. علاوه بر پزشکان، برای پژوهشگران نیز ضروری است تا حجم زیاد اطلاعات تحقیقات زیست‌پزشکی را به منظور ارائه‌ی فرضیه‌ها و ایده‌های جدید مدیریت کنند. مطالعه و مرور حجم زیاد پرونده‌های سلامت بیماران و مقالات و متون علمی در زمینه‌ی زیست‌پزشکی، از جمله چالش‌هایی است که پزشکان و پژوهشگران این حوزه با آن رو‌به‌رو هستند. استفاده از تکنیک‌های متن‌کاوی و سیستم‌های خلاصه‌سازی متن راه‌حلی مناسب برای صرفه‌جویی در زمان و سادگی دسترسی همه‌جانبه به تمامی اطلاعات است. تاکنون روش‌های مختلفی برای خلاصه‌سازی متون به طور عام به روش‌های آماری، یادگیری ماشین، بهینه‌سازی، خوشه‌بندی و مبتنی بر‌گراف و خلاصه‌سازی متون پزشکی به روش‌های استخراج مفاهیم، یادگیری ماشین، مبتنی برگراف و سایر روش ها ارائه شده است. از ضعف‌های مهم روش‌های خلاصه‌سازی متون عمومی کارایی کمتر آن‌ها نسبت به رویکردهای مبتنی بر دانش زمینه‌ای است که این امر به دلیل وجود ویژگی‌ها و مفاهیم خاص و پیچیده و بکارگیری کلمات مختلف برای بیان معانی مشابه در متون زیست‌پزشکی است. در میان روش های وابسته به دانش زمینه ای نیز روش های مبتنی برگراف به دلیل استفاده از ساختاری غنی برای نمایش متن و عدم نیاز به داده های آموزشی از کارایی خوبی برخوردار هستند. یکی از ضعف‌های مهم این روش‌ها نگاه تک‌بعدی به مولفه‌های موجود در متن و هم‌چنین روابط بین آن‌ها برای ساخت گراف است که منجر به پوشش کمتر متن به همراه افزونگی بالا در خلاصه ی نهایی می شود. هدف از این پژوهش، معرفی و ارائه‌ی یک سیستم خلاصه‌سازی مبتنی بر‌گراف برای متون زیست‌پزشکی است که ضعف فوق را برطرف نماید. بدین منظور، سیستم خلاصه سازی را ارائه می کنیم که با تحلیل مفهومی متن ورودی و تکنیک استخراج مجموعه آیتم، متن مورد نظر را در قالب یک گراف نمایش می دهد. سپس، با استفاده از مفاهیم خوشه‌بندی گراف، موضوعات مهم و اصلی متن را شناسایی می کند و از این طریق بخش‌هایی از متن اصلی را که به بهترین نحو ممکن بیان‌کننده‌ی و عصاره‌ی متن اصلی هستند، استخراج و به عنوان خلاصه‌ی تولید شده از سیستم ارائه شده معرفی می نماید. نوآوری های اصلی این روش شامل استفاده از دانش زمینه ای به همراه تکنیک استخراج مجموعه آیتم در ساخت گراف و هم چنین خوشه بندی بر اساس مجموعه آیتم ها می باشد. آزمایش های گسترده ای به منظور ارزیابی کارایی سیستم خلاصه ساز معرفی شده در مقایسه ی با سایر روش ها انجام شد. نتایج به دست آمده نشان می دهد که با بکارگیری استخراج مفاهیم و تکنیک استخراج مجموعه آیتم در ساخت گراف و هم چنین شناسایی موضوعات مهم متن به وسیله ی خوشه بندی، می توان کارایی سیستم های خلاصه سازی مبتنی بر گراف متون زیست پزشکی را بهبود داد. کلمات کلیدی: 1- متن کاوی 2-استخراج مجموعه آیتم 3-خوشه بندی گراف 4- معیار شباهت متن

ارتقاء امنیت وب با وف بومی