Skip to main content
SUPERVISOR
Mohammad Reza Ahmadzadeh
محمدرضا احمدزاده (استاد راهنما)
 
STUDENT
Emadaldin Bagheri
عمادالدین باقری

FACULTY - DEPARTMENT

دانشکده مهندسی برق و کامپیوتر
DEGREE
Master of Science (MSc)
YEAR
1394
In the current world, with remarkable advances in information technology, text data is rapidly increasing and to access information in a variety of areas, individuals are faced with a massive amount of documents and texts from different sources. Thus, many researches have been commenced to develop and provide text summarization methods for faster and easier access to documents. Among the methods that the text summarization is performed by human intervention, machine learning methods tend to focus on improving the quality of features and minimizing human interference in the process of selecting sentences. Since the deep learning methods have improved the performance of the tasks related to issues such as image processing, natural language processing, and so on, hence these methods were used to enhance the performance of the tasks related to text processing too. In this study, we present a new model for producing extracted text summaries using deep learning and clustering techniques. Our proposed model is based on the Gaussian- Bernoulli Restricted Boltzmann Machine, Deep Belief Networks, and k-means clustering algorithm. In this method, we first select several proper features of the text sentences and then we construct a feature matrix. The feature matrix is applied it to a Restricted Boltzmann machine and a Deep Belief Network that have been improved to be applicable for the real inputs. Also, few improvements have been made to the k-means clustering algorithm, as a complement to the methods of deep learning for choosing important sentences of the text. These improvements caused producing high-quality summaries that include key sentences representing the concept of a text document. To evaluate the summaries produced by the proposed method in comparison with a human-made summary, the DUC2002 text data is used. The proposed method based on the Deep Belief Networks and the clustering method achieved average 51.33% for the ROUGE-1 evaluation criteria and 24.45% for the ROUGE-2 evaluation criteria. The experimental result shows that the summaries generated using the proposed method has good quality and has better performance in comparison with other similar text summarization methods. Key Words: Text Summarization, Deep learning, Machine learning, Clustering, Restricted Boltzmann Machine, Deep Belief Network.
در دنیای کنونی با پیشرفت­­های شگرف فناوری اطلاعات، داده­های متنی با سرعت خیلی زیادی روبه افزیش است و افراد برای دستیابی به اطلاعات در حوزه‌های گوناگون با حجم انبوهی از اسناد و متون از منابع مختلف روبه‌رو می­شوند، براین­اساس پژوهش‌هایی برای توسعه و ارائه روش‌های خلاصه‌سازی متن جهت دسترسی سریع‌تر و ساده‌تر به محتوای اسناد آغاز گردید. در میان روش‌های ارائه‌شده که اغلب با دخالت انسان عمل خلاصه‌سازی متن را انجام می‌دهند، روش‌های یادگیری ماشین سعی دارند بر روی بهبود کیفیت ویژگی­ها و کمتر کردن دخالت انسان در فرآیند انتخاب ویژگی‌های جمله برای تولید خلاصه‌ متن تمرکز کنند. ازآنجاکه روش‌های یادگیری عمیق در مواردی همچون پردازش تصویر، پردازش زبان طبیعی و غیره باعث بهبود عملکرد کارهای مرتبط با این موضوعات شدند، ازاین‌رو این روش­ها برای بهبود عملکرد کارهای مرتبط با پردازش متن نیز به کار گرفته شدند. ما در این پژوهش یک مدل جدید برای تولید خلاصه متن استخراجی با بهره‌گیری از روش­های یادگیری عمیق و خوشه­بندی ارائه کردیم. مدل پیشنهادی ما مبتنی بر ماشین بولتزمن محدود گوسی –برنولی، شبکه باور عمیق و الگوریتم خوشه‌بندی k-means است. در این روش ما ابتدا ویژگی­های متنوعی برای جملات متن تعیین می­کنیم، سپس با ایجاد یک ماتریس ویژگی و اعمال آن بر ماشین بولتزمن محدود و شبکه باور عمیقی که برای اعمال ورودی­های حقیقی تغییر پیدا کرده است و همچنین با تغییراتی که در الگوریتم خوشه­بندی k-means به­عنوان روش مکمل روش های یادگیری عمیق برای انتخاب جملات بااهمیت متن دادیم، باعث بهبود کیفیت و فرآیند انتخاب جملات و به طبع آن باعث تولید خلاصه‌های باکیفیت که دربرگیرنده جملات کلیدی و بیان‌کننده مفهوم اصلی سند متنی هستند، شدیم. در ارزیابی خلاصه­های تولیدی روش پیشنهادی‌ ‌ با خلاصه­های انسانی داده های متنی DUC2002 که با استفاده از معیار ارزیابی ROUGE صورت پذیرفت، روش پیشنهادی مبتنی بر شبکه باور عمیق و خوشه­بندی برای معیار ROUGE-1 به طور میانگین مقدار 51.83 درصد و برای معیار ارزیابی ROUGE-2 مقدار 24.02 درصد را به­دست آوردکه با توجه به پژوهش­های که در حوزه خلاصه­سازی متن با استفاده از روش­های یادگیری ماشین ویادگیری عمیق صورت گرفته است، خلاصه­های تولید شده با استفاده از رویکرد پیشنهادی در این پژوهش از کیفیت مناسبی برخوردار بوده و از روش­­های خلاصه­سازی متن مشابه عملکرد بهتری دارد. کلمات کلیدی : خلاصه‌سازی متن، یادگیری عمیق، یادگیری ماشین، خوشه‌بندی، ماشین بولتزمن محدود، شبکه باور عمیق.

ارتقاء امنیت وب با وف بومی