Skip to main content
SUPERVISOR
Naser Ghadiri modaress
ناصر قدیری مدرس (استاد راهنما)
 
STUDENT
Mahdi Samani
مهدی سامانی

FACULTY - DEPARTMENT

دانشکده مهندسی برق و کامپیوتر
DEGREE
Master of Science (MSc)
YEAR
1396

TITLE

Presenting a Framework for Scalable Similarity Evaluation in Text Graphs
Graphs and graph databases are applicable over a wide range of applications like text mining. Using graphs to represent relationships between entities has enriched the models. Natural language processing algorithms use graphs to model structural relationships of texts efficiently, resulting in improved performance. However, the need to increase the accuracy of graph construction and weight allocation remains an important challenge. Some existing methods reduce the efficiency and lack scalability for large graphs. In this study, we propose a novel graph-based method for text modeling and running a query to evaluate the similarity of text segments. In this method, the graph corresponding to the text is first created by modeling words and named entities by the state-of-the-are pre-trained BERT model. Graph nodes are then weighted in two stages. In the first stage the nodes with more generalization obtain higher weights. The second weighting stage is done by the graph obtained from the query text. In this weighting step, nodes are considered important if they are specifically related to the query text. After determining the important nodes in the graph, the semantic similarity between the query text and the texts in the database is measured. The whole process of this framework uses natural language processing pipeline in Apache Spark scalable platform. The efficiency of the model was evaluated for both distributed and non-distributed configuration, as well as its scalability by using a Spark cluster. Evaluation of the accuracy using the Pearson correlation coefficient show that the proposed method performs much more efficient than its competitors. Keywords Graph Database, Semantic Similarity, Selective Weight, Apache Spark, Unsupervised Learning, BERT, Distributed Algorithm
گراف و پایگاه داده‌های مبتنی بر گراف امروزه کاربردهای فراوانی در حوزه‌های مختلف از جمله متن‌کاوی دارند. استفاده از گراف برای نمایش روابط میان موجودیت‌ها باعث غنی‌تر شدن مدل‌ها شده است. الگوریتم‌های پردازش زبان طبیعی نیز با بهره‌گیری از گراف توانسته‌اند روابط ساختاری متن را بهتر مدل‌سازی و در نتیجه عملکرد بهتری داشته باشند. با این وجود همچنان نیاز به افزایش دقت در ساخت گراف و تخصیص وزن‌ها بعنوان چالشی مهم مطرح است. برخی روشهای ارائه شده در این زمینه نیز برای گراف‌های بزرگ دچار کاهش جدی کارآیی شده و مقیاس‌پذیری کمی دارند. در این پژوهش روشی برای مدل‌سازی متن توسط گراف به منظور انجام پرس‌وجو برای ارزیابی شباهت متون ارائه‌شده است. در این روش ابتدا گراف متناظر با متن با بهره‌گیری از مدل‌سازی کلمات و موجودیت‌های اسمی به وسیله‌ی مدل از پیش‌آموزش‌دیده‌ی BERT ایجاد می‌شود. سپس گره‌های گراف در دومرحله وزن‌دهی می‌شوند. در مرحله‌ی اول وزن‌دهی گره‌هایی که عمومیت بالایی دارند وزن بیشتری به دست خواهند آورد. اما مرحله‌ی دوم وزن‌دهی به وسیله‌ی گراف حاصل شده از متن پرس‌وجو انجام می‌شود. گره‌هایی در این مرحله وزن‌دهی با اهمیت تلقی می‌شوند که به صورت خاص منظوره با متن پرس‌وجو ارتباط نزدیکی داشته باشند. پس از تعیین گره‌های با اهمیت در گراف، شباهت معنایی میان متن پرس‌وجو و متون موجود در پایگاه داده سنجیده می‌شود. تمامی مراحل این چارچوب با بهره‌گیری از خط لوله‌های پردازش زبان طبیعی در بستر مقیاس‌پذیر اسپارک انجام شده است. کارایی مدل به صورت توزیع‌شده و غیرتوزیع‌شده و همچنین مقیاس‌پذیری آن با استفاده از خوشه‌ی اسپارک بررسی و ارزیابی شده استی. آزمایشات انجام شده برای ارزیابی دقت با روش ضریب همبستگی پیرسون، نشان‌دهنده‌ی عملکرد بهتر روش ارائه شده نسبت به سایر رقبای خود می‌باشد. کلمات کلیدی: 1-گراف 2- شباهت معنایی 3- وزن‌دهی انتخابی 4-آپاچی اسپارک 5-یادگیری بدون ناظر 6-BERT 7- الگوریتم توزیع‌شده

ارتقاء امنیت وب با وف بومی