Skip to main content
SUPERVISOR
Mohammad Ali Montazeri,Maryam Zekri
محمدعلی منتظری (استاد راهنما) مریم ذکری (استاد مشاور)
 
STUDENT
Narges Katirae
نرگس کتیرائی

FACULTY - DEPARTMENT

دانشکده مهندسی برق و کامپیوتر
DEGREE
Master of Science (MSc)
YEAR
1389

TITLE

Plagiarism Detection in Text
With the fast growth of computer documents and the expanding internet access to ideas, articles, and other technical documents are much easier and more convenient.. This resulted in the rapid exchange of the information, and a vast growth of plagiarism. .Since in universities and other educational establishments, scientific resources are more easily accessible to users, therefore plagiarism is in use by some users. Based on the importance of this issue and the copy right law to protect the individuals, writers and scholar from the fraud use of other people research results, a lot of research has been done on the subject of plagiarism, in recent years. As a result, the researchers have found ways to detect plagiarism in texts such as dissertations, papers and other scientific reports. And these efforts have directed the researchers to increase the accuracy and efficiency of these methods. There are two important and controversial issues in the detection of plagiarism. The first issue is the number of texts that are compared. The number of texts are sometimes very high which could be more than a few thousand text to be compared. Therefore, the first step is to find texts that are more likely to be suspicious text. One way of reducing the number of comparisons, is to justify; TEXT-INDENT: 14.2pt; MARGIN: 0cm 0cm 0pt; mso-line-height-alt: .7pt; tab-stops: 10.0cm 18.0cm" In this thesis, a two-phase approach, is used which consists of several steps in order to detect plagiarism. In the first phase, a neural network justify; TEXT-INDENT: 14.2pt; MARGIN: 0cm 0cm 0pt; mso-line-height-alt: .7pt; tab-stops: 10.0cm 18.0cm" In this research the method proposed to detect fraud and fraud in the context of their verbatim or with low ambiguity is presented. To compare this work to related research ,the work is carried out in two phases. In the first phase, proposed justify; MARGIN: 0cm 0cm 0pt; mso-line-height-alt: .7pt; tab-stops: 10.0cm 18.0cm" Keywords justify; TEXT-INDENT: 14.2pt; MARGIN: 0cm 0cm 0pt; mso-line-height-alt: .9pt; mso-layout-grid-align: none"
با ظهور کامپیوتر و گسترش روز افزون اینترنت، دسترسی به ایده ها، مقالات، مستندات و دست نوشته های دیگران آسان تر گردیده است. این امر موجب تبادل سریع اطلاعات و در مقابل، سبب آسان‌تر شدن سرقت ادبی یا Plagiarism شده است. از آنجا که در دانشگاه ها و سایر مراکز آموزشی، منابع علمی با سهولت بیشتری در دسترس کاربران قرار می گیرند، موضوع سرقت ادبی در این مراکز پررنگ تر و بالطبع از حساسیت بیشتری نیز برخوردار است. با توجه به این موضوع و نیز اهمیت رعایت حقوق افراد، از جمله نویسندگان و محققان، در سال‌های اخیر، پژوهشگران تحقیقاتی را جهت ارائه‌ی روش هایی برای کشف سرقت ادبی یا Plagiarism Detection، در متونی مانند پایان نامه ها، مقالات و سایر گزارشات علمی، آغاز و در ادامه تلاش خود را به سمت افزایش دقت روش ها معطوف داشته اند. دو مسئله در مراحل کشف سرقت ادبی مهم و مورد بحث است. اولین مسئله تعداد متونی است که مورد مقایسه قرار می گیرند. این متون گاهی بسیار زیاد و به چند هزار می رسد. بنابراین اولین گام، یافتن متون اصلی ایی است که احتمال تقلبِ متن مشکوک از آن ها بیشتر است. یکی از راه کارهای مطرح در کاهش تعداد مقایسه ها، طبقه بندی متون است. زیرا به طور طبیعی افراد از متون هم موضوع با کار خود استفاده می نمایند. مسئله‌ی دوم در کشف سرقت ادبی، مکان یابی دقیق عبارت های سرقت شده می باشد. در همین راستا در این پایان نامه، یک روش دو فازی، که هر کدام شامل چند مرحله می باشد، جهت تشخیص سرقت ادبی پیشنهاد گردیده است. در فاز اول، یک طبقه‌بند شبکه‌ی عصبی برای طبقه‌بندی متون تک برچسبه ارائه شده است. این طبقه‌بند از قاعده‌ی رقابتی و تصحیح خطا و یک دنباله ی هندسی برای تصحیح اوزان بین کلمات و موضوعات استفاده می کند. با این طبقه‌بند، از آنجا که هر متن مشکوک تنها با متون هم طبقه خود مقایسه می شود، تعداد مقایسه های متن مشکوک و متون اصلی کاهش می یابد. در فاز دوم، پس از پیش‌پردازش متون، در ابتدا به دلیل زیاد بودن احتمالی متون اصلی مربوط به طبقه‌ی متن مشکوک، تعدادی ازآن‌‌ها، که به متن مشکوک شبیه‌تر هستند، یافت می‌شود. در مرحله‌ی دوم، با استفاده از جملات و کلمات کلیدی مشابه در هر جفت جمله‌ی مربوط به متن مشکوک و اصلی، فرمولی برای یافتن درصد شباهت دو جمله، ارائه می‌شود. در مرحله‌ی سوم، با استفاده از یک حد آستانه و توالی جملات مشابه، مکان عبارات تقلب شده در دو متن، یافت می‌شود. در مرحله‌ی آخر، به دلیل وجود برخی از خطاهای احتمالی و هچنین گسسته یافت شدن برخی از عبارات، یک الگوریتم پس‌پردازش سه مرحله‌ای بر روی عبارات کشف شده، اعمال می‌شود. روش پیشنهادی در این پایان نامه، برای کشف تقلب، در متونی که نوع تقلب آن‌ها کلمه به کلمه و یا با ابهام کم می‌باشد، ارائه شده است. مقایسه‌ی این روش با کارهای انجام شده نیز در دو فاز انجام شده است. طبقه‌بند ارائه شده، نسبت به روش نزدیکترین همسایه، دقت بسیار بهتری دارد. این طبقه‌بند، در زمانی که تعداد موضوعات زیاد است، نتایج بهتری را نسبت به روش بیز ساده نشان می‌دهد، اما نسبت به ماشین بردار پشتیبان ضعیف عمل می‌کند. مقایسه‌ی فاز دوم، با چهار نفر برتر مسابقه‌ی کشف سرقت ادبی PAN10، نشان می‌دهد که این الگوریتم در مورد تشخیص تقلب‌های کلمه به کلمه خوب عمل می‌کند و بعد از نفر اول نسبت به دیگران نتیجه بهتری دارد. در تقلب با ابهام کم، درصد فراخوانی این الگوریتم، نسبت به هر چهار نفر بهتر بوده، اما نیاز به کار بیشتر برای شناسایی یکسره‌ی عبارات و بهبود دقت دارد. واژه‌های کلیدی طبقه‌بندی تک برچسبه‌ی متن، شبکه‌ی عصبی، سرقت ادبی، تقلب کلمه به کلمه، تقلب با ابهام کم

ارتقاء امنیت وب با وف بومی