Skip to main content
SUPERVISOR
Behzad Nazari,Said Sadri
بهزاد نظری (استاد راهنما) سعید صدری (استاد راهنما)
 
STUDENT
Navid Ziaei
نوید ضیائی

FACULTY - DEPARTMENT

دانشکده مهندسی برق و کامپیوتر
DEGREE
Master of Science (MSc)
YEAR
1395

TITLE

Salient Object Detection using Deep Learning Methods
One of the most active fields in Image processing and machine vision is saliency detection. While Human beings can easily perceive the distinction between parts of an image and concentrate on a specific part of it, this is a hard and complicated task for computers. Considering saliency as a psychological phenomenon, this issue was firstly studied by researchers in cognitive science and psychology. But nowadays, this subject has attracted interest in computational sciences such as machine learning. The reason of this interest is its application in such domains as object detection, image compression and target detecting and tracking. One of the saliency detection areas is salient object detection. The purpose of salient object detection is to determine and segment the first meaningful object, at first glance, by majority of people. At first, researches used basic features such as color, light intensity, color contrast, and other low-level features in their In this research, the theoretical and basic foundations for salient object detection is studied Then, the relevant databases and evaluation criteria of them have been investigated. In this research, we chose UNet as the basic architecture for salient object detection. It was shown that this architecture has some shortcomings in salient object detection. Thus, we developed four new architectures. In the first network, we increased the convergence and trainability of the network by adding residual blocks and batch norm layers. In the second network, in order to improve the up-sampling procedure and increase the accuracy of segmentation, we used new blocks composed of traosed convolution and cubic spline up sampling. On the third architecture, we used multiscale feature by adding Inception-ResNet blocks with pre-trained weights in each step of encoder path. In the final proposed architecture, the Atreus spatial pyramid pooling was added in the last layer of the encoder to use global features as well as local features. The final model showed its superiority to other models in most of the evaluation criteria. Key Words: Saliency, Salient Object Detection, Deep Learning, Convolutional Neural Network
یکی از فعال‌ترین زمینه‌های تحقیقاتی در پردازش تصویر و بینایی‌ماشین، مبحث تشخیص برجستگی در تصاویر است. انسان‌ها تمایز بین اشیاء در تصاویر را به‌سادگی درک می‌کنند و به‌سرعت توجه آن‌ها به یک شئ یا ناحیه‌ جسم‌برجسته در تصویر جلب می‌شود؛ اما این امر، یعنی تشخیص برجستگی، برای کامپیوترها یک مسئله‌ی دشوار و پیچیده است. با توجه به این‌که برجستگی یک مفهوم انتزاعی است، این مسئله در ابتدا مورد توجه محققان علوم شناختی و روانشناسی قرار گرفت. اما امروزه توجه پژوهشگران، در زمینه‌های مختلف علوم محاسباتی مانند یادگیری‌ماشین را نیز به خود جلب کرده‌است. آنچه باعث علاقه‌مندی به این زمینه شده‌است، کاربرد‌های بسیار آن در زمینه‌های مختلف مانند تشخیص اشیاء، فشرده‌سازی تصاویر و تشخیص و تعقیب اهداف است. یکی از زیرمجموعه‌های تشخیص برجستگی، تشخیص جسم‌برجسته است. هدف مدل‌های تشخیص جسم‌برجسته، انتخاب و بخش‌بندی اولین جسم معنادار در تصویر است که توجه اکثریت را به خود جلب می‌کند. در ابتدا، تحقیقات این زمینه حول روش‌های پایه مانند رنگ، شدت روشنایی، تباین رنگی و دیگر ویژگی‌های سطح پایین در پردازش تصویر، انجام می‌شد. اما استفاده از این روش‌ها برای بسیاری از تصاویر پیچیده و شلوغ نتایج مناسبی به‌دنبال نداشت. بنابراین، تمایل به استفاده از ویژگی‌های سطح بالاتر افزایش یافت و استفاده از الگوریتم‌های یادگیری عمیق در این زمینه بسیار مورد توجه قرار گرفت. یکی از محبوب‌ترین ساختارهای مورد استفاده در پردازش تصویر، شبکه‌های عصبی پیچشی یا CNN است. توانایی CNN‌ در استخراج ویژگی‌ها و تشخیص الگو‌های پیچیده باعث پیشرفت در زمینه‌ی تشخیص ‌جسم‌برجسته در تصاویر شده‌است. در تحقیق پیش‌رو، مبانی نظری و اولیه در تشخیص جسم‌برجسته مورد بررسی قرار گرفته‌است. سپس پایگاه‌‌های داده‌ی رایج تشخیص جسم‌برجسته و معیار‌های ارزیابی مدل‌های تشخیص جسم‌برجسته معرفی شده‌است. ‌در این پایان‌نامه، مدل اولیه برای تشخیص جسم‌برجسته بر‌اساس معماری UNet ارائه‌شده‌است. با بررسی نقاط ضعف این شبکه در تشخیص جسم‌برجسته، آن را توسعه دادیم. در فرایند توسعه‌ی شبکه‌ی UNet، چهار شبکه‌ی جدید ارائه شدند. در شبکه ی اول با افزودن بلوک‌های مانده‌ای و هنجار‌ساز دسته، همگرایی و آموزش پذیری شبکه افزایش داده‌شده‌است. در شبکه‌ی دوم برای بهبود افزایش نرخ نمونه‌برداری و در نتیجه افزایش دقت در بخش‌بندی، بلوک‌هایی متشکل از پیچش ترانهاده و افزایش نرخ نمونه‌برداری اسپلاین مربعی استفاده شده‌است. در شبکه‌ی سوم با افزودن بلوک‌های Inception-ResNet با وزن‌های از پیش آموزش داده‌شده در کدکننده، خاصیت چندمقیاسی بودن به شبکه اضافه شده‌است. در شبکه‌ی پیشنهادی نهایی نیز از هرم ادغام فضایی گسترش‌یافته برای در نظر گرفته‌شدن ویژگی‌های کلی در کنار ویژگی‌های محلی استفاده شده‌است. نتایج حاصل از مدل نهایی در بیشتر معیار‌ها، برتری این روش را نسبت به سایر روش‌ها نشان می‌دهد. این مدل بر‌اساس معیار سنجش F برای پایگاه‌داده‌ی DUT-OMRON به مقدار 813/0 دست پیدا کرده‌است که نسبت به بهترین روش گزارش‌شده، حدود 0.8 برتری دارد؛ همچنین بر‌اساس همین معیار برای پایگاه‌های داده‌ی ECSSD، PASCAL-S و HKU-IS جزء سه روش برتر ارائه‌شده در زمینه‌ی تشخیص جسم‌برجسته تا این زمان است. کلمات کلیدی: 1- تشخیص برجستگی، 2- جسم‌برجسته، 3- شبکه‌های عصبی پیچشی، 4-یادگیری عمیق.

ارتقاء امنیت وب با وف بومی