Skip to main content
SUPERVISOR
مهران صفایانی (استاد راهنما) عبدالرضا میرزایی دمابی (استاد مشاور)
 
STUDENT
Sayedshayan Hashemi Hosseinabad
سیدشایان هاشمی حسین آباد

FACULTY - DEPARTMENT

دانشکده مهندسی برق و کامپیوتر
DEGREE
Master of Science (MSc)
YEAR
1395
With the advent of deeplearning, multi-modal data has been of great interest. One of the multi-modaltasks which can be included in the computer vision domain is visual questionanswering (VQA). In this task, a question and an image are entered into the modeland the model tries to answer the question according to the image afterprocessing both entries. To best of our knowledge, the current techniques lookat the image and only give one answer to the question. However, in somesituations, there are several answers to the asked question. In this thesis, weaddress this problem and define a new domain in the task of VQA in which themodel is able to extract all answers given a question and an image. We proposetwo way of addressing the problem as well as a new computationally efficientapproach to cope with multiple answer VQA. Due to the fact that so far noproper dataset is available for this task, we provide a new dataset as well.The experiments express that our model decreased the number of operations by 94percent. Visual question answering, Deep Learning, Convolution Neural Network, Multiple an- swers, Recurrent Neural Network, Multi-modal Data
با توسعه یادگیری عمیق در سالهای اخیر، داده‌های چند صورتهمورد توجه بسیاری قرار گرفته‌اند. یکی از کاربردهایاین که در مجموعه بینایی ماشین قرار می­گیرد، کاربرد پاسخ­گویی به پرسشهای بصری است. در این کاربرد، یک پرسش به همراه یک تصویر به مدل وارد شده و مدل با پردازش این دو اقدام به پاسخ­دهی به پرسش باتوجه به تصویر می­کند. تا زمان انجاماین پایان‌نامه و پژوهش‌هایی که ما انجام دادیم، تمامی مدل‌ها تنها یک پاسخ به عنوان خروجی انتخاب می­کنند حتی اگر چندین پاسخ برای یک پرسش در تصویر وجود داشته باشد. در این پایان‌نامه ما قصد تعریف حوزه جدیدی درپاسخ­دهی به پرسش‌های بصری راداریم که مدل با دریافت یک پرسش و یک تصویر قادر بهاستخراج تمام پاسخ­های ممکن باشد. در این پایان‌نامه دو روشبرای حل این مسئله به همراه مدلی کارا برای کاهش حجم محاسبات معرفی خواهیم کرد. با توجه به این که در این حوزهمجموعه دادهای مناسب وجود ندارد، مجموعه دادهای جدید نیز در این پژوهش ارائه می­کنیم. در سنجش هایانجام شده نشان داده می­شود که مدل ما تا 9? درصد میزان محاسبات را کاهش می­دهد. پاس??ده?? به پرسشهای بصری، یادگیری عمیق، شب??ه های عصبی پیچش??، چند پاسخ??، شب??ههای عصبی بازگشت??، دادههایچند صورته

ارتقاء امنیت وب با وف بومی