Skip to main content
SUPERVISOR
Said Sadri,Shadrokh Samavi
سعید صدری (استاد مشاور) شادرخ سماوی (استاد راهنما)
 
STUDENT
Parvin Razzaghi
پروین رزاقی

FACULTY - DEPARTMENT

دانشکده مهندسی برق و کامپیوتر
DEGREE
Doctor of Philosophy (PhD)
YEAR
1389

TITLE

Corporation of High Level information in Scene Understanding
In this dissertation, scene understanding is investigated. The main goal in scene understanding is to build a machine such that it can perceive like human and understand the major parts of the image. Scene understanding includes two important tasks: object detection and semantic segmentation. It is shown that many state-of-the-art approaches in object detection and semantic segmentation focus on incorporating the high level information in an effective way. Hence, this dissertation concentrates on finding an effective way to incorporate high level information. To do this, we benefit from human thinking. Hence, high level information is extracted through explicit grouping of low-level information. In many previous research works, the high-level information is extracted implicitly such that it is discriminative in the entire dataset. Whereas, if it is obtained based on one image and then it is completed using other images, then we have better performance. Human does it in the same way. We investigated this idea in both object detection and in semantic segmentation. In the proposed object detection method, a set of discriminative parts are extracted for each object category through explicitly grouping of low-level features. In our approach, in the training phase, the object model is learned incrementally. In semantic segmentation, a new nonparametric approach is proposed which does not require a learning model. Also, regions in test image are grouped to form one semantically meaningful unit. All introduced nonparametric approaches are based on patch correspondence. Our proposed method does not require explicit patch matching which makes it relatively fast and effective. Also, the application of semantic segmentation in content-aware image retargeting is investigated. In image retargeting, each human based on his understanding of image, produces a different retargeted image. This is due to that different semantic kashida; TEXT-ALIGN: justify; TEXT-KASHIDA: 0%; MARGIN: 0cm 0cm 0pt; unicode-bidi: embed; DIRECTION: ltr" Key Words Scene understanding, high-level information, object detection, semantic segmentation, image retargeting.
در این رساله مسئله ی درک صحنه ی دو بعدی مورد بررسی و تحلیل قرار می گیرد. هدف اصلی در درک صحنه ساخت ماشینی است که قادر باشد همانند انسان ببیند و اصول کلی و موقعیت فعلی تصویر را دریابد. درک صحنه شامل کاربردهای فراوانی می باشد که از جمله ی آن ها می توان به موتور جستجوی تصاویر، راننده خودکار و تعامل انسان و ماشین نام برد. درک صحنه ی دو بعدی شامل دو هدف مهم شناسایی شی و بخش بندی معنایی تصویر می باشد. با بررسی روش های ارائه شده در شناسایی شی و بخش بندی معنایی تصویر، می توان به این نتیجه رسید که جهت اصلی تمامی روش های ارائه شده در سال های اخیر، دخالت دادن اطلاعات سطح بالا به صورت روشی صحیح و موثر می باشد. در این رساله، نحوه ی دخالت موثر اطلاعات سطح بالا در مسئله ی درک صحنه ی دو بعدی مورد بررسی قرار گرفته است. برای انجام این امر از نحوه ی تفکر انسان بهره گرفته شده است. به همین دلیل، اطلاعات سطح بالا از طریق گروه بندی کردن صریح اطلاعات سطح پایین به دست می آید. در اکثر کارهای ارائه شده برای دخالت اطلاعات سطح بالا در درک صحنه، استخراج اطلاعات به صورت ضمنی صورت پذیرفته است. در استخراج ضمنی، اطلاعات سطح بالا به گونه ای استخراج می شوند که در میان کل مجموعه داده ی آموزشی بتواند اطلاعات متمایزکننده ای را در اختیار قرار دهد. در حالیکه اگر گروه بندی اطلاعات در یک تصویر به طور جداگانه صورت بپذیرد و سپس با استفاده از مجموعه تصاویر دیگر اطلاعات به تدریج کامل گردد، نتایج بهتری در پی خواهد داشت. زیرا انسان نیز، با مشاهده تنها یک تصویر شالوده اصلی اطلاعات را در ذهن می سازد و با مشاهده تصاویر دیگر اطلاعات در ذهن کامل می گردد. ایده پیشنهادی در دو حوزه ی مهم درک صحنه ی دو بعدی، شناسایی شی و بخش بندی معنایی، مورد بررسی قرار گرفته است. در شناسایی شی با استفاده از ایده پیشنهادی، پاره هایی برای شی استخراج می گردد که بامعنا بوده و دارای اطلاعات متمایزکننده می باشد. برای استخراج پاره ها ویژگی های سطح پایین به صورت صریح در یک تصویر گروه بندی می گردند. سپس متناظر هر پاره در تصاویر آموزشی دیگر با استفاده از مدل ساختار ضمنی سلسله مراتبی پیشنهادی استخراج می گردد. روش به گونه ای طراحی شده است که تنها با استفاده از یک نمونه آموزشی نیز قادر به شناسایی می باشد. در حوزه ی بخش بندی معنایی، روشی غیرپارامتریک با استفاده از گروه بندی کردن صریح ناحیه ها پیشنهاد شده است که قادر است اطلاعات سطح شی و ساختار میان اشیا را برخلاف دیگر روش ها بدون استفاده از روش های شناسایی شی، دخالت دهد. همچنین روش پیشنهادی غیرپارامتریک ارائه شده، برای نخستین بار مسئله را بدون نیاز به تناظر وصله حل نموده است. همین امر موجب می گردد که روش پیشنهادی بسیار سریعتر از دیگر روش های ارائه شده در این حوزه باشد. روش پیشنهادی ارائه شده با استفاده از مدل های گرافیکی اطلاعات را از تصویر آموزشی به تصویر آزمایشی انتقال می دهد. سپس با استفاده از میدان تصادفی شرطی، اطلاعات به دست آمده از نمونه های آموزشی متفاوت را با یکدیگر جمع کرده و برچسب گذاری تصویر آزمایشی صورت می پذیرد. نتایج روش پیشنهادی ارائه شده در حضور داده های سرپرستی کامل و نیمه سرپرستی مورد بررسی و تحلیل قرار گرفته است. نتایج به دست آمده بیانگر موفقیت روش پیشنهادی می باشد. در انتها، کاربرد بخش بندی معنایی در حوزه ی تغییر اندازه ی تصویر براساس محتوا مورد بررسی قرار می گیرد. انتخاب حوزه ی کاربرد به گونه ای صورت پذیرفته است که در کاربرد مذکور، نیاز به درک کامل تصویر باشد. از طرفی، در کاربرد مذکور، خروجی مطلوب برای هر انسان متفاوت از انسان دیگر می باشد. زیرا هر انسانی براساس درک خود از تصویر، اولویت خاصی برای هر شی قائل می باشد. لذا براساس اولویت خود سعی می نماید که در تصویر تغییر اندازه داده شده، شی مورد نظر را در تصویر هدف حفظ نماید. کاربرد بخش بندی معنایی در حوزه ی تغییر اندازه ی تصویر به گونه ای طراحی شده است که قابلیت تطبیق با اولویت های متفاوت از دید انسان های مختلف را دارا باشد. روش پیشنهادی از طریق دو معیار مقایسه ی بصری و ارزیابی فردی مورد برررسی و تحلیل قرار گرفته است. نتایج حاصل بیانگر این موضوع است که روش پیشنهادی موفق عمل نموده است. کلمات کلیدی: 1- درک صحنه 2- شناسایی شی مبتنی بر پاره 3- بخش بندی معنایی غیرپارامتریک 4- تغییر اندازه ی تصویر براساس محتوا

ارتقاء امنیت وب با وف بومی