Skip to main content
SUPERVISOR
Shadrokh Samavi,Nader Karimi
شادرخ سماوی (استاد راهنما) نادر کریمی (استاد راهنما)
 
STUDENT
Hoda Mohaghegh
هدا محقق

FACULTY - DEPARTMENT

دانشکده مهندسی برق و کامپیوتر
DEGREE
Master of Science (MSc)
YEAR
1392

TITLE

Single Image Depth Estimation
Estimating depth is a crucial component in computer vision tasks, enabling many further applications such as robot vision, 3D modeling and above all, 2D to 3D image/video conversion. Since there are an infinite number of possible world scenes that can produce a unique image, without any prior information about scene, single image depth estimation is a highly challenging task. Humans, however, thanks to the data and knowledge they accumulated over years, can perceive depth from a monocular image with no difficulty. This suggests that using monocular depth cues in simulating human visual system for depth perception, should make single image depth estimation, an achievable goal. This observation has been the motivation for several recent approaches called data-driven approaches, which exploit the relationships between depth and these cues from a pool of images for which the depth is known. It is obvious that for solving such an ambiguous problem with a large source of uncertainty, it is not enough to have only local or global perspective for the precise single image depth estimation. To this end, in this thesis, considering a number of robust and effective depth related features, we introduce a patch-based framework which jointly benefit from local and global structures of a scene. We formulate monocular depth estimation as a similar image patches retrieval method and a single level and multi-level learning models as well. Our experimental results demonstrate that our depth estimation models are more accurate than existing methods on a standard dataset. Keywords: Depth estimation, 2D to 3D image/video conversion, Monocular depth perception cues, Data-driven approaches, Multi-level learning model
تخمین عمق صحنه از روی یک تصویر، یک مساله‌ی پایه در حوزه‌ی بینایی کامپیوتر است که دارای محدوده‌ی وسیعی از کاربردها شامل بینایی ربات‌ها، ادراک و بازسازی سه‌بعدی صحنه و از همه مهم‌تر تبدیل تصاویر و ویدئوهای دوبعدی به سه‌بعدی می‌باشد. از آن‌جا که بی‌شمار صحنه‌ی حقیقی قادر به تولید یک تصویر دوبعدی می‌باشند، بدون داشتن اطلاعات پیشین راجع به صحنه، تخمین عمق آن از روی تنها یک تصویر، مساله‌ای به‌شدت چالش‌برانگیز به‌شمار می‌آید. انسان اما، به لطف دانش و اطلاعاتی که در طول سالیان در زمینه‌ی رابطه‌ی صحنه‌های گوناگون و عمق متناظرشان، کسب کرده‌است، با بهره‌گیری از علائم ادراک عمق تک‌چشمی، به‌راحتی قادر به تشخیص و درک ساختار سه‌بعدی صحنه در حضور تنها یک تصویر دوبعدی، می‌باشد. این واقعیت محققین را بر آن داشته تا با کشف این علائم و به‌کارگیری موثر آن‌ها چیزی شبیه آن‌چه در سیستم بینایی انسان برای ادراک عمق رخ می‌دهد، را شبیه‌سازی نمایند. دسته‌ی بزرگی از روش‌های ارائه‌شده برای حل این مساله، تحت عنوان روش‌های داده‌محور، درصدد یافتن این علائم و مدل‌سازی روابط میان تصویر و عمق متناظرش با تکیه بر اطلاعات جانبی هم‌چون پایگاه‌داده‌های شامل تصاویر و نقشه‌های عمق نظیرشان، می‌باشند. واضح است که برای حل مساله‌ای با این درجه از ابهام، داشتن تنها یک دیدگاه سراسری و یا محلی، برای تخمین دقیق نقشه‌ی عمق یک تصویر، کفایت نمی‌کند. پیرو همین موضوع، در پایان‌نامه‌ی پیش‌رو با معرفی نشانه‌های ادراک عمق تک‌چشمی و به‌کارگیری ویژگی‌های محلی موثر برای توصیف آن‌ها، کوشش‌شده تا ضمن درنظرگرفتن ساختار کلی تصاویر، در یک چهارچوب مبتنی بر وصله‌های تشکیل‌دهنده‌ی تصویر، از اطلاعات محلی مرتبط با عمق تصاویر نیز بهره‌ برده‌شود. این بهره‌گیری یک بار در قالب روشی مبتنی بر بازیابی وصله‌های مشابه به وصله‌ی ورودی و بار دیگر در قالب دو روش مبتنی بر مدل یادگیری تک سطحی و چندسطحی صورت گرفته‌است. مقایسه‌های به‌دست‌آمده از نتایج روش‌های پیشنهادی و روش‌های موجود بر روی یک پایگاه‌داده‌ی استاندارد در این حوزه، حاکی از عملکرد دقیق‌تر سیستم پیشنهادی ما نسبت به دیگر روش‌ها بر اساس معیارهای کمی و کیفی می‌باشد. کلمات کلیدی: 1- تخمین عمق 2- تبدیل تصاویر دوبعدی به سه‌بعدی 3- علائم ادراک عمق تک‌چشمی 4- روش‌های داده‌محور 5- مدل یادگیری چندسطحی

ارتقاء امنیت وب با وف بومی