SUPERVISOR
Behzad Nazari,Said Sadri,Mohammad Reza Ahmadzadeh,Rasoul AmirFattahi
بهزاد نظری (استاد مشاور) سعید صدری (استاد مشاور) محمدرضا احمدزاده (استاد راهنما) رسول امیر فتاحی ورنوسفادرانی (استاد راهنما)
STUDENT
Seyyed sadegh Fadaei
سیدصادق فدائی
FACULTY - DEPARTMENT
دانشکده مهندسی برق و کامپیوتر
DEGREE
Doctor of Philosophy (PhD)
YEAR
1390
TITLE
New Color and Texture Features for Content-Based Image Retrieval
Today, various photography devices such as digital cameras, web cameras and mobile phones have caused the rapid growth in the number of digital images and consequently, voluminous digital image databases have been constructed. Therefore, saving, searching, organizing and management of digital databases have become significant and indispensable. Image retrieval is considered as an important searching subject in this field, and it is generally divided into two main groups: text-based image retrieval (TBIR) and content-based image retrieval (CBIR). TBIR was initially introduced for searching images in the 1970s. In this method, for description of each image, one or a number of words are allocated manually. Then, these words are used by a database management system to perform the image retrieval. TBIR is based on keywords, so its implementation is an easy task. However, TBIR methods have some disadvantages: first, it is hard or sometimes impossible to assign features for large databases manually and second, different individuals may never assign the same words to an image. To solve the problems of TBIR methods, Kato first introduced CBIR in 1992. The main difference between TBIR and CBIR methods is that in TBIR, human interference is necessary while in CBIR, retrieval process is done automatically. Color, texture and shape are the typical image features that represent and index an image in CBIR systems. In CBIR, each image is represented by a feature vector and then all the images in the database are indexed using a similarity measure. Finally, the images with minimum distance (maximum similarity) are retrived. Feature extraction and feature matching are very important in CBIR. A feature vector with higher information leads to better precision in retrieval. On the other hand, an appropriate similarity measure can be very effective in CBIR. Many different studies have been conducted to extract color features. Dominant Color Descriptor (DCD) is of particular importance because of its simplicity and compactness. In this research, new DCD features are proposed as well as a new similarity measure based on Euclidean distance. On the other hand, the multi-resolution analyses, such as wavelet and curvelet transforms, are the most significant methods for the extracting of the efficient texture features in CBIR. So, the features based on the wavelet and curvelet are improved in this research. Finally, a new CBIR system based on optimized integration of DCD, wavelet and curvelet is proposed using Particle Swarm Optimization (PSO) algorithm. The proposed CBIR system has outperformed the prior methods by 4% in terms of average precision. Texture is one of the most important features of an image which has a high potential to discriminate the images from each other. Since different definitions for texture is done several methods have been introduced to extract it. Among them, local features are very important and have been used in many applications such as face recognition. LBP, LTP, LDP, LTrP and LVP methods extract local textures from the image. In general, LBP, LTP, LDP, LTrP and LVP are based on gray-level difference of the referenced pixel and its nearest neighbors. On the other hand, these patterns are defined based on various combinations of gray-level difference of pixels located in a square or circle. Since many of the natural textures can be shown by the relationship of pixels intensities along a line, these methods have limited ability to represent the texture information. Besides, the difference between the referenced pixel and its adjacent pixels is encoded with two, three or four values in the aforementioned methods, and this may lead to losing much of the image information. Therefore, more image information will be preserved if multi-level coding is used instead of binary coding. In this research, we propose the Local Derivative Radial Patterns (LDRP) to obviate the previous patterns drawbacks. LDRP is based on gray-level difference of pixels along a line and their weighted combinations. Therefore, these patterns are descriptors for extracting meaningful texture information from the image. In addition, multi-level coding in different directions is used instead of binary coding which leads to higher precision in image retrieval. Experimental results on Brodatz and Vistex databases show that proposed LDRP outperforms the prior methods by at least 3.5% in terms of average precision.
امروزه دوربین های دیجیتال، دوربین های وب، گوشی های موبایل و سایر دستگاه های عکس برداری باعث افزایش چشمگیر تعداد تصاویر دیجیتال شده و به دنبال آن پایگاه های داده ی دیجیتال بسیار حجیم با تعداد عکس فراوان ایجاد شده اند. بنابراین ذخیره سازی، جستجو، سازمان دهی و مدیریت پایگاه های داده ی تصاویر دیجیتال امری بسیار مهم و ضروری است. بازیابی تصویر یک موضوع بسیار مهم تحقیقاتی در این زمینه است که کاربردهای مختلفی ازجمله کنترل از راه دور، جلوگیری از جرم، انتشارات، پزشکی، معماری و غیره دارد. بهطور کلی روش های بازیابی تصویر را می توان به دو گروه اصلی تقسیم بندی نمود: بازیابی تصویر مبتنی بر متن و مبتنی بر محتوا. در روش های مبتنی بر متن، برای توصیف هر تصویر یک یا چند کلمه اختصاص داده می شود که این کار به صورت دستی انجام می گیرد. سپس این کلمات توسط یک سیستم مدیریت پایگاه داده برای انجام بازیابی تصویر استفاده می شوند. با توجه به دشوار بودن اختصاص ویژگی به صورت دستی مخصوصاً برای پایگاه های داده ی بزرگ، روش مبتنی بر محتوی ارائه شد. روش مبتنی بر محتوا بازیابی تصویر را به کمک استخراج خودکار ویژگی ها انجام می دهد که این ویژگی ها اغلب از سه نوع رنگ، شکل و بافت هستند. در روش بازیابی تصویر مبتنی بر محتوا هر تصویر با یک بردار ویژگی توصیف می شود و به کمک همین بردار تصاویر شاخص بندی شده و میزان شباهت آنها با تصویر پرس و جو به دست می آید. تصاویری که دارای بیشترین شباهت به تصویر پرس و جو هستند به عنوان تصاویر مرتبط با تصویر پرس و جو انتخاب می شوند. به طور کلی در بازیابی تصویر مبتنی بر محتوا دو عامل بسیار مؤثر است: یکی استخراج ویژگی و دیگری انطباق ویژگی. هر چه ویژگی استخراجشده حاوی اطلاعات بیشتری از تصویر باشد در بازیابی مؤثرتر است. از طرفی طراحی یک مکانیزم انطباق ویژگی مناسب می تواند تأثیر بسزایی در دقت بازیابی تصویر می شود. یکی از مسائل مهم در بازیابی تصویر مبتنی بر محتوا نحوه ی توصیف تصویر با استفاده از ویژگیهای سطح پایین استخراجشده از رنگ و شکل و بافت پیکسل ها است. تاکنون در تحقیقات مختلف ویژگیهای زیادی در این زمینه معرفی شدهاند. ویژگی های رنگ از جمله ویژگی هایی هستند که در اکثر تحقیقات انجام شده در سیستم های بازیابی مبتنی بر محتوی مورد استفاده قرار گرفته اند و از بین این ویژگی ها، DCD از اهمیت ویژه ای برخوردار است زیرا یک توصیف فشرده از تصویر ارائه می دهد. در این تحقیق یک مجموعه ویژگی های جدید بر مبنای DCD ارائه شده و با تعریف یک معیار شباهت جدید برای DCD دقت بازیابی افزایش داده شده است. از سوی دیگر، ماهیت آنالیز چند دقتی روش های تبدیل موجک و کرولت باعث شده که این تبدیل ها در کاربردهای مختلف مورد توجه زیادی قرار گیرند. این تبدیل ها توانایی بالایی در تحلیل رفتار کوتاهمدت و درازمدت یک پدیده دارند و دارای قدرت تمرکز بسیار بالایی در حوزه های زمان و فرکانس بوده و در نتیجه اطلاعات محلی سیگنال را با دقت بالایی استخراج می نمایند. با توجه به مزایای روش های تبدیل موجک و کرولت، در اینجا از این تبدیلات استفاده شده و ویژگی های مبتنی بر آنها بهبود داده شده اند. در نهایت با ترکیب بهینه ی ویژگی های بهبود داده شده، یک سیستم CBIR ارائه نموده ایم که دقت آن نسبت به روش های مشابه قبلی حدود 4 درصد افزایش یافته است. از طرفی، بافت یکی از ویژگی های مهم تصویر بوده که پتانسیل بالایی در استخراج اطلاعات مهم تصویر دارد بهگونهای که این ویژگی ها می توانند در متمایز کردن تصاویر از یکدیگر بسیار کارا باشند. از آنجایی که تعریف های مختلفی برای بافت انجام شده روش های متعددی نیز برای استخراج ویژگی های آن ارائه شده است. از بین آنها روش های مبتنی بر خصوصیات محلی بافت بسیار معروف بوده و در کاربردهای زیادی مانند تشخیص چهره استفاده شده اند. روش های LBP، LTP، LDP، LTrP و LVP از جمله ی این روش ها هستند که به استخراج ویژگی های محلی بافت می پردازند. در این تحقیق با بررسی نقاط ضعف و قوت روش های مذکور به معرفی یک روش جدید بر اساس الگوهای محلی شعاعی مبتنی بر مشتق پرداخته و آن را LDRP نامیده ایم. روش های قبل، الگوهای محلی مربوط به پیکسل های همسایه ی پیکسل مرکزی را استخراج می کنند در حالی که روش پیشنهادی الگوهای محلی شعاعی (مربوط به پیکسل های همسایه ی در راستای یک خط) را در نظر می گیرد. نتایج شبیه سازی روی پایگاه های داده ی مختلف نشان می دهند که دقت روش پیشنهادی نسبت به روش های قبل حداقل حدود 5/3 درصد افزایش داشته است.