Skip to main content
SUPERVISOR
Seyed MohammadAli Khosravifard
سیدمحمدعلی خسروی فرد (استاد راهنما)
 
STUDENT
Zahra Sadat Ghoreyshi
زهراسادات قریشی

FACULTY - DEPARTMENT

دانشکده مهندسی برق و کامپیوتر
DEGREE
Master of Science (MSc)
YEAR
1396

TITLE

Application of Convolutional Sparse Coding in Deep Image Representation
While Convolutional Neural Networks (CNN) have proven their competence in various signal and image processing tasks, the theory of CNN in the forward pass is still lacking. In parallel, recent advances in sparse coding have attracted much attention to Convolutional Sparse Coding (CSC). Providing a global sparse model, CSC can overcome several limitations of the patch-based sparse model. ML-CSC is emerged from the cascade of CSC layers, demonstrating the close connection between CNN forward pass and sparse coding. This connection brings a fresh view to CNN under simple local sparsity conditions. This study proposes a new structure of ML-CSC network, along with a new adaptive approach to design a global structural dictionary. This approach uses a multi-dictionary learning model, and the dictionary optimization algorithm learns in wavelet sub-bands. This algorithm improves the adaptation and complexity of atoms in the trained set of dictionaries compared to the single-dictionary structure. Furthermore, because the pooling operation loses some location information, we propose a structure for deep network without using the pooling layer, and demonstrate the advantage of the proposed algorithm for image denoising in terms of performance and convergence. Key words: Sparse Coding, Dictionary learning, Wavelet, Deep Convolutional Neural Network.
بسیاری از پیشرفت‌های بدست آمده در حوزه‌ی پردازش تصویر در چند دهه‌ی گذشته را می‌توان نتیجه ظهور شبکه‌های عصبی عمیق دانست. یکی از محبوب‌ترین شبکه‌های عصبی عمیق مورد استفاده در پردازش تصویر، شبکه‌های عصبی کانولوشنی (CNN) است. این شبکه‌ها به طور گسترده‌ای برای حل مسائل یادگیری در زمینه‌های گوناگون مورد استفاده قرار گرفته‌اند. در این شبکه‌ها با استفاده از داده‌های موجود، رابطه‌ای بین ورودی و خروجی را آموزش می‌بیند. با وجود پیشرفت‌های صورت گرفته توسط شبکه‌های عصبی کانولوشنی، این مدل هنوز دارای نقاط ضعفی در ساختار خود است. مهم‌ترین ایراد وارده به این شبکه‌ها عدم وجود فهم دقیق مسیر پیشرو می‌باشد که تاکنون امکان‌پذیر نبوده است. از طرف دیگر، پردازش و تحلیل سیگنال‌ها به کمک مدل‌های بازنمایی تُنُک و افزونه به عنوان یک مدل قوی و کارامد، در سال‌های اخیر بسیار مورد توجه محققان قرار گرفته است. ارائه‌ی توصیفی ساده برحسب ترکیب خطی تعداد کمی از المان‌های مجموعه‌ای به نام "دیکشنری" متشکل از سیگنال‌های پایه، ایده‌ی اصلی این مدل می‌باشد. در این چارچوب، محققان یک راهبرد استفاده از مدل بازنمایی تُنُک در شبکه‌های عصبی عمیق را ارائه نموده‌اند که نتایج بسیار موفقی را در طیف وسیعی از کاربردها داشته است. به همین منظور در این تحقیق، در ابتدا مدل بازنمایی تُنُک و افزونه‌ی سیگنال‌ها را مورد بررسی قرار داده و در راستای این هدف، بهبود مدل بازنمایی تُنُک را از جنبه‌ی وفق‌پذیری بیشتر دیکشنری‌های یادگیری شده، مدنظر قرار داده و راه حل‌هایی را بررسی می‌نماییم. پس به مساله‌ی یادگیری عمیق مبتنی بر کدگذاری تُنُک پرداخته و مدل جدیدی مجهز به مجموعه‌ای از دیکشنری‌های وفق‌پذیرتر جهت ساخت دیکشنری‌های ساخت‌یافته در این شبکه‌ها، برای بهبود کارایی شبکه‌های عمیق مبتنی بر کدگذاری تُنُک مطرح می‌کنیم. این مدل بدون استفاده از لایه‌ی ادغام، منجر به بهبود کارایی شبکه وافزایش دقت بازنمایی‌های تُنُک می‌شود. واژه های کلیدی : 1- بازنمایی تُنُک و افزونه، 2- یادگیری دیکشنری، 3- تبدیل موجک، 4- شبکه‌های عصبی کانولوشنی.

ارتقاء امنیت وب با وف بومی