طراحی و پیاده‌سازی سخت افزاری یک سیستم بازشناسی گفتار فارسی برای تشخیص اعداد

STUDENT

DEGREE

YEAR

Nowadays, Speech recognition systems (SRS) and voice user interfaces are an integrated part of many equipment and instruments with a diverse range of applications such as personal cell phones, automobiles and military aircrafts. Despite the rapid development of speech recognition systems, there still exist challenges regarding the accuracy and speed of these systems. Isolated word recognition (IWR) is a major sub kashida; TEXT-ALIGN: justify; TEXT-KASHIDA: 0%; TEXT-INDENT: 0in; MARGIN: 0in 0in 0pt; unicode-bidi: embed; DIRECTION: ltr" dir=ltr Keyword : Isolated word Recognition, consonant, vector quantization, hardware implementation

امروزه جایگاه ویژه‌ای که واسط‌های کاربری صوتی و سیستم‌های بازشناسی گفتار در علوم نظامی، علوم پزشکی، سیستم های اتومبیل ها و آموزش پیدا کرده‌اند، توجه طراحان را برای بهبود این سیستم‌ها به خود جلب کرده است. دستیابی به عملکرد قابل قبول در این سیستم ها از نظر دقت در تشخیص و سرعت چالش اصلی طراحان آن ها می‌باشد. از مهمترین زمینه های بازشناسی گفتار، تشخیص کلمات مجزا می باشد. در بین کلمات تعریف شده در پایگاه واژگان سیستم های تشخیص کلمات مجزا، اعداد از اهمیت بالاتری برخوردار هستند. یکی از مهمترین عوامل کاهش دقت در یک سیستم تشخیص اعداد، وجود کلمات با واکه مشابه در بین ارقام تعریف شده در پایگاه واژگان سیستم می باشد. از آنجایی که واکه یک کلمه، بخش عمده سیگنال صوتی آن کلمه را شامل می شود، تشخیص کلمه، تنها معطوف به تشخیص واکه آن شده و کمرنگ شدن همخوان های کلمه در روند تشخیص باعث بروز خطا می شود. در این پایان نامه، به منظور رفع چالش فوق، یک روش تشخیص مبتنی بر استفاده از همخوان آغازین کلمه به عنوان یک تشخیص دهنده کمکی ارائه شده و یک سیستم تشخیص ارقام مستقل از گوینده بر اساس آن طراحی شده است. روش معرفی شده مبتنی بر کوانتیزاسیون برداری می باشد، به نحوی که علاوه بر ساخت یک کتاب کد به ازای هر یک از کلمات داخل پایگاه واژگان سیستم، یک کتاب کد کمکی نیز بر اساس همخوان آغازین آن ساخته می شود و نتیجه تشخیص وابسته به هر دو کتاب کد می باشد. یکی از معایب روش VQ حجم محاسبات بالا و زمان بر بودن آن به ازای بزرگ بودن اندازه کتاب کدها و طول سیگنال صوتی است. برای حل این مشکل روش های متعددی جهت تسریع VQ ارائه شده است. از مهمترین نقاط ضعف روش های ارائه شده، در نظر نگرفتن بار محاسباتی لازم جهت اجرای آن ها می باشد که باعث بهینه نبودن این روش ها شده است. در این پایان‌نامه یک روش تسریع VQ مبتنی بر بکارگیری مزایای دو روش ارائه شده در این زمینه معرفی شده است. روش پیشنهادی با حذف کلمه کدهای غیر ضروری در کوانتایز سیگنال صوتی طی دو مرحله قادر به تسریع روند VQ می باشد. مزیت اصلی روش پیشنهادی پایین بودن حجم محاسبات در اجرای آن است. از دیگر اهداف این پایان نامه، پیاده سازی سیستم تشخیص ارقام بر روی FPGA می باشد. پیاده سازی سیستم فوق به صورت بلادرنگ بوده و به صورت ممیز ثابت انجام شده است. به منظور کاهش منابع سخت افزاری در سیستم پیاده سازی شده از ساختار خط‌لوله ای استفاد شده است. طراحی این سیستم با استفاده از نرم افزار System Generator ساخت شرکت Xilinx انجام شده و در انتها سیستم نهایی بر روی تراشه Zynq پیاده سازی شده است. کلمات کلیدی: تشخیص کلمات مجزا، همخوان، کوانتیزاسیون برداری، پیاده سازی سخت افزاری.