توسعه الگوریتم‌های یادگیری کیو به منظور افزایش سرعت همگرایی و بهبود سیگنال‌ کنترل

STUDENT

DEGREE

YEAR

یکی از روش‌های هوشمند سازی سیستم‌های کنترلی، الگوریتم‌های مبتنی بر یادگیری تقویتی است. این یادگیری با الهام از هوش و رفتار انسانی، قابلیت یادگیری را به سیستم‌ها آموزش می‌دهد. یادگیری کیو، به عنوان یکی از روش‌های یادگیری تقویتی، با سعی و خطا در سیستم، می‌آموزد که چگونه باید سیستم را کنترل نماید. برای پیاده سازی‌ الگوریتم‌های یادگیری کیو، نیاز است که هم سرعت یادگیری افزایش یابد و هم سیگنال‌های کنترلی بهبود پیدا کنند. با توجه به این موضوع، در این پژوهش روش‌هایی براساس گسترش‌های الگوریتم یادگیری کیو پیشهاد شده‌ و برای کنترل سیستم آونگ معکوس و ارابه، به عنوان روشی برای برقراری تعادل در ربات‌های موبایل دوچرخ، بکار گرفته شده‌است. برای این منظور در اولین گام با به‌کارگیری پاداش بیشینه برای یادگیری کیو و همچنین استفاده از شرطی برای به‌روزرسانی تابع ارزش، که الهام گرفته از روش یادگیری تاخیری کیو است، سرعت همگرایی بهبود می‌یابد. در گام دوم، به منظور بهبود عملکرد سیگنال‌های کنترلی اعمال شده به سیستم‌ها، از مفهوم حالت‌های همسایگی، در یادگیری کیو استاندارد استفاده شده‌ و همگرایی الگوریتم ارائه شده نیز با استفاده از روش لیاپانوف، اثبات گردیده‌است. در گام سوم، یادگیری کیو تاخیری و مفهوم حالت‌های همسایگی، ترکیب شده و همگرایی آن نیز اثبات گردیده‌است. در کلیه روش‌های پیشنهادی مقادیر بهینه‌ی پارامتر‌های مربوط به الگوریتم‌ها نظیر نرخ یادگیری، فاکتور تخفیف پاداش‌های آینده، شرط به روز رسانی، تعداد همسایگی‌های در نظر گرفته شده، مقدار نرخ کاهش هر کدام از پارامتر‌ها و غیره با استفاده از الگوریتم ژنتیک بدست می‌آید. نتایج شبیه‌سازی‌ها برای سیستم آونگ معکوس و ارابه، بیانگر افزایش سرعت همگرایی و قرار گرفتن‌ حالت‌های سیستم در یک شعاع همگرایی قابل قبول است. همچنین دامنه سیگنال کنترلی نیز در روش‌هایی که از مفهوم حالت‌ همسایگی استفاده می‌شود، کاهش می‌یابد. در گام نهایی، روش‌های ارائه شده را، با الگوریتم‌های یادگیری کیو استاندارد، یادگیری تاخیری کیو و روش حالت‌های همسایه برای یادگیری تقویتی، مقایسه شده‌است.

One of the methods used to make control systems intelligent is reinforcement learning. This algorithm based on human intelligence and behavior creates the capability of learning for systems. Q-learning, as one of the methods of reinforcement learning, by trial and error, learns how to control the system. To design and implementaion of Q-learning algorithm, it is needed both increasing the learning convergence and improving control signals amplitude. In this proposed research, based on developing Q-learning, some approaches are introduced to control Cart-Pole systems. In this way, at the first step, by utilizing maximum reward for Q-learning, the speed of convergence is improved. In addition with a condition iired by delayed Q-learning to update the value function, the convergence speed is increased, too. At the second step, to modify the amplitude of the control signals applied to the system, k-nearest neighbor (k-NN) concept is used in standard Q-learning. Convergence of the presented algorithm is verified by Lyapunov method. At the third step,a new method based on combination of delayed Q-learning and k-nearest neighbor is presented and the convergence is proved by lyapunov theorem. Genetic algorithm is applied to achieve the optimal problem parameters such as, learning rate, discount factor, updating condition, number of considered neighbor, parameter decreasing rate and etc. Numerical simulations for Cart-Pole system show speed increasing for converging to a deterministic radius of closed loop system equilibrium point. further, control signal amplitude is decreased in k-nearst neighbor methods based. Finally, all three presented methods are compared with standard Q-learning, delayed Q-learning and methods of k-nearest neighbor for reinforcement learning, and some conclusions and arguments are stated.