به کارگیری روش یادگیری تقویتی برای مسیریابی پویا در شبکه به عنوان یک سیستم چند عاملی

STUDENT

DEGREE

YEAR

Computer networks are important examples of distributed dynamic systems. Distributed control in these systems, especially at the routing level, is necessary to make the network behavior adaptive to changes in topology, data traffic, services, etc. Recently, researchers have investigated new routing algorithms which provide better adaptivity, building on advances in machine learning. Reinforcement Learning is an unsupervised learning method which its goal is to learn a policy, a map from perceptions to actions, based on the feedback received from the environment. This learning task can be viewed as a search of policies which are evaluated through their interactions with the environment. Q-learning is one of the most applicable reinforcement learning algorithms. In this thesis, network is modeled as a multiagent system in which every router represents an agent. Each agent uses q-learning to learn the states of the network to choose the best possible action for each state. In this model, the status of each node is defined as a function of the status of adjacent nodes and its links to them. So any changes in the status of a link or a node affects the states of adjacent nodes (agents) and cause them to take more appropriate actions based on theses changes.

شبکه‌های کامپیوتری نمونه مهمی از سیستم‌های پویای توزیع‌شده هستند که در زندگی روزانه نقش زیادی پیدا نموده‌اند. اهمیت استراتژیک و محدودیت‌های ذاتی این‌گونه سیستم‌ها منجر به نیاز به کنترل توزیع‌شده، به‌خصوص برای مسیریابی، می‌شود تا رفتار شبکه را قابل تطبیق با تغییرات در توپولوژی، ترافیک داده‌ها، سرویس‌ها و غیره نماید. اخیراً، محققین بر روی الگوریتم‌های مسیر‌یابی جدیدتری به منظور فراهم آوردن میزان انطباق‌پذیری بیشتر با تغییر حالات شبکه تحقیق کرده‌اند که این الگوریتمها بر پایه روش‌های یادگیری ماشین بنا شده‌اند. یادگیری تقویتی یک روش یادگیری بدون سرپرست است که هدف از آن یادگیری یک سیاست، نگاشتی از مشاهدات به اعمال، بر مبنای بازخوردی است که از محیط دریافت می‌شود. این عمل یادگیری را می‌توان به صورت جستجوی مجموعه‌ای از سیاست‌ها نگریست که در هر لحظه در تعامل با محیط ارزیابی می‌شوند. در میان الگوریتم‌های مختلفی که برای یادگیری تقویتی تاکنون ارائه شده است الگوریتم یادگیری- Q دارای بیشترین کاربرد است. در این پایان‌نامه به شبکه به عنوان یک سیستم چندعاملی نگریسته شده است که هر گره آن نشان‌ دهنده یک عامل می‌باشد. سپس بر پایه روش یادگیری تقویتی و با استفاده از الگوریتم یادگیری- Q هر یک از عامل‌ها شروع به یادگیری وضعیت شبکه می‌نماید تا در هر حالت شبکه بهترین عمل ممکن را از خود بروز دهد. در این روش وضعیت هر گره (عامل) به صورت تابعی از وضعیت گره‌های مجاور و خطوط ارتباطی مابین آن‌ها تعریف می‌شود و بدین صورت هر تغییر در وضعیت یک گره (عامل) در وضعیت و نحوه تصمیم‌گیری گره‌های (عاملین) مجاور آن تأثیرگذار است.