به دلیل پاداش پراکنده و دنباله ای از کار چند مرحله ای پیچیده ، یک چالش بزرگ در یادگیری تقویت وجود دارد ، یعنی عامل باید چندین مرحله پی در پی متوالی را اجرا کند تا کل کار را بدون پاداش واسط انجام دهد. همواره برای حل این چالش از الگوریتم های آموزش پاداش و برنامه درسی استفاده می شود ، اما Reward Shaping مستعد سیاست های زیر بهینه است و برنامه درسی به راحتی از مشکل فراموشی فاجعه رنج می برد. در این مقاله ، الگوریتم جدیدی به نام شکل گیری چند محیطی موازی (PMES) ارائه می دهیم ، که در آن چندین محیط زیر بنا بر دانش انسان ساخته شده است تا نماینده از اهمیت مراحل میانی آگاه شود ، که هر یک از آنها مطابق با یک کلید اصلی واسط است. گام. به طور خاص ، عامل یادگیری تحت این محیط های چندگانه موازی از جمله محیط اصلی و چندین محیط زیر توسط الگوریتم بازیگر منتقد مزیت همزمان ، آموزش داده می شود. و الگوریتم PMES دارای مکانیزم شکل دهی پاداش تطبیقی برای تنظیم عملکرد پاداش است. در این روش ، الگوریتم PMES بطور موثری تجربه انسان را با چندین محیط مختلف و نه تنها شکل دادن به عملکرد پاداش ، ترکیب می کند که ترکیبی از مزایای الگوریتم های Reward Shaping و Curriculum Learning ضمن جلوگیری از اشکالات آنها است. آزمایشات گسترده در مورد مینی بازی “Build Marines” از محیط StarCraft II نشان می دهد که الگوریتم پیشنهادی ما از الگوریتم های پاداش شکل دهی ، یادگیری برنامه درسی و PLAID مؤثرتر است که تقریباً نزدیک به سطح استاد بزرگ انسان است. و در مقایسه با کار موجود ، زمان و منابع محاسباتی کمتری را می طلبد تا به نتیجه مطلوبی برسیم.
ب