هدف از یادگیری تقویتی، یادگیری نحوه تعامل با محیط در یک فرایند تصمیمگیری متوالی با هدف بیشینه کردن مجموع پاداشهای دریافتی از محیط است. این نحوه مدلسازی از مقوله یادگیری، انطباق بالایی با بسیاری از مسائلی از جنس تصمیمگیری دارد که در طول زندگی با آنها مواجه هستیم
هدف کلی این دوره ایجاد یک سیستم هوشمند است که بتواند تصمیمهای بهینهای را در محیطی پویا و تعاملی اتخاذ کند. در یادگیری تقویتی، یک عامل با استفاده از آزمون و خطا و ارتباط با محیط، اقداماتی را یاد میگیرد که بیشترین پاداش را در طول زمان کسب کند.
دستاوردهای پایان دوره
درک عمیق مفاهیم یادگیری تقویتی:
درک اصول اساسی، مدلها و روشهای یادگیری تقویتی، مانند فرآیندهای تصمیمگیری مارکوف (MDP)، الگوریتمهای Q-learning و Policy Gradient.
توانایی پیادهسازی مدلهای یادگیری تقویتی:
بهکارگیری دانش برای حل مسائل واقعی با استفاده از مدلهای یادگیری تقویتی، برنامهنویسی و توسعه الگوریتمهای مرتبط.
کاربرد یادگیری تقویتی در حل مسائل پیچیده:
استفاده از یادگیری تقویتی در زمینههای متنوعی مانند رباتیک، بازیهای رایانهای، خودروهای خودران، تجارت الکترونیک و بسیاری دیگر.
مخاطبین
دانشجویان علوم کامپیوتر و مهندس
محققان و دانشمندان داده
توسعهدهندگان نرمافزار و متخصصان IT
پیشنیاز
آشنایی با برنامهنویسی پایتون (گذراندن دوره « برنامهنویسی پایتون» در آکادمی همراه)
آشنایی با دروس یادگیری ماشین ( گذراندن دورههای یادگیری ماشین نظارت شده و یادگیری ماشین بدون نظارت در آکادمی همراه )
آشنایی با دروس یادگیری عمیق (گذراندن دورههای یادگیری عمیق در آکادمی همراه)
نحوه ارزیابی
۵۰ درصد پروژه پایانی
۵۰ درصد آزمون پایانی