Deep RL یا یادگیری تقویتی عمیق چه تاثیری بر رشد و پیشرفت رباتیک دارد؟

آخرین به روز رسانی: ۱۶ دی ۱۴۰۲

۰ 258 خواندن این مطلب 5 دقیقه زمان میبرد

Deep RL یا یادگیری تقویتی عمیق چه تاثیری بر رشد و پیشرفت رباتیک دارد؟

الگوریتم‌های یادگیری تقویتی عمیق (Deep RL) با انتخاب هوشمندانه پاداش‌ و هم‌چنین با اتکا به توانایی یادگیری عمیق در تخصیص برچسب‌های صحیح به نمونه‌ها (representational power)، مشکلات یادگیری تقویتی را رفع می‌کنند.

لوین و همکاران می‌گویند: «فارغ از هزینه‌هایی که برای ساخت یک ربات متحمل می‌شویم، شیوه‌های متعددی برای تنظیم الگوریتم‌ها و ساخت ربات‌ها وجود دارد.»

Deep RL توانسته در حل بسیاری از مسائل چالشی، از بازی آتاری و شطرنج گرفته تا پوکر و بازوی رباتیکی که می‌تواند مکعب روبیک را حل کند، به پیشرفت‌های قابل ملاحظه‌ای دست پیدا کند.

جهت مشاهده ودانلود ماهنامه ” اقتصاد دیجیتال” اینجا کلیک نمایید.

عامل‌های Deep RL هم نظیر انسان‌ها، برای کسب پاداش‌های بلندمدت، استراتژی‌هایی اتخاذ می‌کنند. به این الگوی یادگیری که بر پایه آزمون و خطا استوار است و طی آن پاداشی به عامل اعطا می‌شود، یادگیری تقویتی گفته می‌شود. یادگیری تقویتی عمیق یا Deep RL در نتیجه تلاقی یادگیری عمیق و یادگیری تقویتی به وجود آمده است. هدف این فن‌آوری این است که در حوزه‌های چالش برانگیز، عملکردی همچون انسان‌ها داشته باشد.

لازمه استفاده از یادگیری تقویتی، ایجاد یک محیط، مدل‌سازی توابع پاداش و غیره است. حتی ممکن است برای استفاده از این فن‌آوری مجبور شوید تمامی مسائل را از صفر شروع کنید. این احتمال نیز وجود دارد که متدهای یادگیری تقویتی به حجم زیادی از داده ها نیاز داشته باشند و به همین دلیل در دنیای واقعی، اجرای صفر تا صد این متدها برای حل هر مسئله جدیدی که روی می‌دهد، عملاً غیرممکن است. برای مثال، الگوریتم‌های یادگیری تقویتی برای آموزش سیاست‌هایی که بتوانند مسائل پیچیده و دشوار را حل کنند، به میلیون‌ها گرادیان کاهشی تصادفی (SGD) نیاز دارند. هرچه اندازه مدل بزرگ‌تر باشد، تعداد مراحل آموزش هم بیشتر است و بالعکس. علاوه بر این، سودمندی و ارزش اطلاعات با کیفیت داده‌ها رابطه مستقیم دارد.

مروری بر DeepRL

الگوریتم‌های Deep RL با انتخاب هوشمندانه پاداش‌ و هم‌چنین اتکا به توانایی یادگیری عمیق در تخصیص برچسب‌های صحیح به نمونه‌ها، مشکلات یادگیری تقویتی را حل می‌کنند. توابع ریاضیاتی پاداش به دقت طراحی و ایجاد می‌شوند تا عامل را در مسیر دست‌یابی به هدف مورد نظر راهنمایی کنند. برای مثال، تصور کنید یک بازوی رباتیک و یا یک برنامه هوش مصنوعی که بازی‌های استراتژیک همچون Go و شطرنج را بازی می‌کند، آموزش می‌دهید تا به تنهایی و بدون کمک انسان‌ها به هدفی خاص دست پیدا کند.

مفاهیم کلیدی در Deep RL

متد on-policy و off-policy
استراتژی‌های اکتشاف
تعمیم‌دهی
ایجاد پاداش

در یادگیری‌ ‌تقویتی عمیق، الگوریتم‌های پاداش مممکن است مبتنی بر توابع ارزش تصادفی، متد یادگیری بدون نظارت و یا انگیزه ذاتی باشند. در مقابل، استراتژی‌های اکتشاف مبتنی بر حافظه، کاستی‌ها و نواقص یادگیری تقویتی که در آن پاداشی به عامل داده می‌شود را جبران می‌کنند. پاداش‌هایی که در محیط‌های مختلف و در سناریوهای دنیای واقعی به عامل داده می‌شود ممکن است ناکافی باشند.

اگر بخواهیم Deep RL را در روبات‌های واقعی پیاده‌‌سازی و اجرا کنیم با یک چالش اساسی مواجه می‌شویم. آن چالش جمع‌آوری داده‌هایی با کیفیت بالا است. این مسئله به نوبه خود بر تعمیم‌دهی هم تأثیر می‌گذارد آن را با مشکل مواجه می‌کند. تعیم‌دهی در یادگیری تقویتی به یادگیری انتقال میان مسائل گوناگون گفته می‌شود. اگر بخواهیم در حوزه رباتیک به قابلیت تعمیم‌دهی دست پیدا کنیم باید از الگوریتم‌های یادگیری تقویتی استفاده کنیم زیرا این الگوریتم‌ها برخلاف بینایی ماشین که در آن داده‌ها به صورت دستی و توسط انسان‌ها برچسب‌گذاری می‌شوند، به حجم بالایی از داده‌ها نیاز دارند. تلاش عامل‌های Deep RL بر این است که تجربه و دانش خود را به محیط‌‍‌های جدید هم منتقل کنند. به گفته پژوهشگران OpenAI تعمیم‌دهی میان مسائل برای پیشرفته‌ترین الگوریتم‌های یادگیری تقویتی عمیق هنوز هم کار دشواری است.

سرگی لوین و همکارانش در مقاله‌ای که به تازگی منتشر کرده‌اند به بررسی چالش‌های Deep RL در حوزه رباتیک پرداخته‌اند. آن‌ها در مقاله خود بسیاری از چالش‌های اساسی یادگیری تقویتی را بررسی و رفع کرده و ابعاد تازه‌ای از چالش‌هایی که باید حل شوند را آشکار کرده‌اند.

بررسی و حل چالش‌ها

این پژوهشگران با در نظر گرفتن فعالیت‌های گوناگونی که ربات‌ها انجام می‌دهند (از جمله جابه‌جایی و گرفتن اشیا) به راه‌حل‌هایی دست یافته و چالش‌هایی را که در عملکرد آن‌ها خلل وارد می‌کنند شناسایی و مشخص کرده‌اند.

برای مثال، این پژوهشگران دریافتند گرفتن شی کماکان یکی از مشکلات اساسی و حل نشده در حوزه رباتیک است. برای اینکه رباتی گرفتن شی‌ را یاد بگیرد باید در معرض اشیای ناآشنا قرار بگیرد، برای اینکه به شرایط و موقعیت‌های جدید واکنش نشان دهد به حلقه کنترل مبتنی بر دید نیاز است و در برخی موارد برای تفکیک و تشخیص اشیایی که باید بگیرد باید از قبل شیوه تعامل با محیط و اشیا را بیاموزند.

یافته‌های پژوهش

یافته‌های این پژوهشگران بدین شرح است:

برای اینکه رباتی گرفتن شی و تعمیم آن را یاد بگیرد، به جمع‌آوری داده به شیوه بدون نظارت (UDC) و یک پایپ‌لاین یادگیری تقویتی مقیاس‌پذیر نیاز داریم.
به منظور دسترسی به داده‌های متنوع و زیاد ، باید از داده‌هایی که تاکنون جمع‌آوری شده و آفلاین هستند استفاده کنیم و برای تسهیل کردن این روند به یک چارچوب نیاز است.
با هدف دست‌یابی به عملکرد حداکثری بهتر است داده‌های آفلاین را با مقدار کمی از داده‌های آنلاین ترکیب کنیم. در نتیجه این کار، ربات در گرفتن شی ۸۶% تا ۹۶% موفق عمل می‌کند.

یکی دیگر از چالش‌های اساسی که در حوزه رباتیک با آن مواجه هستیم، جمع‌آوری خودکار و ایمن حجم بالایی از داده‌ها است. این احتمال وجود دارد که الگوریتم‌های یادگیری‌ای که در محیط‌های “Gym” به خوبی عمل می‌کنند، نتوانند در ربات‌های واقعی عملکرد خوبی از خود نشان دهند. در چنین مواقعی شبیه‌سازی به کمک ما می‌آید. به عقیده پژوهشگران شبیه‌سازی به صورت لحظه‌ای و یا سریع‌تر از آن اجرا می‌شود. علاوه بر این می‌تواند به صورت همزمان نمونه‌های زیادی را آغاز کند. نویسندگان این مقاله می‌گویند: «چنان‌چه شبیه‌ساز به تکنیک‌های انتقال همزمان و یا لحظه‌ای مجهز شود، می‌توانیم با حداقل میزان تعامل با دنیای واقعی، قوانین و سیاست‌هایی را یاد بگیریم که می‌توان در دنیای واقعی به کار بست.»

استفاده از الگوریتم‌های Deep RL در عمل دشوار است. عملکرد این الگوریتم‌ها به تنظیم دقیق پارامترها بستگی دارد و گاهی اوقات عملکرد یک الگوریتم در هر اجرا با اجرای دیگر کاملاً متفاوت است. به گفته پژوهشگران متدهای کارآمد Deep RL که به داده نیاز دارند باید بتوانند با استفاده از داده‌ها به صورت آفلاین، از قبل آموزش ببینند و در همان حال تنظیم دقیق به صورت آنلاین را هم بهبود ببخشند. این کار به شناخت و درک پویایی‌های دنیای واقعی و حل مسائل کمک می‌کند.

نکات کلیدی

این پژوهشگران تمامی مبانی و کاربردهای Deep RL در حوزه رباتیک را بررسی کرده‌اند. برخی نکات کلیدی این پژوهش به شرح زیر است:

متدهای کنونی Deep RL به اندازه‌ که تصور می‌‍‌شود ناکارآمد و بیهوده نیستند.
یکی از هزاران چالشی که در این حوزه با آن مواجه هستیم، آموزش ربات بدونِ نظارت تمام وقت انسان‌ها است.
یکی از اهداف پژوهشی Deep RL در حوزه رباتیک این است که یادگیری تقویتی رباتیک به اندازه یادگیری در انسان‌ها و حیوانات طبیعی و مقیاس‌پذیر باشد.

منبع: هوشینو

برچسب ها