یادگیری از طریق درک نتایج هوش مصنوعی، با نام Reinforcement Leraning شناخته میشود. این نوع از یادگیری با بهرهگیری زمان، داده و قدرت پردازشی زیاد، یکی از بهترین روشها برای بهبود فرایند تصمیمگیری کارگزارهای هوشمند است. البته، روش فوق همیشه هم کاربردی نیست؛ چرا که رویکردهای آموزشی بدون مدل خاص برای آموزش هوش مصنوعی، شاید به هفتهها زمان برای آموزش نیاز داشته باشند. آن نوع از آموزش، کارگزارها را بهنوعی به کار میگیرد که رخدادها را بهصورت مستقیم از مشاهدات دنیای اطراف پیشبینی کنند.
جایگزینی که برای روش بالا پیشنهاد میشود، آموزش هوش مصنوعی بر اساس مدل مشخص است. در آن روش، کارگزارهای هوش مصنوعی به مدلی از جهان پیرامون خود دست پیدا میکنند که بر اساس آن، رخدادهای آتی را پیشبینی خواهند کرد. البته، برای پیشبینی رخدادها در محیطهای شناختهنشده، آن کارگزارها باید مدلهای خود را بر اساس تجربه طراحی کنند. گوگل با همکاری deepmindمحصولی بهنام Deep Planning Network یا PlaNET معرفی کرد که مدلی از دنیا را با نگاه کردن به ورودیهای تصویری شکل میدهد و از آن برای برنامهریزیهای آتی استفاده میکند.
گوگل ادعا میکند محصول جدیدش در حوزهی هوش مصنوعی، توانایی حل چالشهای متنوع تصویری را دارد. هوش مصنوعی جدید، با دقت بالا عمل میکند و نسبت به نمونههای بدون مدل، پیشرفتهای قابل توجهی داشته است. شایان ذکر است کد منبع PlaNET توسط گوگل در گیتهاب به اشتراک گذاشته شد.
دانیار هافنر یکی از مولفان مقالهی مرتبط با معماری هوش مصنوعی جدید گوگل و از محققان کارآموز در بخش هوش مصنوعی آن شرکت است. او میگوید که PlaNET با بهرهگیری از مدلهای یادگیری دینامیکی از ورودیهای تصویری کار کرده و از مدلهای مذکور برای کسب تجربههای جدید، استفاده میکند. بهعلاوه، پلنت با استفاده از مدل دینامیکی پنهانی فعالیت میکند تا درکی از خصوصیات انتزاعی دنیای پیرامون خود همچون سرعت اجسام، بهدست بیاورد. مدل مورد استفاده، وضعیت آیندهی دادههای ورودی را پیشبینی کرده و تصویر و نتیجهای برای درک آنها ایجاد میکند.
هوش مصنوعی پلنت، با مدلسازی پیشبینی رخدادهای پیش روی خود، فرایند یادگیری را انجام میدهد. بهعلاوه، برنامهریزی این کارگزار هوشمند نیز با سرعت بالایی انجام میشود. بههرحال در فضاهای با متغیر پنهان، پلنت تنها به تصویرسازی نتایج آینده نیاز دارد و بدون بهرهگیری از تصاویر، نتیجهی یک رخداد را حدس میزند.
هوش مصنوعی پلنت برخلاف نمونههای قبلی، بدون نیاز به شبکهای از سیاستگذاریهای یادگیری، فعالیت میکند. درواقع، محصول جدید، فعالیتها را بر اساس طراحی انتخاب میکند. بهعنوان مثال، این کارگزار هوشمند میتواند تصور کند که موقعیت و فاصلهی یک توپ تا دروازه، بر اثر رخدادهای مختلف، چه تغییراتی میکند. همهی این موارد، بدون نیاز به تصویرسازی انجام میشود. چنین قابلیتی، به پلنت امکان میدهد تا در هر بار انتخاب رویداد، ۱۰ هزار نتیجهی عملکرد توسط آن بررسی شود.
گوگل میگوید در آزمایشهایی که روی PlaNET انجام شد، محصول جدید نسبت به نمونههای بدون مدلسازی همچون A3C و D4PG عملکرد بهتری از خود نشان داد. یکی از آزمایشها، تحلیل حرکت رباتی بود که روی زمین نشسته و بهمرور ایستادن و راه رفتن را میآموزد. وظیفهی دیگر، توسعهی مدلی بود که چند آیندهی احتمالی را پیشبینی کند.
وقتی کارگزار هوشمند PlaNET در محیطهایی تصادفی بدون دانستن وظیفهی اصلی قرار گرفت، ۶ وظیفه را بدون مدلسازی و تنها پس از ۲ هزار بار تلاش یاد گرفت. انواع دیگر هوش مصنوعی که توانایی مدلسازی ندارند، برای درک محیطهای جدید نیاز به حدود ۵۰ برابر تلاش و سعیوخطای بیشتر دارند. هافنر و دیگر فعالان پروژهی حاضر، اعتقاد دارند که با افزایش قدرت پردازشی میتوان حتی مدلهای پیچیدهتری را نیز توسط PlaNET توسعه داد. او در پایان برای توضیح کاملتر PlaNET میگوید:
نتایج ما، نشاندهندهی آیندهی روشن مدلهای یادگیری دینامیک، در ساخت کارگزارهای هوشمند با روشهای یادگیری نتیجهای هستند. ما تحقیقات بیشتری انجام خواهیم داد که روی مدلهای دقیقتر یادگیری دینامیک متمرکز هستند. بهعلاوه، وظایف سنگینتر مانند محیطهای سهبعدی نیز در تحقیقات آتی بهکار گرفته خواهند شد.
ما از نتایجی که استفاده از این نوع آموزش بههمراه خواهد داشت، شگفتزده هستیم. بهعنوان مثالی از آن نتایج میتوان یادگیری چندوظیفهای، برنامهریزی سلسلهمراتبی و کشف نتایج بر اساس تخمینهای نامطمئن را بیان کرد.
.: Weblog Themes By Pichak :.