اخبار تکنولوژی، تکنولوژی آینده، هوش مصنوعی

رباتی برای شکست دادن انسان در بازی Dota 2 هروز به اندازه‎ی ۱۸۰ روز تمرین می‎کند

9 تیر 1397 ساعت 20:52

شکست دادن انسان‌ها در بازی‌های رومیزی در جهان هوش مصنوعی چیزی جز خاطره نیست. در حال حاضر، دانشگاهیان و شرکت‌های فناوری برتر می‌خواهند ما را در بازی‌های ویدئویی به چالش بکشند. امروز OpenAI، یک آزمایشگاه تحقیقاتی توسط ایلان ماسک و سام آلتمن، آخرین نقطه عطف خود را اعلام کرد: یک تیم از عوامل هوش مصنوعی که می‌تواند ۱ درصد از بهترین افراد آماتور را در بازی محبوب Dota 2 شکست دهد.

شما ممکن است به یاد داشته باشید که OpenAI برای اولین بار در ماه دسامبر به دنیای بازی قدم گذاشت، سیستم جدیدی که می‌تواند بازیکنان برتر را در مسابقات ۱v1 شکست دهد. با این حال، برای این نوع بازی به شدت درجه سختی Dota 2 را کاهش می‌یابد. OpenAI در حال حاضر ربات‌های خود را ارتقا داده است تا با انسان‌ها در حالت ۵v5 بازی کند، که نیازمند هماهنگی بیشتر و برنامه ریزی طولانی مدت است. در حالی که OpenAI باید بهترین بازیکنان را به چالش بکشد، این کار را امسال در The International، مسابقات Dota 2 که بزرگترین رویداد سالانه در تقویم ورزشی الکترونیکی است، انجام خواهد داد.

انگیزه برای اینگونه تحقیق ساده است: اگر بتوانیم مهارتهای لازم برای بازی کردن را به هوش مصنوعی آموزش دهیم، می‌توانیم از آنها برای حل چالش‌های پیچیده در دنیای واقعی استفاده کنیم که به نوعی شبیه به بازی‌های ویدئویی هستند – مثلا، مدیریت زیرساخت‌های حمل و نقل شهری.

“Greg Brockman، یکی از بنیانگذاران و مدیر ارشد فناوری OpenOI به Verge، گفت:

این یک نقطه عطف هیجان انگیز است، و واقعا هست به دلیل این که در مورد گذار به برنامه‌های کاربردی واقعی است. اگر یک شبیه سازی [از یک مشکل داشته باشید] شما می‌توانید آن را در مقیاس بزرگ به اجرا بگذارید به حدی که هیچ مانعی برای آنچه که شما می‌توانید با این کار انجام دهید، وجود ندارد.

اساسا، بازی‌های ویدئویی چالش‌هایی را ارائه می‌دهند که بازی‌های رومیزی مانند شطرنج یا Go فاقد آن هستند. آنها اطلاعات را از بازیکنان پنهان می‌کنند، به این معنی که هوش مصنوعی نمی‌تواند کل بازی را درک کند و بهترین حرکت ممکن را محاسبه کند. همچنین اطلاعات بیشتر برای پردازش و تعداد زیادی از حرکت ممکن است وجود داشته باشد. OpenAI می‌گوید که در هر زمانی، ربات‌های Dota 2 خود در حالیکه به پردازش ۲۰۰۰۰ نقطه داده‌ که بیانگر اتفاقات درون بازی است مشغول هستند باید بین ۱۰۰۰ اقدام مختلف، یکی را انتخاب کنند.

برای ایجاد ربات‌های خود، آزمایشگاه از روش یادگیری ماشینی شناخته شده به عنوان یادگیری تقویتی استفاده کرده است. این تکنیک ساده ای است که می‌تواند رفتار پیچیده ای ایجاد کند. عوامل هوش مصنوعی در یک محیط مجازی قرار داده می‌شوند که در آن به خود چگونگی رسیدن به هدف را از طریق آزمون و خطا می‌آموزند. برنامه نویسان مجموعه‌ای از آنچه که توابع پاداش نامیده می‌شوند (اعطای امتیازات ربات‌ها برای چیزهایی مانند کشتن دشمن) را مورد استفاده قرار داده و سپس آنها عوامل هوش مصنوعی را رها می‌کنند تا به طور مداوم بازی کنند.

برای این دسته جدید از ربات‌های Dota، مقدار بازی خود را متزلزل است. هر روز، رباتها ۱۸۰ سال زمان درون بازی را با سرعت شتابنده بازی کردند. آنها در طی یک ماه آموزش داده شده اند. بروکمن می‌گوید:

این برنامه کاملا اتفاقی شروع می‌شود، سرگردان در اطراف نقشه می‌چرخد. سپس، پس از چند ساعت، شروع به جمع آوری مهارت‌های اولیه می‌کند.

او می‌گوید، اگر انسان بین ۱۲۰۰۰ تا ۲۰۰۰۰ ساعت بازی کند تا بتواند حرفه ای شود، به این معنی است که عوامل OpenAI هر روزه ۱۰۰روز زندگی انسان را تجربه می‌کنند.

از یک طرف، این یک اظهارات در مورد قدرت روش‌های یادگیری ماشین فعلی و آخرین تراشه‌های کامپیوتری برای پردازش داده‌های وسیع است. از سوی دیگر، یادآور این است که عامل‌های هوش مصنوعی اساسا غیر هوشمند هستند. اگر برای انسانها هزاران سال طول بکشید تا یاد بگیرند که چگونه یک بازی ویدیویی را بازی کنند، ما به عنوان یک گونه ای زنده به نقاط دوری دست نخواهیم یافت.

اگر چه ربات‌های OpenAI در حال حاضر در مسابقات ۵v5 بازی می‌کنند، آنها هنوزهم در معرض پیچیدگی کاملی از Dota 2 قرار نگرفته‌اند. تعدادی محدودیت وجود دارد. آنها تنها با استفاده از پنج قهرمان از ۱۱۵ موجود، که هر کدام سبک خاص خود را دارد، بازی می‌کنند. انتخاب آنها بین Necrophos، Sniper، Viper، Crystal Maiden و Lich است. عناصر خاصی از فرآیندهای تصمیم گیری آن‌ها از پیش نوشته شده هستند، مانند مواردی که از فروشندگان خرید می‌کنند و مهارت‌هایی که آنها با استفاده از تجربه در بازی به دست می‌آورند. دیگر بخش‌های حیرت انگیز این بازی به طور کامل غیرفعال شده اند، از جمله نامرئی بودن، فراخوانی و قرار دادن نگهبان‌ها، که مواردی هستند که به عنوان دوربین‌های از راه دور عمل می‌کنند و در بازی‌های سطح بالا ضروری هستند. (همانطور که یک راهنمای بازی هشدار می‌دهد، “اگر موضوعی باشد که تازه واردان را بیشتر از هر چیز دیگری گیج می‌کند ، آن نگهبانی است”)

نمایندگان OpenAI نیز دارای مزایایی هستند که شما از رایانه انتظار دارید. زمان واکنش آنها سریعتر از انسان است، آنها هرگز یک کلیک را از دست نمی‌دهند و دسترسی سریع و دقیقی به اطلاعات مانند موجودی موارد، سلامت قهرمانان و فاصله بین اشیاء بر روی نقشه دارند که برای استفاده صحیح از بعضی از جادوها ضروری است. این همه اطلاعاتی است که بازیکنان انسانی باید به صورت دستی بررسی کنند یا از طریق غریزه قضاوت کنند.

همه اینها ممکن است به عنوان متهم کردن قابلیت‌های رباتها ظاهر شود، اما بروکمن استدلال می‌کند که این حواس پرتی است. او می‌گوید توانایی بازی در Dota 2 که به طور متوسط ۴۵ دقیقه طول می‌کشد، چیزی است که واقعا عاملان OpenAI را از آنها جدا می‌کند. این نوع برنامه ریزی درازمدت به سختی و یا حتی غیرممکن است که بتوان از طریق تقویت یادگیری آن را تدریس کرد، اما کار OpenAI کار دیگری را نمایان می‌کند . بروکمن می‌گوید دلیل اصلی موفقیت آنها این است که آنها توانایی رایانه ای بیشتری برای تحمل مسائل داشتند.

آندریاس تئودورو، پژوهشگر هوش مصنوعی در دانشگاه بث که از بازی‌های کامپیوتری برای مطالعه استفاده می‌کند، می‌گوید آخرین تحقیقات در مورد بازی‌های ۵v5، قدم بزرگی به شمار می‌رود، اگرچه او خاطرنشان می‌کند که شاید “دستاورد مهم” OpenAI استفاده از بصری سازی برای اشکال زدایی عوامل هوش مصنوعی آن است.

تئودورو به Verge گفت:

این تکنیک‌ها نشان می‌دهد که حتی تقویت یادگیری و سیستم‌های یادگیری ماشین به طور کلی می‌تواند شفاف باشد.

او می‌گوید این افزونه‌ها به ویژه برای اهداف آموزشی، ارزش افزوده سیستم را افزایش می‌دهند.

تئودورو می‌گوید استفاده محققان از عملکرد پاداش جداگانه برای تشویق ربات‌ها برای همکاری با یکدیگر نیز قابل توجه بود. این تعهد پاداش “روح تیم” بود و در طول هر مسابقه افزایش یافت. رباتها هر بازی را به دنبال اهداف فردی ، مانند رکورد زدن در کشتن، شروع می‌کردند اما با گذشت زمان، آنها بیشتر به اهداف مشترک متمرکز می‌شوند.

بروکمن می‌گوید، بر خلاف بازیکنان انسانی، این بدان معنی است که خودخواهی وجود ندارد. او به Verge گفت:

ربات‌ها کاملا مایلند یک مسیر را قربانی یا یک قهرمان را برای یک دستاورد بهتر رها کنند. برای سرگرمی، ما یک بازیکن انسان داشتیم و او را با یکی از رباتها جایگزین کنیم. ما آنها را آموزش نداده ایم تا کاری بخصوصی انجام دهند، اما آن شخص گفت که فقط احساس خوبی را پشت سر گذاشته است. هر چیزی که او می‌خواسته، ربات‌ها به او می‌دادند.

تیم OpenAI در حال حاضر پنج بازی چند نفره ای را با تیم‌های آماتور و نیمه حرفه ای انجام داده که چهار برد و یکی تساوی داشته است. اما بزرگترین چالش در The International خواهد بود. آیا ماشین‌ها با زمان بندی عالی و بدون خودخواهی می‌توانند رقیب انسان بشوند؟