Bir yapay zeka, klasik atari oyunu Q*bert'te bir istismar keşfettikten ve onunla birlikte koştuktan sonra insanlığın sunabileceği en iyi şeyle hile yapmayı başardı.
AI'nın önceki yinelemeleri Q*bert'i düzgün bir şekilde oynayacak olsa da, oyunun nasıl çalıştığını öğrenmesinin bir noktasında, çılgın puanlar toplamasına izin veren bir istismar keşfeder. Doğal olarak, herhangi bir puan avcısı oyuncunun yapacağı gibi, puanını mümkün olan en etkili şekilde artırabilmesi için işlemi tekrarlar.
Aşağıdaki videoda, AI'nın platformlarda kendi yolunda çalıştığını görebilirsiniz. İlk başta, platformlar arasında amaçsızca atlıyormuş gibi görünüyor. Oyunun bir sonraki tura ilerlediğini görmek yerine, Q*bert tüm platformlarının yanıp sönmeye başladığı bir döngüde sıkışıp kalıyor - işte burada AI, daha sonra büyük puanlar toplayan bir skor çılgınlığına gidebilir.
SONRAKİ OKUYUN: En tartışmalı oyun kayıtlarından biri sonunda gözden düştü
android mobil erişim noktasından chromecast'e yayın
AI Q*bert savaşını nasıl kazandı?
Başlık için tüm zamanların rekorunu kıran AI, evrim stratejisi algoritması programlaması sayesinde imkansız derecede yüksek bir puan aldı. Evrim stratejileri (ES), nesiller boyu öğrenmesi nedeniyle daha ölçeklenebilir olarak görüldüğü için geleneksel AI'nın kullandığı olağan pekiştirmeli öğrenmeden (RL) farklıdır.
Her öğrenme döngüsüne nesil denir ve belirli bir koşul (bu durumda yüksek puan) karşılanana kadar görevini sürdürür. Art arda gelen her nesilde, AI bir önceki neslin bilgisini emer ve bu nedenle aynı hedefe ulaşmada ve onu aşmada daha iyidir. Devam edin ve sonunda görevinde kesinlikle rakipsiz bir yapay zeka elde edeceksiniz. Burada Q*bert skoru ile tam olarak böyle oldu.
özetlenen kağıt Almanya, Freiburg Üniversitesi'ndeki araştırmacılar tarafından geçen hafta yayınlanan , böceğin bilinen bir miktar olmadığı anlaşılıyor. Aslında, hatayı bulmaya çok şaşırmasalar da, AI'nın nasıl ilerlediğini ve puanlama potansiyelini en üst düzeye çıkarmak için her oynadığında onu kullanmayı öğrendiğini görmek ilginç.
SONRAKİ OKUYUN: Bu yapay zeka, Super Mario Bros'ta ustalaşmayı öğreniyor
Hatayı bulmak için, ajanın ilk önce neredeyse ilk seviyeyi tamamlamayı öğrenmesi gerekiyordu - bu bir kerede yapılmadı, ancak birçok küçük iyileştirme kullanılarak araştırmacılara açıkladı. Kayıt . Eğitimin bir noktasında yavru çözümlerden birinin hatayla karşılaştığından ve kardeşlerine kıyasla çok daha iyi bir puan aldığından ve bunun da güncellemeye katkısını artırdığından şüpheleniyoruz - ağırlığı, ağırlıklı ortalamada en yüksek olanıydı. Bu, çözümü yavaş yavaş daha fazla yavrunun aynı hatayla karşılaşmaya başladığı alana taşıdı.
Hatanın ortaya çıktığı kesin koşulları bilmiyoruz; sadece ajanın optimal olmayan bir model izlemesi durumunda ortaya çıkması mümkündür, [örneğin ajan zaman kaybettiğinde, hatta bir hayat kaybettiğinde]. Durum böyle olsaydı, standart RL'nin hatayı bulması son derece zor olurdu: artan ödüller kullanırsanız, bir süre için çok fazla ödül getirmeyen stratejiler öğrenmek yerine, hızla bir miktar ödül veren stratejiler öğreneceksiniz ve sonra aniden büyük kazan.
ilgili bkz. Dragster şampiyonu Todd Rogers 35 yıl sonra tacını kaybetti Bu yapay zeka, 17 gündür Super Mario Bros 1-2'de ustalaşmayı öğreniyor. Bu yapay zekanın Twitch'te GTA V'de araba kullanmayı öğrenmesini izleyin
Bununla birlikte, botun harika sonuçlarına rağmen, araştırmacılar bunun ES öğrenimini RL üzerinden savunmak için bir durum olduğunu söylemiyorlar. Aslında, her iki sistemin de kendi sorunları vardır ve ikisinin bir kombinasyonu büyük ölçüde ilerlemek için en iyi seçenek olarak görülmektedir.
Diğer Atari oyunlarındaki aynı ES yöntemi, aynı olumlu sonuçlara yakın bir yerde bulunmadı. Öte yandan, RL dünyanın en iyi GO oyuncusunu yenmek de dahil olmak üzere sol, sağ ve merkez rekorları kırmaktan sorumludur. ES'nin hala bazı şeylerde kendi yeri var ve aslında Nvidia, daha fazla hesaplama gücü gerektirdiğinden, ancak daha uzun bir süre boyunca daha iyi sonuçlar elde ettiğinden, AI eğitiminin çoğunu böyle yapıyor.
AI geliştirme için geleceğin hangi yoldan geleceğine bakılmaksızın, en azından sistemi aldatan bu bot bu kadar kötü değil. şimdi rezil video oyunu dünya şampiyonu .