Google Genie 3 is een nieuw model dat interactieve omgevingen van enkele minuten simuleert om AI-agenten te trainen.

Google heeft Genie 3 gepresenteerd, een nieuw taalmodel dat fotorealistische omgevingen simuleert en dat wordt beschouwd als een springplank naar superintelligente kunstmatige intelligentie. Deze AI, ontwikkeld door DeepMind, kan simulaties van enkele minuten genereren die kunnen worden gebruikt om algemene agenten te trainen. Het bedrijf verzekert dat deze omgevingen consistent zijn en dat Genie zich kan herinneren wat het eerder heeft gegenereerd.

Volgens een bericht op de blog van DeepMind is Genie 3 een mix van zijn voorganger en Veo 3, het model voor het maken van video’s op basis van tekst. In tegenstelling tot Genie 2, dat interactieve scenario’s van enkele seconden genereerde, creëert de nieuwe AI simulaties van meerdere minuten met een resolutie van 720p. Gebruikers kunnen door de omgevingen navigeren met behulp van het toetsenbord of de richtingsknoppen.

Een van de meest opvallende kenmerken van Genie 3 is dat het is gebaseerd op autoregressieve generatie, een techniek waarmee het de wereld frame voor frame kan opbouwen door zich het vorige te herinneren. Hierdoor blijft de fysieke consistentie behouden, zodat gebruikers naar een eerder moment kunnen terugkeren. Google wijst erop dat de autoregressieve techniek onnauwkeurigheden kan toevoegen, maar de omgevingen blijven consistent, met een visueel geheugen dat een minuut teruggaat.

Wat de prestaties betreft, kan Genie 3 scènes met complexe fysische eigenschappen genereren. Voorbeelden zijn een jetski die midden in de nacht over een meer vaart, een wandeling door het bos of een skydiving-tocht langs een klif.

Google Genie 3 genereert werelden om andere AI-agenten te trainen

De video’s bevatten navigatieknoppen om de camera te bewegen of door de omgeving te navigeren, maar het is ook mogelijk om interacties te programmeren. Dit laatste is vergelijkbaar met wat we zagen in Black Mirror: Bandersnatch, waar de gebruiker een gebeurtenis kan kiezen die daarna plaatsvindt. Gebeurtenissen kunnen worden geprogrammeerd via prompts op basis van een tekstinstructie, die de elementen van de virtuele wereld veranderen.

Hoewel Genie 2 zich positioneerde als een alternatief voor het ontwerpen van werelden voor videogames, bevindt zijn opvolger zich op een ander niveau. Naast entertainmenttoepassingen wordt Genie 3 gebruikt om AI-agenten te trainen in verschillende gesimuleerde omgevingen. Google vermeldde dat het het nieuwe model heeft gebruikt om zijn SIMA-agent te leren verschillende acties uit te voeren in virtuele scenario’s.

“Wij geloven dat wereldmodellen cruciaal zijn op weg naar algemene kunstmatige intelligentie, met name voor ingebouwde agents, waar het simuleren van scenario’s uit de echte wereld bijzonder uitdagend is”, aldus Jack Parker-Holder, onderzoekswetenschapper bij DeepMind.

Ondanks de vooruitgang is Genie 3 niet perfect. Het simuleren van fysiek gedrag heeft zijn details en AI kan locaties in de echte wereld niet geografisch nauwkeurig weergeven. Het is ook niet mogelijk om meerdere agents met elkaar te laten communiceren in dezelfde omgeving, of om langdurige trainingen uit te voeren.

Op dit moment zal Genie 3 niet beschikbaar zijn voor het publiek, hoewel het bedrijf al overweegt om het aan te bieden aan AI-onderzoekers en -ontwikkelaars. Google gelooft dat zijn AI een impact kan hebben op de training van robots en autonome systemen.

Google Genie 3 genereert werelden om andere AI-agenten te trainen

Gerelateerde berichten