AI-doorbraak: modellen leren nu door zichzelf vragen te stellen

21
AI-doorbraak: modellen leren nu door zichzelf vragen te stellen

Kunstmatige intelligentie is voor het leren lange tijd afhankelijk geweest van imitatie of door de mens gedefinieerde taken. Maar een nieuwe aanpak, genaamd ‘Absolute Zero Reasoner’ (AZR), brengt daar verandering in. Onderzoekers van de Tsinghua Universiteit, het Beijing Institute for General Artificial Intelligence (BIGAI) en de Pennsylvania State University hebben aangetoond dat AI zijn redeneer- en codeervaardigheden aanzienlijk kan verbeteren door zijn eigen problemen te genereren en te proberen deze op te lossen – een proces dat het menselijk leren weerspiegelt.

De absolute nulredeneerder

Het AZR-systeem werkt in een lus: ten eerste gebruikt het een groot taalmodel om uitdagende, maar oplosbare Python-coderingsproblemen te creëren. Vervolgens probeert hetzelfde model deze problemen op te lossen en verifieert de oplossingen door de code uit te voeren. Het systeem verfijnt zichzelf vervolgens door successen en mislukkingen te gebruiken om zowel het probleemstellende als het probleemoplossende vermogen te verbeteren.

Deze zelfspelaanpak leverde opmerkelijke resultaten op. De 7 en 14 miljard parameterversies van het Qwen open-source taalmodel vertoonden een aanzienlijke boost in codering en redenering, en overtroffen zelfs modellen die waren getraind op door mensen samengestelde datasets.

Waarom dit ertoe doet: meer dan imitatie

De implicaties van dit onderzoek zijn aanzienlijk. Jarenlang werd de ontwikkeling van AI beperkt door de behoefte aan enorme, door mensen gelabelde datasets. Deze nieuwe methode doorbreekt die afhankelijkheid en opent mogelijk een pad naar capabelere, zelfverbeterende AI. Zoals Dr. Andrew Zhao, een van de makers van het project, opmerkt, bootst dit de manier na waarop mensen leren: “In het begin imiteer je… maar dan moet je je eigen vragen stellen.”

Het concept is niet nieuw – pioniers als Jürgen Schmidhuber en Pierre-Yves Oudeyer onderzoeken al jaren zelfspel – maar het AZR-systeem demonstreert zijn effectiviteit op een tastbare manier. Belangrijk is dat de moeilijkheidsgraad van de problemen schaalt met de groeiende kracht van het model, waardoor een voortdurende cyclus van verbetering ontstaat.

Huidige beperkingen en toekomstige mogelijkheden

Momenteel blinkt het systeem uit in taken met gemakkelijk verifieerbare oplossingen (zoals coderen). De uitdaging ligt nu in het uitbreiden van deze aanpak naar complexere, realistische scenario’s. Agentische AI-taken zoals surfen op het web of kantoorautomatisering zouden de volgende kunnen zijn, waarbij AI zijn eigen prestaties op deze taken beoordeelt.

Sommige onderzoekers geloven zelfs dat dit een stap zou kunnen zijn in de richting van kunstmatige algemene intelligentie (AGI). Dr. Zilong Zheng legt uit: “Als we dat eenmaal hebben, is het een soort manier om superintelligentie te bereiken.”

Industrie-adoptie en volgende stappen

De AZR-aanpak wint al terrein in de branche. Salesforce, Stanford en de Universiteit van North Carolina in Chapel Hill hebben Agent0 ontwikkeld, een zelfverbeterende agent die vergelijkbare principes gebruikt. Meta, de Universiteit van Illinois en Carnegie Mellon University hebben ook werk gepubliceerd over zelfspelen voor software-engineering.

Nu conventionele gegevensbronnen schaarser en duurder worden, vertegenwoordigt zelfspelen een cruciale evolutie in de ontwikkeling van AI. In de toekomst kunnen AI-systemen autonoom leren en zich aanpassen, in plaats van uitsluitend te vertrouwen op door mensen aangeleverde gegevens.

Deze verschuiving signaleert een bredere trend in de richting van AI die minder afhankelijk is van imitatie en beter in staat is tot onafhankelijk redeneren en probleemoplossing, waardoor het landschap van kunstmatige intelligentie mogelijk opnieuw vorm krijgt.