KI-Durchbruch: Modelle lernen jetzt, indem sie sich selbst Fragen stellen

15
KI-Durchbruch: Modelle lernen jetzt, indem sie sich selbst Fragen stellen

Künstliche Intelligenz setzt beim Lernen schon lange auf Nachahmung oder vom Menschen vorgegebene Aufgaben. Doch ein neuer Ansatz namens „Absolute Zero Reasoner“ (AZR) ändert das. Forscher der Tsinghua-Universität, des Beijing Institute for General Artificial Intelligence (BIGAI) und der Pennsylvania State University haben gezeigt, dass KI ihre Denk- und Programmierfähigkeiten erheblich verbessern kann, indem sie ihre eigenen Probleme erzeugt und versucht, sie zu lösen – ein Prozess, der menschliches Lernen widerspiegelt.

Der Absolute Zero Reasoner

Das AZR-System arbeitet in einer Schleife: Zunächst verwendet es ein großes Sprachmodell, um anspruchsvolle, aber lösbare Python-Codierungsprobleme zu erstellen. Dann versucht dasselbe Modell, diese Probleme zu lösen und überprüft seine Lösungen, indem es den Code ausführt. Das System verfeinert sich dann selbst, indem es Erfolge und Misserfolge nutzt, um sowohl seine Fähigkeiten zur Problemstellung als auch zur Problemlösung zu verbessern.

Dieser Selbstspielansatz führte zu bemerkenswerten Ergebnissen. Die 7- und 14-Milliarden-Parameterversionen des Qwen-Open-Source-Sprachmodells zeigten einen erheblichen Fortschritt bei der Codierung und Argumentation und übertrafen sogar Modelle, die auf von Menschen kuratierten Datensätzen trainiert wurden.

Warum das wichtig ist: Jenseits von Nachahmung

Die Implikationen dieser Forschung sind erheblich. Seit Jahren wird die KI-Entwicklung durch den Bedarf an riesigen, von Menschen gekennzeichneten Datensätzen eingeschränkt. Diese neue Methode durchbricht diese Abhängigkeit und eröffnet möglicherweise den Weg zu einer leistungsfähigeren, sich selbst verbessernden KI. Wie Dr. Andrew Zhao, einer der Initiatoren des Projekts, betont, ahmt dies die Art und Weise nach, wie Menschen lernen: „Am Anfang ahmt man nach … aber dann muss man seine eigenen Fragen stellen.“

Das Konzept ist nicht neu – Pioniere wie Jürgen Schmidhuber und Pierre-Yves Oudeyer erforschen seit Jahren das Selbstspiel –, aber das AZR-System demonstriert seine Wirksamkeit auf greifbare Weise. Wichtig ist, dass die Schwierigkeit der Probleme mit der wachsenden Leistung des Modells skaliert, wodurch ein kontinuierlicher Verbesserungszyklus entsteht.

Aktuelle Einschränkungen und zukünftige Möglichkeiten

Derzeit zeichnet sich das System bei Aufgaben mit leicht überprüfbaren Lösungen (wie Codierung) aus. Die Herausforderung besteht nun darin, diesen Ansatz auf komplexere, reale Szenarien auszuweiten. Als nächstes könnten Agenten-KI-Aufgaben wie das Surfen im Internet oder die Büroautomatisierung folgen, wobei die KI ihre eigene Leistung bei diesen Aufgaben beurteilt.

Einige Forscher glauben sogar, dass dies ein Schritt in Richtung künstlicher allgemeiner Intelligenz (AGI) sein könnte. Dr. Zilong Zheng erklärt: „Sobald wir das haben, ist es eine Art Weg, Superintelligenz zu erreichen.“

Branchenakzeptanz und nächste Schritte

Der AZR-Ansatz gewinnt in der Branche bereits an Bedeutung. Salesforce, Stanford und die University of North Carolina in Chapel Hill haben Agent0 entwickelt, einen sich selbst verbessernden Agenten, der ähnliche Prinzipien verwendet. Meta, die University of Illinois und die Carnegie Mellon University haben ebenfalls Arbeiten zum Selbstspiel für die Softwareentwicklung veröffentlicht.

Da herkömmliche Datenquellen knapper und teurer werden, stellt Selbstspiel eine entscheidende Weiterentwicklung in der KI-Entwicklung dar. In der Zukunft könnten KI-Systeme entstehen, die autonom lernen und sich anpassen, anstatt sich ausschließlich auf von Menschen bereitgestellte Daten zu verlassen.

Diese Verschiebung signalisiert einen breiteren Trend hin zu KI, die weniger auf Nachahmung angewiesen ist und eher in der Lage ist, unabhängig zu argumentieren und Probleme zu lösen, was möglicherweise die Landschaft der künstlichen Intelligenz neu gestalten wird.