La inteligencia artificial se ha basado durante mucho tiempo en la imitación o en tareas definidas por humanos para aprender. Pero un nuevo enfoque, denominado “Absolute Zero Reasoner” (AZR), está cambiando eso. Investigadores de la Universidad de Tsinghua, el Instituto de Inteligencia Artificial General de Beijing (BIGAI) y la Universidad Estatal de Pensilvania han demostrado que la IA puede mejorar significativamente sus habilidades de razonamiento y codificación generando sus propios problemas e intentando resolverlos, un proceso que refleja el aprendizaje humano.
El razonador cero absoluto
El sistema AZR opera en un bucle: primero, utiliza un modelo de lenguaje grande para crear problemas de codificación Python desafiantes, pero solucionables. Luego, el mismo modelo intenta resolver estos problemas y verifica sus soluciones ejecutando el código. Luego, el sistema se refina utilizando éxitos y fracasos para mejorar tanto su capacidad de plantear como de resolver problemas.
Este enfoque de juego autónomo arrojó resultados notables. Las versiones de 7 mil millones y 14 mil millones de parámetros del modelo de lenguaje de código abierto Qwen mostraron un aumento significativo en la codificación y el razonamiento, superando incluso los modelos entrenados en conjuntos de datos seleccionados por humanos.
Por qué esto es importante: más allá de la imitación
Las implicaciones de esta investigación son sustanciales. Durante años, el desarrollo de la IA se ha visto limitado por la necesidad de conjuntos de datos masivos etiquetados por humanos. Este nuevo método rompe esa dependencia, lo que potencialmente abre un camino hacia una IA más capaz y automejorable. Como señala el Dr. Andrew Zhao, uno de los creadores del proyecto, esto imita cómo aprenden los humanos: “Al principio imitas… pero luego tienes que hacer tus propias preguntas”.
El concepto no es nuevo (pioneros como Jürgen Schmidhuber y Pierre-Yves Oudeyer han explorado el juego autónomo durante años), pero el sistema AZR demuestra su eficacia de forma tangible. Es importante destacar que la dificultad de los problemas aumenta con el poder creciente del modelo, creando un ciclo continuo de mejora.
Limitaciones actuales y posibilidades futuras
Actualmente, el sistema destaca en tareas con soluciones fácilmente verificables (como la codificación). El desafío ahora radica en ampliar este enfoque a escenarios más complejos del mundo real. Las tareas agentes de IA, como la navegación web o la automatización de oficinas, podrían ser las siguientes, y la IA juzgaría su propio desempeño en estas tareas.
Algunos investigadores incluso creen que esto podría ser un paso hacia la inteligencia artificial general (AGI). Como explica el Dr. Zilong Zheng: “Una vez que tengamos eso, será una especie de forma de alcanzar la superinteligencia”.
Adopción de la industria y próximos pasos
El enfoque AZR ya está ganando terreno en la industria. Salesforce, Stanford y la Universidad de Carolina del Norte en Chapel Hill han desarrollado Agent0, un agente de mejora personal que utiliza principios similares. Meta, la Universidad de Illinois y la Universidad Carnegie Mellon también han publicado trabajos sobre el juego autónomo para la ingeniería de software.
Dado que las fuentes de datos convencionales son cada vez más escasas y caras, el autojuego representa una evolución crucial en el desarrollo de la IA. El futuro puede ver sistemas de IA que aprendan y se adapten de forma autónoma, en lugar de depender únicamente de datos proporcionados por humanos.
Este cambio señala una tendencia más amplia hacia una IA que depende menos de la imitación y es más capaz de razonar y resolver problemas de forma independiente, lo que podría remodelar el panorama de la inteligencia artificial.
