Inteligencia Artificial

El nuevo modelo de IA de OpenAI logró una puntuación alta en una prestigiosa prueba de razonamiento

El nuevo modelo de inteligencia artificial o3 de OpenAI logró una puntuación alta en la prestigiosa prueba de razonamiento de IA llamada ARC Challenge, lo que inspiró a algunos fanáticos de la IA a especular que o3 ha logrado inteligencia artificial general (AGI). Pero incluso cuando los organizadores del ARC Challenge describieron el logro de o3 como un hito importante, también advirtieron que no ganó el gran premio de la competencia, y es solo un paso en el camino hacia AGI, un término para una hipotética IA futura con inteligencia similar a la humana.

El nuevo sistema o3 de OpenAI, entrenado en el conjunto de capacitación pública ARC-AGI-1, obtuvo un avance del 75,7 % en la evaluación semiprivada establecida en nuestro límite de cómputo público de $ 10 mil establecido en nuestra tabla de clasificación pública. Una configuración o3 de alto procesamiento (172x) obtuvo una puntuación del 87,5% .

Se trata de un aumento sorprendente e importante de la función escalonada en las capacidades de la IA, que muestra una capacidad novedosa de adaptación de tareas nunca antes vista en los modelos de la familia GPT. A modo de contexto, ARC-AGI-1 tardó 4 años en pasar del 0% con GPT-3 en 2020 al 5% en 2024 con GPT-4o. Toda la intuición sobre las capacidades de la IA deberá actualizarse para o3.

¿Qué es AGI?

ARC-AGI sirve como punto de referencia crítico para detectar tales avances, destacando el poder de generalización de una manera que los puntos de referencia saturados o menos exigentes no pueden. Sin embargo, es importante tener en cuenta que ARC-AGI no es una prueba de fuego para el AGI, como lo hemos repetido decenas de veces este año. Es una herramienta de investigación diseñada para centrar la atención en los problemas no resueltos más desafiantes de la IA, una función que ha cumplido bien durante los últimos cinco años.

Pasar ARC-AGI no equivale a lograr AGI y, de hecho, no creo que o3 sea AGI todavía. o3 todavía falla en algunas tareas muy fáciles, lo que indica diferencias fundamentales con la inteligencia humana.

Además, los primeros datos sugieren que el próximo punto de referencia ARC-AGI-2 seguirá representando un desafío importante para o3, reduciendo potencialmente su puntuación a menos del 30% incluso con un alto nivel de computación (mientras que un humano inteligente aún podría obtener una puntuación superior al 95%). sin formación). Esto demuestra la posibilidad continua de crear puntos de referencia desafiantes y no saturados sin tener que depender del conocimiento experto del dominio. Sabrá que AGI está aquí cuando el ejercicio de crear tareas que sean fáciles para los humanos comunes pero difíciles para la IA se vuelva simplemente imposible.

¿Qué tiene de diferente el o3 en comparación con los modelos más antiguos?

¿Por qué o3 obtiene una puntuación mucho más alta que o1? ¿Y por qué o1 obtuvo una puntuación mucho más alta que GPT-4o en primer lugar? Creo que esta serie de resultados proporciona datos invaluables para la búsqueda continua de AGI.

Mi modelo mental para los LLM es que funcionan como un depósito de programas vectoriales . Cuando se les solicite, buscarán el programa al que se asigna su mensaje y lo «ejecutarán» en la entrada en cuestión. Los LLM son una forma de almacenar y poner en funcionamiento millones de miniprogramas útiles mediante la exposición pasiva a contenido generado por humanos.

Este paradigma de «memorizar, buscar y aplicar» puede alcanzar niveles arbitrarios de habilidades en tareas arbitrarias con datos de entrenamiento apropiados, pero no puede adaptarse a la novedad ni adquirir nuevas habilidades sobre la marcha (es decir, no hay inteligencia fluida en juego). aquí.) Esto ha sido ejemplificado por el bajo desempeño de los LLM en ARC-AGI, el único punto de referencia diseñado específicamente para medir la adaptabilidad a la novedad: GPT-3 obtuvo una puntuación de 0, GPT-4 obtuvo una puntuación cercana a 0, GPT-4o obtuvo al 5%. Ampliar estos modelos hasta los límites de lo posible no fue lograr que los números ARC-AGI se acercaran a lo que la enumeración bruta básica podía lograr hace años (hasta un 50%).

Los organizadores del ARC Challenge ya están buscando lanzar un segundo y más difícil conjunto de pruebas comparativas en algún momento de 2025. También mantendrán el desafío ARC Prize 2025 en marcha hasta que alguien logre el gran premio y abra su solución.

Noticias de la Nube o Cloud Computing, Big Data, Blockchain, Fintech, Inteligencia Artificial, Móvil, Inversión, Soluciones, Tecnología, Ciberseguridad, Opinión, etc.

Dejar un Comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Noticias Relacionadas

1 of 2