¿Qué tan cerca estamos de la AGI? Apple cuestiona los límites de los LLMs
El artículo “The Illusion of Thinking“, publicado por investigadores de Apple, marca un nuevo hito en la discusión sobre los límites del razonamiento artificial. Mucho más allá de ser otro estudio técnico, el estudio es una aproximación meticulosa y profundamente reflexiva a las verdaderas capacidades de los LLMs. Valiéndose de entornos de rompecabezas controlados, el equipo logró superar los métodos tradicionales de evaluación, que muchas veces se limitan a medir la precisión en tareas de codificación o matemáticas. Aquí, en cambio, se investiga cómo los modelos piensan, cómo estructuran sus razonamientos y cómo fallan cuando el desafío se vuelve verdaderamente complejo. El resumen: Los LLMs no “razonan”, por lo que no estaríamos precisamente ante inteligencia artificial, sino solamente ante algoritmos predictivos. Con ello, la idea de desarrollar la AGI a partir del desarrollo de los LLMs es simplemente una ilusion.
El experimento de Apple, en entornos controlados, permitió manipular con precisión la complejidad de los problemas, lo que facilitó una observación más rigurosa del comportamiento de los modelos. La decisión de abandonar los benchmarks tradicionales a favor de trazas internas del proceso de pensamiento no es al azar, sino que demuestra la preocupación de Apple por la calidad y profundidad del razonamiento, más allá de los resultados. ¿Será tal vez ésta la razón del retraso continuo de Apple en términos de Inteligencia Artificial, siendo sus herramientas como Apple Intelligence un mero espejismo a la espera de desarrollar una herramienta 100% funcional? Lo cierto, es que, en este giro metodológico, el equipo de investigación logra demostrar la paradoja fundamental: mientras más complejos son los problemas, más evidente se hace la limitación de los LLMs. La caída en rendimiento no es gradual, sino abrupta; los modelos simplemente colapsan en su capacidad de entregar respuestas coherentes.
El estudio de Apple: Más allá de los benchmarks
Uno de los experimentos realizados por los investigadores, fue a través de ejercicios con Las Torres de Hanói, un rompecabezas inventado en 1883 por Édouard Lucas, que consiste en mover una pila de discos de distinto tamaño entre tres postes, siguiendo reglas específicas. La investigación estableció claramente tres regímenes de complejidad: baja, media y alta. Esta clasificación permitió observar cómo varía el comportamiento del modelo según el nivel de dificultad. En niveles bajos, los modelos operan razonablemente bien; en niveles medios, muestran signos de razonamiento más sofisticado, aunque no siempre certero; pero es en los niveles altos donde ocurre el desplome. Es aquí donde los LLMs no solo fallan en entregar una respuesta correcta, sino que además exhiben patrones de razonamiento erráticos o, en algunos casos, simplemente dejan de razonar. Así, cuando hay pocos discos en la torre, los modelos logran resolverlo bien, pero con muchos (como 15 o más), dejan de resolver correctamente antes de completar todos los movimientos, lo que demuestra que tienen dificultades con problemas muy complejos y por ende, su “razonamiento” estaría más que cuestionado.
¿Pensamiento humano o patrones erráticos?
La observación esencial de la investigación contradice una creencia extendida en el campo de la inteligencia artificial: que el aumento en la capacidad computacional y en los parámetros del modelo equivale a una mejora proporcional en su habilidad de razonar. Lo que este trabajo demuestra es que, más allá de cierto umbral de complejidad, estos modelos no mejoran, sino que al contrario, retroceden. De hecho, se ha observado que, en algunos casos, su esfuerzo cognitivo disminuye en lugar de incrementarse. Es como si la sobrecarga del problema provocara una especie de rendición interna. ¿Una especie de “renuncia silenciosa”, tal vez?
Esto también plantea nuevas interrogantes sobre la escalabilidad. ¿Hasta qué punto podemos seguir aumentando la capacidad de los modelos sin revisar su arquitectura de razonamiento? ¿Cuánto del fracaso radica no en la cantidad de datos o parámetros, sino en la forma en que estructuran el pensamiento? La metáfora de que “piensan” como humanos se deshace rápidamente cuando se observa que sus procesos no se adaptan ni escalan con la dificultad, sino que colapsan ante ella. En el razonamiento humano, han sido los desafíos lo que ha permitido el desarrollo del pensamiento.
A diferencia de los modelos tradicionales de lenguaje, que operan con eficacia en tareas sencillas mediante patrones estadísticos, los LLMs están diseñados para emular procesos cognitivos más complejos. Sin embargo, se observó que los modelos tienden a sobrepensar en tareas simples y, sorprendentemente, a reducir su esfuerzo en tareas difíciles. Esto sugiere que la manera en que gestionan la complejidad interna no sigue una lógica humana ni algorítmica eficiente, sino que responde a patrones aún mal comprendidos. Además, los LLMs no logran beneficiarse de algoritmos explícitos ni realizar cálculos exactos cuando el entorno lo requiere. Esto los diferencia radicalmente de los sistemas simbólicos clásicos, que sí pueden garantizar precisión a través de estructuras lógicas (como nuestras calculadoras).
Si la promesa de los LLMs era lograr la robustez del aprendizaje profundo con la precisión del razonamiento simbólico, lo que muestra este estudio es que esa fusión aún no se ha materializado con éxito.
El hecho de que los modelos exhiban patrones inconsistentes en distintos tipos de rompecabezas apunta a una limitación de diseño más que a una falta de entrenamiento. Incluso con grandes volúmenes de datos y sofisticadas técnicas de afinamiento, el comportamiento sigue siendo impredecible. Esto refuerza la tesis de que los problemas no se resuelven simplemente alimentando al modelo con más ejemplos, sino repensando desde la base su arquitectura de razonamiento.
El mito del escalado y la AGI
En un marco más simbiótico, como es el que personalmente siempre he prefierido adoptar, estos modelos no deben ser entendidos como sustitutos del pensamiento humano, sino como asistentes cognitivos que complementan nuestras capacidades. Pretender que ya hemos alcanzado la inteligencia artificial general (AGI) es no solo una exageración, sino una ilusión que beneficia más a las ganancias corporativas que a la investigación científica. El uso de trazas internas para entender el razonamiento de los modelos se convierte así en un paso útil para avanzar de aquí en adelante. Seguramente todos los principales modelos LLMs entenderán esta misión: no basta con evaluar la respuesta final; hay que descomponer el trayecto que llevó hasta ella. Esta visión coincide con una postura epistemológica más amplia: el conocimiento no se valida sólo por sus resultados, sino también por la transparencia del proceso que lo produce. Esta exigencia, si bien más rigurosa, también es más ética, tal y como siempre se plantea en el mundo educativo.
Así, la opacidad en el funcionamiento interno de los LLMs, la llamada “caja negra”, ha sido una de las críticas más persistentes en el campo. El artículo de Apple aporta herramientas para mitigar esa opacidad al ofrecer una metodología clara para estudiar cómo razonan los modelos, lo que abre la puerta a mejores sistemas con mayor confianza pública en su uso, algo especialmente necesario si consideramos su creciente uso en ámbitos sensibles como la justicia, la salud o la educación. En otras palabras, no estamos ante un callejón sin salida, sino ante un diagnóstico honesto que puede orientar el progreso.
No estamos ante un callejón sin salida, sino ante un diagnóstico honesto que puede orientar el progreso.
De asistentes a pensadores: el rol de los LLMs
Los errores que cometen los modelos no son aleatorios: siguen patrones. Y esos patrones pueden ser útiles para el rediseño. Por ejemplo, el hecho de que sobrepiensen problemas simples, da a entender una falta de eficiencia debido a la deficiente calibración en sus sistemas de decisión interna, lo que abre la puerta al diseño de modelos más alineados con procesos humanos de resolución de problemas, donde complejidad del problema y nivel de razonamiento van, generalmente, de la mano. El enfoque de trazabilidad y explicación también abre nuevas vías para la educación y el aprendizaje automático interpretativo. Imaginemos sistemas capaces no solo de responder, sino de enseñar a otros humanos y otras máquinas cómo razonar. Eso implicaría un cambio de paradigma en la relación entre humanos y máquinas, más cercana a la mentoría que a la automatización.
En este sentido, el enfoque de Apple en este artículo no solo es científico, sino también filosófico. Nos obliga a preguntarnos qué entendemos por razonamiento, por inteligencia, por comprensión. Y lo hace en un momento histórico en que muchos están dispuestos a aceptar respuestas tecnológicas sin cuestionarlas demasiado, cegados por la promesa de la AGI. En últimos términos, se nos invita a una pausa, a un replanteamiento, a una maduración del discurso. En lugar de perseguir la AGI como un fin inevitable, propone que comprendamos y mejoremos lo que ya tenemos.
Esa comprensión sólo puede venir de una evaluación honesta y rigurosa, que incluya tanto lo que los modelos hacen bien, como lo que no. Con todo esto en mente, se vuelve evidente que el camino hacia una inteligencia artificial verdaderamente robusta no será una línea recta. Requerirá fracasos, ajustes, humildad. Requerirá mirar no sólo hacia adelante, sino también hacia adentro, buscando siempre una brújula racional para el viaje que aún nos queda por recorrer.

Desarrollo websites desde los 15 años. Me apasiona el diseño gráfico y los desafíos expresados en algún lenguaje de programación. Me gusta leer, escribir y oír música. Disfruto de los regalos sencillos de la vida, con una mirada crítica y revisionista de absolutamente todo lo que me rodea. Dios es fiel.