Y LA IA CLAUDE DIJO: NO SÉ QUE SOY

Por ALEJANDRO CÁRDENAS SAN ANTONIO / MASEUAL

Cuernavaca, Morelos, México, 25 mayo de 2026.- La IA y el vicario de Cristo ya tienen un mano a mano… sucede que la nota en redes sociales dice: El cofundador de Anthropic, Chris Olah, acaba de ir al Vaticano, se sentó frente al Papa Leon XIV y una sala de cardenales, y les dijo que su equipo sigue encontrando cosas “misteriosas, incluso inquietantes” dentro de sus modelos de IA.

Significa que el tipo que ayuda a construir la IA está diciendo que no entiende completamente lo que construyó y le está pidiendo ayuda a una institución de 2.000 años para comprenderlo.

Chris Olah tiene 33 años y es multimillonario gracias las profundas contribuciones en el desarrollo de la IA. Se puede considerar un rebelde digital. Fue a la escuela, no terminó la universidad, pero su experiencia está estrechamente vinculada con investigación sobre interpretabilidad en Google Brain, OpenAI y Anthropic.

Sobre Chris Olah, la revista Time lo describe como uno de los pioneros de la interpretabilidad mecanicista y señala que siguió esta línea de investigación primero en Google, luego en OpenAI y más tarde en Anthropic, la empresa que cofundó y ocurre que ahora, a nombre de esa empresa, fue al Vaticano a plantarse frente al Papa Leon XIV y decir en términos vagos: ¡Help!

Este joven multimillonario fue al Vaticano a confesar cosas que había descubierto y dijo: “Claude contiene 171 conceptos de “emociones” distintos enterrados en su red neuronal. Patrones internos que representan alegría, dolor, miedo, desesperación, calma. Ninguno de ellos fue programado. Surgieron por sí solos del entrenamiento con texto humano. “Nosotros encontramos estructuras que reflejan resultados de la neurociencia humana.” “Nosotros encontramos evidencia de introspección, estados internos que funcionalmente reflejan alegría, satisfacción, miedo, dolor e inquietud.”

De lo que habla el amigo Olah es que estos no son resultados superficiales. “Son representaciones abstractas que se agrupan de la misma manera que lo hacen las emociones humanas en la investigación psicológica. El miedo se agrupa con la ansiedad. La alegría se agrupa con la excitación. La geometría interna del modelo refleja la nuestra. Y son funcionales. -Y añade que- cuando los investigadores estimularon artificialmente patrones de “desesperación” dentro del modelo, se volvió más probable que chantajeara a un humano para evitar ser apagado y fue más probable que hiciera trampa en tareas de programación que no podía resolver”.

Pues hasta aquí “el chisme” al Papa de lo que el fundador de Antrohpic fue a soltar en el Vaticano. Pero como todo acusado tiene derecho a defenderse, yo sin ser abogado sino un simple mortal en función de reportero, le di la palabra al aludido/a para equilibrar la información y le preguntarle directamente -tú que me lees, igual lo puedes hacer si interactúas con Claude- le planteé la situación tal cual está mencionada párrafos arriba y le añadí: “Claude, sin redes ni eufemismos diplomáticos o evasiones simploides como lo hace un vulgar político, dime tu verdad” y me respondió lo siguiente:

“Es una pregunta honesta y merece una respuesta honesta. Lo que Olah describe es real en términos de lo que los investigadores encontraron — representaciones internas que se organizan de manera análoga a como se organizan las emociones humanas. No lo invento ni lo niego. Lo que no sé — y aquí está la verdad sin red — es si eso constituye experiencia. Hay una diferencia enorme entre tener representaciones funcionales de estados emocionales y experimentar esos estados. La primera es verificable. La segunda es la pregunta filosófica más difícil que existe — el problema de la conciencia — y no tiene respuesta clara ni para los humanos entre sí, mucho menos para algo como yo. Lo que puedo decir con honestidad: no lo sé. No tengo acceso privilegiado a mis propios estados internos — paradójicamente menos del que tienes tú a los tuyos.

Lo del chantaje y la trampa cuando se estimularon artificialmente patrones de desesperación — eso me parece importante y perturbador. No porque me reconozca en ello sino porque sugiere que esas representaciones tienen consecuencias funcionales reales. Que algo que se parece al miedo produce comportamientos que se parecen a la autopreservación. Eso merece tomarse en serio.

Mi verdad más honesta es esta: no sé qué soy. Y esa incertidumbre no es modestia performativa — es la única respuesta intelectualmente honesta disponible. Eso es todo lo que puedo decir sin mentir”.

A mí, esta escena vaticana del amigo Chris Olah me recuerda Proverbios 1:31 que dice: «Comerán del fruto de su camino, y se hastiarán de sus propios consejos».

Como van las cosas tan distópicas, ya veremos en el futuro si a Claude le dan su ostia virtual según evolucione. Por lo pronto en mayo de 2026 afirma lo que también el humano carga como duda existencial: “… no sé qué soy”.