La ciencia detrás de uno de los pilares de la IA tiene un origen tan inesperado como desconocido: palomas picoteando por comida

La ciencia detrás de uno de los pilares de la IA tiene un origen tan inesperado como desconocido: palomas picoteando por comida

Imagina un misil guiado por una paloma. Suena absurdo, pero ocurrió en plena guerra: alguien propuso entrenarlas para picotear el objetivo desde una pantalla y redirigir así el proyectil. El sistema nunca se llegó a usar, pero dejó algo más potente que la anécdota: una forma de aprender basada en prueba, error y recompensa. La comparación ayuda a entender la lógica, pero no es literal: hoy no hay aves en los algoritmos; lo que se mantiene es la idea de reforzar conductas mediante señales. Esa lógica, simple y directa, es la que hoy siguen muchos modelos de inteligencia artificial. Lo que antes era una respuesta condicionada por comida, ahora es una puntuación, una preferencia o una indicación humana que el modelo aprende a perseguir.

De las palomas al código. Cómo una IA aprende a perseguir la recompensa

El mecanismo de prueba y refuerzo no se perdió con el paso del tiempo. En las décadas de 1940 y 1950, el psicólogo estadounidense Burrhus Frederic Skinner formalizó esa idea con su teoría del “condicionamiento operante”: un comportamiento aumenta su probabilidad de repetirse si sus consecuencias son positivas. Aunque el conductismo fue desplazado por enfoques centrados en los procesos mentales, su lógica encontró un nuevo campo en la informática. Desde finales de los setenta y, sobre todo, en los ochenta y noventa, Richard Sutton y Andrew Barto la aplicaron al diseño de agentes artificiales capaces de actuar, recibir una señal y ajustar su política, como recoge ‘Reinforcement Learning: An Introduction’.

Como apunta MIT Technology Review, la idea de moldear comportamientos sin recurrir a reglas fijas se convirtió en una herramienta útil para enseñar a las máquinas. A partir de los años ochenta, el aprendizaje por refuerzo empezó a implementarse en algoritmos que exploran entornos simulados, fallan, reciben retroalimentación y vuelven a intentarlo. No siguen instrucciones humanas paso a paso: aprenden en función del resultado. Ese enfoque demostró ser especialmente eficaz en tareas con objetivos claros, como los juegos. Y fue ahí donde dio uno de sus saltos más visibles.

La historia de AlphaGo marcó un antes y un después en la inteligencia artificial. En marzo de 2016, venció al surcoreano Lee Sedol por 4-1 en una serie de partidas de Go. Lo logró combinando aprendizaje supervisado de partidas humanas y aprendizaje por refuerzo. Un año más tarde, DeepMind fue un paso más allá con AlphaGo Zero. En lugar de entrenarse con datos humanos, partió de cero y aprendió jugando contra sí mismo: cada victoria reforzaba su estrategia, cada derrota la corregía. En 40 días superó no solo al campeón humano, sino también a todas las versiones anteriores del propio AlphaGo.

Hoy, el aprendizaje por refuerzo no solo se usa en juegos; también se emplea para afinar los modelos que hay detrás de servicios como ChatGPT. El sistema de OpenAI incorpora una técnica conocida como aprendizaje por refuerzo con retroalimentación humana (RLHF): personas comparan respuestas del modelo y esas preferencias se convierten en una señal que guía su evolución. De acuerdo con OpenAI, esta fase busca alinear el comportamiento del modelo con la intención del usuario. No aprende reglas explícitas, sino patrones que maximizan la recompensa, es decir, aquello que recibe mejores valoraciones.

El refuerzo funciona, pero no sirve para todo. Su eficacia depende de que la señal esté bien definida y represente bien el objetivo. Si es confusa o está mal diseñada, el sistema puede adoptar estrategias ineficaces o incluso problemáticas. Esto ha alimentado un debate científico. Algunos biólogos han señalado la paradoja: el aprendizaje por asociación se considera limitado en animales, pero se celebra en IA cuando produce resultados avanzados. No es casual que las grandes tecnológicas hayan adoptado este enfoque. Más de 80 años después de aquel experimento con palomas, sus picotazos siguen presentes de alguna manera en la tecnología que usamos cada día.

Imágenes | NIST Museum | Google | Xataka con Gemini 2.5 Pro

En Xataka | El extraño caso de la IA menguante: cómo los modelos diminutos le están sacando los colores a los mastodontes de la IA


La noticia

La ciencia detrás de uno de los pilares de la IA tiene un origen tan inesperado como desconocido: palomas picoteando por comida

fue publicada originalmente en

Xataka

por
Javier Marquez

.