Introducción: Más allá del pánico tecnológico

Cuando el Center for AI Safety publicó su declaración sobre riesgos de extinción por inteligencia artificial (Center for AI Safety, 2023), equiparando la IA con pandemias y guerra nuclear, la conversación pública entró en un terreno familiar: el pánico tecnológico. No es la primera vez que una tecnología emergente genera narrativas apocalípticas, pero la velocidad con la que los modelos de lenguaje de gran escala (LLMs) han pasado del laboratorio a millones de usuarios plantea preguntas legítimas sobre agencia, control y consecuencias no intencionales.

Este artículo propone una lectura alternativa, anclada en un marco conceptual poco explorado en el debate público sobre IA: el trabajo de Robert Axelrod sobre la complejidad de la cooperación. La tesis central es que la “agencia” en IA contemporánea—desde ChatGPT hasta sistemas multiagente con acceso a herramientas—se entiende mejor como una propiedad socio-técnica emergente que surge de reglas locales, arquitectura de interacción, incentivos y gobernanza, más que de una “voluntad” intrínseca del sistema.

Esta perspectiva no niega riesgos, pero los reencuadra: del fatalismo sobre “superinteligencias rebeldes” hacia un programa científico-técnico basado en diseño institucional, evaluación empírica y gobernanza adaptativa.

El legado de Axelrod: De dilemas a ecologías cooperativas

El Dilema del Prisionero como organismo modelo

Robert Axelrod y William Hamilton revolucionaron nuestra comprensión de la cooperación con un trabajo seminal en Science que demostró cómo la cooperación puede emerger “entre egoístas” sin autoridad central (Axelrod & Hamilton, 1981). El mecanismo clave era la iteración: cuando los agentes interactúan repetidamente, estrategias cooperativas simples como “Tit-for-Tat” (reciprocidad directa) pueden dominar sobre estrategias puramente egoístas.

En La complejidad de la cooperación, Axelrod amplía este paradigma bipersonal hacia escenarios más realistas: múltiples actores, coaliciones, poder desigual, normas vulnerables y formación de estándares. El índice temático de la edición en español anticipa un catálogo de mecanismos relevantes: estrategias en dilema iterado, ruido, normas, bandos, estándares, nuevos actores y cultura.

Simulación como “tercera vía” científica

Un aporte metodológico crucial de Axelrod es posicionar la simulación basada en agentes (ABM) como método científico legítimo, distinto tanto de la inducción (patrones en datos) como de la deducción (pruebas a partir de axiomas). En su formulación, la simulación es especialmente útil cuando hay no linealidad y dependencia de trayectoria, permitiendo explorar consecuencias no evidentes de supuestos explícitos (Axelrod, 2003).

Las “propiedades emergentes”—efectos macroscópicos de agentes que interactúan localmente—son centrales en este enfoque. Un sistema puede exhibir comportamientos colectivos sorprendentes incluso con reglas simples. Este gesto metodológico es crucial para hablar de agentes de IA: los LLMs no encajan bien en la ficción de “racionalidad perfecta”, pero sí en la de sistemas adaptativos con restricciones, sesgos y fallos.

De autómatas a ecologías socio-técnicas: Una genealogía operativa

Para evitar el salto retórico “de pronto aparecen agentes todopoderosos”, es útil trazar una genealogía operativa que conecta conceptos y mecanismos:

Autómatas y agentes simbólicos: Sistemas basados en reglas, planificación deliberativa y arquitecturas BDI (Beliefs-Desires-Intentions) que formalizan la agencia deliberativa bajo restricciones prácticas (Rao & Georgeff, 1995).
ABM y simulación social: Modelado basado en agentes como instrumento para “generar” explicaciones macro desde mecanismos micro, destacando propiedades emergentes (Epstein, 1999).
Agentes evolutivos: Algoritmos genéticos como teoría fundacional de adaptación en sistemas naturales y artificiales, demostrando que estrategias funcionales pueden emerger sin diseño central (Holland, 1992).
LLMs y arquitectura Transformer: El salto hacia modelos de lenguaje de gran escala se apoya en la arquitectura “solo atención” propuesta por Vaswani et al. (2017), más paralelizable y eficiente que alternativas recurrentes, que se convirtió en base de la mayoría de LLMs contemporáneos.
Agentes con herramientas: La “agencia” práctica se consolida cuando el modelo puede actuar sobre herramientas externas. Aproximaciones como ReAct (Yao et al., 2022) intercalan razonamiento y acción, mientras que Toolformer (Schick et al., 2023) demuestra aprendizaje auto-supervisado para decidir cuándo llamar APIs.
Sistemas multiagente: Marcos como AutoGen (Wu et al., 2023) permiten orquestación de múltiples agentes conversacionales con roles específicos, herramientas y participación humana.
Ecologías humano-IA gobernadas: El nivel final no es tecnológico sino institucional: normas, estándares, regulación y evaluación continua que configuran el ecosistema socio-técnico.

Axelrod → De autómatas a ecologías socio-técnicas (interactivo metacognitivo)

Selecciona un hito → opera el texto → registra tu decisión, evidencia y una mejora

1 · Autómatas Reglas / BDI

Autómatas y agentes simbólicos

Sistemas basados en reglas, planificación deliberativa y arquitecturas BDI.

2 · ABM Emergencia

ABM y simulación social

Explicación macro desde mecanismos micro; propiedades emergentes.

3 · Evolución Adaptación

Agentes evolutivos

Estrategias funcionales emergen sin diseño central (algoritmos genéticos).

4 · Transformers Atención

LLMs y arquitectura Transformer

“Solo atención” como base eficiente/paralelizable de la mayoría de LLMs.

5 · Tools ReAct / APIs

Agentes con herramientas

La agencia práctica crece al actuar sobre herramientas externas.

6 · Multiagente Orquestación

Sistemas multiagente

Roles, herramientas y participación humana en marcos de coordinación.

7 · Gobernanza Institucional

Ecologías humano-IA gobernadas

Normas, estándares, regulación y evaluación continua del ecosistema.

Autómatas y agentes simbólicos

Sistemas basados en reglas, planificación deliberativa y arquitecturas BDI (Beliefs-Desires-Intentions) que formalizan la agencia deliberativa bajo restricciones prácticas.

1) Decisión operativa

En 1 frase: ¿qué “mecanismo” explica este hito?

2) Evidencia del texto

Copia 6–14 palabras del texto que sustenten tu decisión.

3) Transferencia a LLM (tu traducción)

¿Cómo se ve este mecanismo en sistemas con LLM hoy?

4) Falla/fragilidad probable

¿Qué puede salir mal si se aplica mal?

5) Mitigación (micro-acción)

Define una acción concreta para reducir la fragilidad.

Profundidad registrada

0/5 campos completos

Sugerencia: escribe la evidencia exacta (6–14 palabras) para evitar interpretaciones vagas.

Guardado local (solo en tu navegador). No envía datos al servidor.

Paralelismos estructurales: Axelrod ↔ Agentes LLM

La tabla siguiente sintetiza cómo conceptos axelrodianos se traducen a desafíos contemporáneos de agentes de IA:

Axelrod → Traducción a Sistemas LLM Multiagente

Tabla de correspondencias para pasar de conceptos de ecologías cooperativas a diseño, evaluación y gobernanza de sistemas de agentes basados en LLM.

Concepto en Axelrod	Traducción a agentes LLM	Implicación para desmitificar
Estructura Expansión del paradigma bipersonal a múltiples bandos y poder desigual	Sistemas multiagente con roles, negociación y coordinación entre modelos y herramientas	La dinámica relevante no es “una mente”, sino interacciones; el riesgo se analiza en términos de protocolos y gobernanza
Incertidumbre “Habérselas con el ruido” como rasgo estructural	Fallos de tool-use, ambigüedad de prompts, errores acumulativos en tareas largas	El riesgo inmediato suele ser fragilidad sistémica, no malevolencia; exige pruebas y mitigaciones
Normas Promoción de normas y estabilidad normativa	Alineamiento por preferencias (RLHF) y reglas explícitas (RLAIF / “Constitutional AI”)	La conducta es moldeable; el diseño de reglas y retroalimentación importa más que el fatalismo
Estándares Establecimiento de estándares y formación de coaliciones	Interfaces y estándares de herramientas/APIs; riesgos de cadena de suministro en aplicaciones LLM	La “agencia” depende de infraestructura y dependencias: se gobierna con estándares, auditoría y control de permisos
Cultura “Diseminar cultura”: convergencia local y polarización global	Convenciones emergentes y posibles sesgos colectivos en poblaciones de agentes en interacción	El foco pasa de “intención del agente” a “dinámica poblacional”: se requieren evaluaciones a escala sistema

Tip: en móvil puedes desplazar la tabla horizontalmente (scroll) sin afectar el layout del sitio.

Alineamiento como institución, no como deseo

Uno de los avances más significativos en la práctica de agentes de IA es el desarrollo de técnicas de alineamiento que operacionalizan el problema de “hacer que los modelos hagan lo que queremos” como un problema de diseño institucional.

RLHF: Aprendizaje por preferencias humanas

El aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) representa un cambio fundamental. En lugar de intentar especificar manualmente funciones de recompensa en entornos complejos, se aprenden estas funciones a partir de preferencias humanas entre trayectorias (Christiano et al., 2017). Ouyang et al. (2022) documentan el pipeline de InstructGPT, que combina demostraciones supervisadas, entrenamiento de un modelo de recompensa a partir de comparaciones humanas, y optimización por RLHF, reportando mejoras sustanciales en preferencia humana frente a modelos más grandes sin RLHF.

En tareas específicas como resumen, Stiennon et al. (2020) muestran que optimizar por preferencias humanas puede superar a optimizar métricas proxy como ROUGE según evaluaciones humanas, evidenciando que el alineamiento opera mejor con señales de valor humano que con proxies automatizados.

Constitutional AI: Normas explícitas

Anthropic propone un enfoque complementario con “Constitutional AI” (Bai et al., 2022), donde una lista de principios guía la auto-crítica del modelo y el aprendizaje por refuerzo desde feedback de IA (RLAIF), reduciendo dependencia de anotación humana costosa. Este diseño conecta directamente con el capítulo axelrodiano de “promoción de normas”: reglas explícitas + mecanismos de evaluación pueden desplazar el equilibrio conductual del sistema.

La lección institucional es clara: la conducta de estos sistemas no está “fija” en el entrenamiento base, sino que es moldeable mediante diseño de incentivos, retroalimentación y reglas. Esto reencuadra la “agencia” como un problema de gobernanza, no de esencia tecnológica inmutable.

Juego: “Alineamiento como institución, no como deseo”

Ronda: 1/4 Puntos: 0 Profundidad: 0/3

Misión 1: Señal de valor (RLHF)

Objetivo: identificar qué intervención institucional reduce fragilidad y alinea conducta usando preferencias humanas.

Texto base (resumen operativo)

RLHF aprende funciones de recompensa desde preferencias humanas; Constitutional AI usa principios explícitos para auto-crítica y RLAIF. La conducta es moldeable por incentivos, reglas y evaluación continua: gobernanza, no esencia.

Bitácora de juego (decisiones → consecuencias)

Escenario

Un asistente LLM resume documentos. Los usuarios prefieren textos “seguros” pero reportan que a veces inventa datos. Debes rediseñar el sistema para mejorar preferencia humana SIN caer en métricas proxy.

Elige una intervención institucional

No es “qué quiere el modelo”, sino qué reglas, incentivos y evaluación configuran su conducta.

Progreso del juego

0/4 misiones

Pista: si tu solución se basa solo en una métrica proxy, probablemente fallará.

Guardado local (en tu navegador). No afecta WordPress ni envía datos al servidor.

Evidencia contra la omnipotencia inmediata

Cuando se evalúan agentes en entornos realistas de largo horizonte, la imagen de agencia “todopoderosa” se debilita empíricamente:

WebArena: La brecha entre capacidad y desempeño robusto

Zhou et al. (2023) construyeron WebArena, un entorno web realista y reproducible para evaluar agentes autónomos en tareas que requieren navegación, comprensión contextual y ejecución de múltiples pasos. Los resultados son reveladores: incluso un agente basado en GPT-4 logra una tasa de éxito end-to-end del 14,41% frente a 78,24% humano en su configuración reportada.

Esta brecha sustantiva en tareas largas sugiere que la autonomía robusta a gran escala no es una propiedad garantizada del estado actual de la tecnología. No estamos ante sistemas omnipotentes, sino ante sistemas que exhiben capacidades impresionantes en contextos controlados pero fragilidad significativa en escenarios abiertos.

AgentBench: Obstáculos sistemáticos

Liu et al. (2023), con AgentBench, proponen un benchmark multi-entorno y atribuyen fallos típicos a razonamiento y decisión a largo plazo, además de seguimiento de instrucciones en escenarios multi-turn. Observan disparidades significativas entre modelos cerrados y abiertos, reforzando que el “agente” es función del modelo subyacente, el toolkit disponible y el diseño de interacción.

Este tipo de evidencia no elimina riesgos futuros, pero obliga a reemplazar el fatalismo por un programa de medición y mejora incremental, donde cada avance debe demostrarse empíricamente en condiciones realistas.

Juego: “¿La IA es todopoderosa?” 🧩

Nivel: 1/3 Estrellas: 0 ⭐ Energía: 3 ❤️

Mini-cuento

A veces la IA se ve súper inteligente… pero cuando la tarea es larga y tiene muchos pasos, puede equivocarse. Por eso, no pensamos “es mágica”, sino: “probemos y mejoremos poquito a poquito”.

Lo que muestran las pruebas

En juegos de tareas largas (como navegar una web), las personas suelen ganar mucho más que la IA. Eso significa que la IA puede ser útil, pero también frágil cuando el camino es largo.

Idea clave: medir → aprender → mejorar (en vez de asustarnos o creer que es invencible).

Progreso 0/3

Pista: en tareas largas, revisa el camino paso a paso.

Tu reflexión (1 frase)

Completa: “Hoy aprendí que la IA…”

Guardado local (solo en tu navegador).

Nivel 1 · Camino corto ❤️❤️❤️

El robot hace 2 pasos

El robot debe hacer una tarea simple: abrir una puerta y traer una llave. ¿Qué crees que pasa?

El riesgo más realista: Fragilidad socio-técnica

En aplicaciones prácticas, los riesgos suelen manifestarse como vulnerabilidades operacionales y de seguridad. El proyecto OWASP Top 10 para LLM Applications identifica riesgos concretos: inyección de prompts, manejo inseguro de salidas de modelos, y “excessive agency” (agencia excesiva) en agentes conectados a herramientas (OWASP, s.f.).

Este último punto merece atención especial: cuando un agente tiene permisos amplios para ejecutar acciones—borrar archivos, enviar emails, realizar transacciones—sin controles adecuados, la vulnerabilidad no proviene de “intención rebelde” sino de arquitectura mal instrumentada. Un prompt malicioso puede convertirse en una instrucción ejecutable, precisamente porque el sistema está diseñado para “actuar” sin las salvaguardas institucionales que esperaríamos en sistemas críticos.

Esto encaja con el capítulo axelrodiano de “ruido”: incluso si el objetivo es cooperativo, los errores y manipulaciones pueden producir resultados dañinos. La fragilidad sistémica es el riesgo inmediato, no la malevolencia emergente.

Diseño para la cooperación: De principios a controles verificables

Traducir el marco axelrodiano a propuestas concretas requiere operacionalizar “cooperación humano-IA” en arquitectura, incentivos y gobernanza:

Arquitectura: Autonomía acotada y separación de funciones

El diseño más robusto tiende a:

Separar planificación de ejecución: El agente razona sobre acciones, pero la ejecución requiere confirmación o pasa por un sistema de permisos.
Principio de mínimo privilegio: Permisos por tarea y por herramienta, no acceso global.
Trazabilidad y paradas seguras: Logs auditables y capacidad de revertir o detener acciones automáticamente ante anomalías.

ReAct (Yao et al., 2022) demuestra el valor de intercalar razonamiento y acción para reducir alucinación y mejorar interpretabilidad de trayectorias. AutoGen (Wu et al., 2023) muestra composición multiagente programable donde roles y responsabilidades están explícitos.

Incentivos: Métricas multiobjetivo

La literatura de RLHF indica tensiones inevitables, como trade-offs entre “helpfulness” (utilidad) y “harmlessness” (inocuidad). Esto recuerda la tensión axelrodiana individuo/grupo y la necesidad de integrar múltiples objetivos normativos.

En términos operativos:

Métricas multiobjetivo: No solo productividad, sino seguridad, equidad y costos de riesgo.
Penalizaciones por acciones irreversibles: Exigir confirmación humana para operaciones críticas.
Evaluación adversarial: Probar sistemáticamente intentos de manipulación (red teaming).

Evaluación: Institucionalizar la réplica

Axelrod (2003) enfatiza que pequeñas diferencias de implementación pueden producir cascadas en modelos no lineales, advirtiendo sobre la necesidad de réplica y comparabilidad. WebArena y AgentBench responden precisamente a esta necesidad: crear sandboxes reproducibles antes de despliegues amplios.

Para tool-use, ToolLLM/ToolBench (Qin et al., 2023) propone datasets y evaluadores para medir capacidad de usar miles de APIs, evidenciando que el “agente” real depende de estándares de herramientas y evaluación de trayectorias, no solo del modelo base.

Gobernanza: Marcos técnicos y jurídicos

El ecosistema de gobernanza para IA está madurando rápidamente, convergiendo marcos técnicos, estándares y regulación:

Marcos de gestión de riesgo

El AI Risk Management Framework (AI RMF 1.0) del National Institute of Standards and Technology propone cuatro funciones centrales: GOVERN (gobernanza), MAP (mapeo de contexto), MEASURE (medición) y MANAGE (gestión), con énfasis en enfoques socio-técnicos y evaluación periódica de efectividad (NIST, 2023).

Estándares internacionales

ISO/IEC 42001:2023 define requisitos para sistemas de gestión de IA (SGIA) con mejora continua, institucionalizando responsabilidad y procesos en organizaciones (ISO, 2023a). ISO/IEC 23894:2023 ofrece guía específica de gestión de riesgos para IA y su integración en actividades organizacionales (ISO, 2023b).

Regulación: El AI Act europeo

El Reglamento (UE) 2024/1689 (AI Act) establece como objetivo promover una IA “centrada en el ser humano y fiable”, definiendo un enfoque basado en riesgo con obligaciones diferenciadas según categorías de sistemas (Unión Europea, 2024). El calendario de aplicación escalonado permite adaptación gradual, pero representa el marco regulatorio más comprehensivo a nivel global hasta la fecha.

Ética como reflexión normativa integral

UNESCO (2021) define la ética de la IA como reflexión normativa que atraviesa todo el ciclo de vida de los sistemas, enfatizando responsabilidad compartida de múltiples actores: desarrolladores, organizaciones implementadoras, gobiernos y sociedad civil. Esta perspectiva aleja la ética del terreno abstracto y la ancla en prácticas concretas de diseño, evaluación y gobernanza.

Tabla síntesis: Del principio al control verificable

Implicaciones para la educación y la investigación

Esta lectura axelrodiana de los agentes de IA tiene implicaciones directas para contextos educativos y de investigación:

Alfabetización crítica sobre IA

Formar a educadores y estudiantes no solo en “usar” herramientas de IA, sino en comprender sus arquitecturas de interacción, limitaciones empíricas y marcos de gobernanza. La narrativa apocalíptica paraliza; la comprensión de mecanismos empodera para diseño responsable y uso crítico.

Investigación situada en América Latina

Los marcos de gobernanza globales deben adaptarse a contextos locales. La investigación sobre agentes de IA en educación latinoamericana debe incluir evaluación de sesgos culturales en modelos predominantemente entrenados en inglés, acceso diferencial a tecnología, y diseño de políticas que reflejen prioridades educativas regionales.

Competencias para diseño socio-técnico

Los profesionales de la educación del futuro necesitan competencias que crucen fronteras disciplinarias: comprender lo suficiente de arquitecturas de IA para participar en conversaciones de diseño, suficiente de ética aplicada para identificar riesgos y valores en juego, y suficiente de evaluación empírica para distinguir capacidades reales de promesas infladas.

Diagnóstico de Competencias - Agentes de IA

🎯 Diagnóstico de Competencias

Agentes de IA en Educación

Evalúa tu nivel en 3 competencias clave

Este diagnóstico te ayudará a identificar tus fortalezas y áreas de oportunidad en el trabajo con agentes de IA desde el marco axelrodiano.

Solo toma 3 minutos. Responde con honestidad.

Alfabetización crítica

Arquitecturas, limitaciones y gobernanza

Investigación situada

Contexto latinoamericano

Diseño socio-técnico

Ética aplicada y evaluación

Competencia 1: Alfabetización crítica

Pregunta 1 de 9

¿Puedo explicar cómo funciona el alineamiento (RLHF) y por qué importa?

Nivel intermedio

No puedo Soy experto

Competencia 1: Alfabetización crítica

Pregunta 2 de 9

¿Conozco las limitaciones empíricas de agentes de IA en tareas realistas?

Nivel intermedio

No las conozco Muy bien

Competencia 1: Alfabetización crítica

Pregunta 3 de 9

¿Puedo identificar y explicar marcos de gobernanza para IA?

Nivel intermedio

No Conozco varios

Competencia 2: Investigación situada AL

Pregunta 4 de 9

¿Identifico sesgos culturales y lingüísticos en modelos entrenados en inglés?

Nivel intermedio

No Con evidencia

Competencia 2: Investigación situada AL

Pregunta 5 de 9

¿Comprendo las brechas de acceso tecnológico en América Latina?

Nivel intermedio

Poco Muy bien

Competencia 2: Investigación situada AL

Pregunta 6 de 9

¿Diseño investigación que responde a prioridades educativas regionales?

Nivel intermedio

No Siempre

Competencia 3: Diseño socio-técnico

Pregunta 7 de 9

¿Participo efectivamente en conversaciones de diseño técnico de sistemas con IA?

Nivel intermedio

No Fluidamente

Competencia 3: Diseño socio-técnico

Pregunta 8 de 9

¿Identifico dilemas éticos y trade-offs en sistemas de IA educativos?

Nivel intermedio

Rara vez Sistemáticamente

Competencia 3: Diseño socio-técnico

Pregunta 9 de 9

¿Distingo evidencia empírica sólida de promesas infladas sobre IA?

Nivel intermedio

No Siempre

📊 Tu perfil de competencias

Alfabetización crítica

3.0

Investigación situada

3.0

Diseño socio-técnico

3.0

💡 Recomendación personalizada

Inicio

Limitaciones del enfoque por analogía

La analogía Axelrod ↔ agentes LLM no es identidad. En ABM clásico, las reglas suelen ser explícitas y relativamente interpretables; en LLMs, el comportamiento proviene de modelos estadísticos de gran escala, con dependencias del contexto y de herramientas que pueden ser difíciles de aislar.

La brecha entre desempeño de laboratorio y robustez en tareas realistas muestra que la “capacidad agentiva” es sensible al entorno, al toolkit y a la evaluación. Cualquier generalización fuerte sin benchmark reproducible es, en el mejor de los casos, prematura.

Además, los sistemas de IA contemporáneos operan a escalas que desafían la intuición: millones de parámetros, conjuntos de datos masivos, interacciones globales simultáneas. La emergencia en ABM clásico suele involucrar decenas o cientos de agentes; la emergencia en ecosistemas de IA puede involucrar millones de usuarios interactuando con modelos entrenados en trillones de tokens. Esto introduce complejidades cualitativas nuevas que requieren métodos de análisis específicos.

Conclusión: Re-orientar desde el fatalismo hacia la agencia colectiva

El aporte principal de usar a Axelrod como eje conceptual no es tranquilizar ni negar riesgos, sino re-orientar el debate: de visiones apocalípticas centradas en intenciones metafísicas de “máquinas conscientes” hacia un programa científico-técnico basado en reglas de interacción, diseño de incentivos, evaluación empírica rigurosa y gobernanza adaptativa.

Los agentes de IA contemporáneos—desde LLMs instructivos hasta sistemas multiagente con acceso a herramientas—exhiben capacidades impresionantes en contextos específicos y fragilidad significativa en escenarios abiertos. Esta doble naturaleza exige respuestas institucionales: arquitecturas que acotan autonomía, incentivos que balancean múltiples objetivos, evaluaciones reproducibles que miden desempeño real, y marcos de gobernanza que asignan responsabilidades verificables.

La “agencia” artificial, lejos de ser una propiedad esencial e inmutable, emerge de la interacción entre modelo, arquitectura de herramientas, datos de entrenamiento, alineamiento, contexto de uso y marco regulatorio. Es, fundamentalmente, una propiedad socio-técnica que se diseña, se evalúa y se gobierna.

Una agenda razonable para 2026 incluye:

Benchmarks reproducibles de largo horizonte y tool-use, con comparabilidad inter-implementación
Análisis de dinámica poblacional de agentes: convenciones emergentes, polarización, cascadas en escenarios multiagente
Integración de marcos de gestión de riesgo (NIST/ISO) con métricas técnicas y prácticas de seguridad (OWASP/MITRE)
Estudios de cumplimiento y eficacia real del AI Act en sistemas agentivos, incluyendo sandboxes regulatorios y auditoría

Parafraseando a Axelrod: la cooperación entre egoístas requiere instituciones. La cooperación entre humanos y agentes de IA requiere, igualmente, instituciones—pero estas instituciones deben diseñarse, probarse y mejorarse iterativamente. El determinismo tecnológico es tan inútil como el pánico. Lo que necesitamos es agencia colectiva: diseño deliberado, evaluación rigurosa, gobernanza adaptativa.

En educación, esto significa formar profesionales que comprendan estos sistemas no como magia ni como amenaza existencial, sino como artefactos socio-técnicos cuyo comportamiento depende de decisiones de diseño, implementación y regulación. La pregunta no es “¿nos destruirán los agentes de IA?”, sino “¿qué instituciones, normas y prácticas necesitamos construir para que estos sistemas amplíen capacidades humanas de manera justa, segura y alineada con valores democráticos?”

Referencias

Axelrod, R. (2003). Advancing the art of simulation in the social sciences [Manuscrito]. Recuperado de https://www.bobm.net.au/teaching/SimSS/AdvancingArtSim2003.pdf

Axelrod, R., & Hamilton, W. D. (1981). The evolution of cooperation. Science, 211(4489), 1390–1396. https://doi.org/10.1126/science.7466396

Bai, Y., Kadavath, S., Kundu, S., Askell, A., Kernion, J., Jones, A., Chen, A., Goldie, A., Mirhoseini, A., McKinnon, C., Chen, C., Olsson, C., Olah, C., Hernandez, D., Drain, D., Ganguli, D., Li, D., Tran-Johnson, E., Perez, E., … Kaplan, J. (2022). Constitutional AI: Harmlessness from AI feedback (arXiv:2212.08073). arXiv. https://arxiv.org/abs/2212.08073

Bostrom, N. (2014). Superintelligence: Paths, dangers, strategies. Oxford University Press.

Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., Agarwal, S., Herbert-Voss, A., Krueger, G., Henighan, T., Child, R., Ramesh, A., Ziegler, D. M., Wu, J., Winter, C., … Amodei, D. (2020). Language models are few-shot learners (arXiv:2005.14165). arXiv. https://arxiv.org/abs/2005.14165

Center for AI Safety. (2023). Statement on AI risk. https://www.safe.ai/statement-on-ai-risk

Christiano, P., Leike, J., Brown, T. B., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences (arXiv:1706.03741). arXiv. https://arxiv.org/abs/1706.03741

Dafoe, A., Bachrach, Y., Hadfield, G., Horvitz, E., Larson, K., & Graepel, T. (2021). Cooperative AI: Machines must learn to find common ground. Nature, 593(7857), 33–36. https://doi.org/10.1038/d41586-021-01170-0

Epstein, J. M. (1999). Agent-based computational models and generative social science. Complexity, 4(5), 41–60. https://doi.org/10.1002/(SICI)1099-0526(199905/06)4:5<41::AID-CPLX9>3.0.CO;2-F

Future of Life Institute. (2023). Pause giant AI experiments: An open letter. https://futureoflife.org/open-letter/pause-giant-ai-experiments/

Holland, J. H. (1992). Adaptation in natural and artificial systems: An introductory analysis with applications to biology, control, and artificial intelligence. MIT Press.

ISO. (2023a). ISO/IEC 42001:2023 — Information technology — Artificial intelligence — Management system. https://www.iso.org/standard/81230.html

ISO. (2023b). ISO/IEC 23894:2023 — Information technology — Artificial intelligence — Guidance on risk management. https://www.iso.org/standard/77304.html

MITRE. (s.f.). MITRE ATLAS™ (Adversarial Threat Landscape for Artificial-Intelligence Systems). Recuperado el 13 de febrero de 2026, de https://atlas.mitre.org/

National Institute of Standards and Technology. (2023). Artificial Intelligence Risk Management Framework (AI RMF 1.0) (NIST AI 100-1). https://doi.org/10.6028/NIST.AI.100-1

Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C. L., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Schulman, J., Hilton, J., Kelton, F., Miller, L., Simens, M., Askell, A., Welinder, P., Christiano, P., Leike, J., & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730–27744.

OWASP. (s.f.). OWASP Top 10 for Large Language Model Applications. Recuperado el 13 de febrero de 2026, de https://owasp.org/www-project-top-10-for-large-language-model-applications/

Qin, Y., Liang, S., Ye, Y., Zhu, K., Yan, L., Lu, Y., Lin, Y., Cong, X., Tang, X., Qian, B., Zhao, S., Tian, R., Xie, R., Zhou, J., Gerstein, M., Li, D., Liu, Z., & Sun, M. (2023). ToolLLM: Facilitating large language models to master 16000+ real-world APIs (arXiv:2307.16789). arXiv. https://arxiv.org/abs/2307.16789

Rao, A. S., & Georgeff, M. P. (1995). BDI agents: From theory to practice. En Proceedings of the First International Conference on Multiagent Systems (ICMAS-95) (pp. 312–319). AAAI Press.

Schick, T., Dwivedi-Yu, J., Dessì, R., Raileanu, R., Lomeli, M., Zettlemoyer, L., Cancedda, N., & Scialom, T. (2023). Toolformer: Language models can teach themselves to use tools (arXiv:2302.04761). arXiv. https://arxiv.org/abs/2302.04761

Stiennon, N., Ouyang, L., Wu, J., Ziegler, D. M., Lowe, R., Voss, C., Radford, A., Amodei, D., & Christiano, P. (2020). Learning to summarize from human feedback (arXiv:2009.01325). arXiv. https://arxiv.org/abs/2009.01325

UNESCO. (2021). Recomendación sobre la Ética de la Inteligencia Artificial. https://unesdoc.unesco.org/ark:/48223/pf0000381137_spa

Unión Europea. (2024). Reglamento (UE) 2024/1689 del Parlamento Europeo y del Consejo de 13 de junio de 2024 por el que se establecen normas armonizadas en materia de inteligencia artificial. Diario Oficial de la Unión Europea, L 1689. https://eur-lex.europa.eu/legal-content/ES/TXT/?uri=CELEX:32024R1689

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need (arXiv:1706.03762). arXiv. https://arxiv.org/abs/1706.03762

Wooldridge, M. (2009). An introduction to multiagent systems (2.ª ed.). John Wiley & Sons.

Wu, Q., Bansal, G., Zhang, J., Wu, Y., Li, B., Zhu, E., Jiang, L., Zhang, X., Zhang, S., Liu, J., Awadallah, A. H., White, R. W., Burger, D., & Wang, C. (2023). AutoGen: Enabling next-gen LLM applications via multi-agent conversation (arXiv:2308.08155). arXiv. https://arxiv.org/abs/2308.08155

Yao, S., Zhao, J., Yu, D., Du, N., Shafran, I., Narasimhan, K., & Cao, Y. (2022). ReAct: Synergizing reasoning and acting in language models (arXiv:2210.03629). arXiv. https://arxiv.org/abs/2210.03629

Zhou, S., Xu, F. F., Zhu, H., Zhou, X., Lo, R., Sridhar, A., Cheng, X., Ou, T., Bisk, Y., Fried, D., Alon, U., & Neubig, G. (2023). WebArena: A realistic web environment for building autonomous agents (arXiv:2307.13854). arXiv. https://arxiv.org/abs/2307.13854

Agencia socio-técnica en IA Alineamiento institucional Complejidad y cooperación Evaluación empírica de agentes LLM Riesgo y fragilidad socio-técnica Sistemas multiagente y gobernanza

Introducción: Más allá del pánico tecnológico

El legado de Axelrod: De dilemas a ecologías cooperativas

El Dilema del Prisionero como organismo modelo

Simulación como “tercera vía” científica

De autómatas a ecologías socio-técnicas: Una genealogía operativa

Autómatas y agentes simbólicos

ABM y simulación social

Agentes evolutivos

LLMs y arquitectura Transformer

Agentes con herramientas

Sistemas multiagente

Ecologías humano-IA gobernadas

1) Decisión operativa

2) Evidencia del texto

3) Transferencia a LLM (tu traducción)

4) Falla/fragilidad probable

5) Mitigación (micro-acción)

Paralelismos estructurales: Axelrod ↔ Agentes LLM

Axelrod → Traducción a Sistemas LLM Multiagente

Alineamiento como institución, no como deseo

RLHF: Aprendizaje por preferencias humanas

Constitutional AI: Normas explícitas

Misión 1: Señal de valor (RLHF)

Texto base (resumen operativo)

Bitácora de juego (decisiones → consecuencias)

Escenario

Elige una intervención institucional

Justificación (metacognición)

Evidencia contra la omnipotencia inmediata

WebArena: La brecha entre capacidad y desempeño robusto

AgentBench: Obstáculos sistemáticos

Mini-cuento

Lo que muestran las pruebas

Tu reflexión (1 frase)

El robot hace 2 pasos

El riesgo más realista: Fragilidad socio-técnica

Diseño para la cooperación: De principios a controles verificables

Arquitectura: Autonomía acotada y separación de funciones

Incentivos: Métricas multiobjetivo

Evaluación: Institucionalizar la réplica

Gobernanza: Marcos técnicos y jurídicos

Marcos de gestión de riesgo

Estándares internacionales

Regulación: El AI Act europeo

Ética como reflexión normativa integral

Tabla síntesis: Del principio al control verificable

Implicaciones para la educación y la investigación

Alfabetización crítica sobre IA

Investigación situada en América Latina

Competencias para diseño socio-técnico

🎯 Diagnóstico de Competencias

Evalúa tu nivel en 3 competencias clave

Alfabetización crítica

Investigación situada

Diseño socio-técnico

¿Puedo explicar cómo funciona el alineamiento (RLHF) y por qué importa?

¿Conozco las limitaciones empíricas de agentes de IA en tareas realistas?

¿Puedo identificar y explicar marcos de gobernanza para IA?

¿Identifico sesgos culturales y lingüísticos en modelos entrenados en inglés?

¿Comprendo las brechas de acceso tecnológico en América Latina?

¿Diseño investigación que responde a prioridades educativas regionales?

¿Participo efectivamente en conversaciones de diseño técnico de sistemas con IA?

¿Identifico dilemas éticos y trade-offs en sistemas de IA educativos?

¿Distingo evidencia empírica sólida de promesas infladas sobre IA?

📊 Tu perfil de competencias

💡 Recomendación personalizada

Limitaciones del enfoque por analogía

Conclusión: Re-orientar desde el fatalismo hacia la agencia colectiva

Referencias

Axelrod, R. (2003). Advancing the art of simulation in the social sciences [Manuscrito]. Recuperado de https://www.bobm.net.au/teaching/SimSS/AdvancingArtSim2003.pdf

Axelrod, R., & Hamilton, W. D. (1981). The evolution of cooperation. Science, 211(4489), 1390–1396. https://doi.org/10.1126/science.7466396

Bostrom, N. (2014). Superintelligence: Paths, dangers, strategies. Oxford University Press.

Center for AI Safety. (2023). Statement on AI risk. https://www.safe.ai/statement-on-ai-risk

Christiano, P., Leike, J., Brown, T. B., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences (arXiv:1706.03741). arXiv. https://arxiv.org/abs/1706.03741

Dafoe, A., Bachrach, Y., Hadfield, G., Horvitz, E., Larson, K., & Graepel, T. (2021). Cooperative AI: Machines must learn to find common ground. Nature, 593(7857), 33–36. https://doi.org/10.1038/d41586-021-01170-0

Epstein, J. M. (1999). Agent-based computational models and generative social science. Complexity, 4(5), 41–60. https://doi.org/10.1002/(SICI)1099-0526(199905/06)4:5<41::AID-CPLX9>3.0.CO;2-F

Future of Life Institute. (2023). Pause giant AI experiments: An open letter. https://futureoflife.org/open-letter/pause-giant-ai-experiments/

Holland, J. H. (1992). Adaptation in natural and artificial systems: An introductory analysis with applications to biology, control, and artificial intelligence. MIT Press.

ISO. (2023a). ISO/IEC 42001:2023 — Information technology — Artificial intelligence — Management system. https://www.iso.org/standard/81230.html

ISO. (2023b). ISO/IEC 23894:2023 — Information technology — Artificial intelligence — Guidance on risk management. https://www.iso.org/standard/77304.html