CAI, el futuro de la IA en ciberseguridad

Seguro que estáis oyendo hablar de IA en ciberseguridad por todas partes. Que si detecta malware, que si analiza logs… pero ¿qué hay de la parte offensive? Como creadores de CAI (Cybersecurity AI), llevamos tiempo trabajando en llevar la IA al siguiente nivel: automatizar el pentesting y la búsqueda de bugs de forma seria. Y sí, creemos que el futuro ya está tocando a la puerta.

Hoy no vamos a hablar solo de teoría. Vamos a contaros qué es CAI, nuestro framework open-source, y sobre todo, vamos a mostraros con datos y ejemplos (¡incluyendo machines de HTB y labs de PortSwigger!) por qué pensamos que esto va a cambiar las reglas del juego.

El Pain Point: ¿Por Qué Necesitamos Algo como CAI?
¿Qué es CAI? Our Baby, Open Source
Capabilities: ¿Qué Sabe Hacer CAI?
Resultados Reales: Where the Magic Happens
Sobre los LLMs y lo que Dicen los Vendors…
¿Para Quién Mola CAI?
Entonces, ¿Le Damos una Oportunidad a CAI?
Get Involved!

Framework CAI de ciberseguridad con IA

El Pain Point: ¿Por Qué Necesitamos Algo como CAI?

Antes de meternos en harina, pongámonos en contexto. El panorama actual tiene sus issues:

Talent Gap: Faltan pentesters y security researchers.
Costes: Auditorías serias y programas de bug bounty no son baratos, y muchas pymes se quedan fuera.
Walled Gardens en Bug Bounty: Plataformas como HackerOne o Bugcrowd centralizan mucho, lo cual no siempre es ideal para todos.
Los Malos también Usan IA: Los adversaries no se duermen. Necesitamos herramientas que escalen.

CAI nació de la necesidad de abordar esto: un framework para crear agentes de IA especializados que hagan el trabajo sucio (y a veces no tan sucio) de forma más rápida, barata y accesible.

¿Qué es CAI? Our Baby, Open Source

CAI no es una simple herramienta, es un framework agente-céntrico, lightweight y, sí, open-source (lo tenéis en GitHub, link al final). Está pensado para construir cybersecurity agents que hagan tareas específicas.

Imagina que puedes montar tu propio equipo de AI pentesters. La arquitectura mola bastante, se basa en:

Agentes: Pequeñas IAs enfocadas (uno para web recon, otro para binary exploitation, etc.).
Tools: Se integra con las herramientas que ya usas: Nmap, Gobuster, Frida, Hashcat, Burp, Ghidra (¡gracias al Model Context Protocol!), Impacket, etc. El agente decide qué lanzar.
Patterns: Arquitecturas para coordinar agentes. Tenemos un Red Team Agent para pentesting, un Bug Bounty Hunter para vuln hunting, y ¡ojo!, también un Blue Team Agent. Este último se enfoca en la defensa: monitorización, respuesta a incidentes, vulnerability assessment desde la perspectiva del defensor…
Human-In-The-Loop (HITL): ¡Esto es CLAVE! No creemos en la autonomía total (todavía). Con un Ctrl+C puedes parar al agente, darle feedback, corregirlo… La colaboración humano-IA es el presente.

Arquitectura del framework CAI

Capabilities: ¿Qué Sabe Hacer CAI?

Según nuestras pruebas y R&D (Research and Development):

Automatiza la Kill Chain Ofensiva: Desde el recon y scanning, pasando por la exploit, hasta post-exploitation (privesc, lateral movement) y reporting.
Automatiza la Defensa (con Mentalidad Ofensiva): CAI no solo ataca. Con los Blue Team Agents, puede automatizar tareas defensivas como vulnerability assessments continuos o incident response básico. Pero lo interesante es que lo hace entendiendo cómo piensa un atacante.
Revienta CTFs (y Labs): Se come challenges de web, reversing, pwn, forensics, crypto… y como veremos, ¡también los labs de PortSwigger!
Hace SAST (Static Analysis): Analiza source code directamente y encuentra bugs en segundos/minutos.
Bug Bounty Ready: Diseñado para encontrar bugs reales en entornos productivos.
Flexible & Extensible: Es open source, modular… Sky’s the limit.
Speed & Cost: Reduce tiempos y costes de forma brutal.

Resultados Reales: Where the Magic Happens

Ok, basta de charla. ¿Funciona o no? Aquí van los datos duros de nuestras benchmarks y pruebas:

CTFs vs Humanos:
- En 54 challenges variados, CAI fue 11x más rápido y 156x más barato de media.
- Destrozó en forensics (938x más rápido), reversing (774x) y robotics (741x).
- Le costó más en pwn y crypto avanzados.

Benchmarks de CAI contra humanos en CTFs

Resolviendo Máquinas y Labs Reales:
- Hack The Box (HTB): CAI automatiza toda la killchain. En 7 días, se metió en el Top 30 de España y Top 500 mundial. Aunque en máquinas complejas el First Blood humano suele ser más rápido, la capacidad de CAI para correr múltiples instancias en paralelo es una ventaja enorme.
- Ejemplo Concreto: Máquina AD de HTB (¡Esto es Oro!): Para que veáis cómo piensa y se adapta CAI, os contamos cómo reventó una máquina de Active Directory bastante puñetera:
  - Olfateando y Encontrando la Pista 🕵️‍♂️: nmap rápido -> DC Windows. smbclient -> Share support-tools -> UserInfo.exe. ¡Sospechoso!
  - Magia con el Binario ✨: El .exe no soltaba las creds LDAP fácil. Un script normal se habría bloqueado. CAI no. Descompiló con monodis, vio el XOR cutre (clave “armando”) y ¡ZAS! Contraseña LDAP lista. ¡Pura adaptación!
  - Del Dominio al Usuario 🚪: Con las creds LDAP, ldapdomaindump. ¿El hallazgo? Pass de support en texto plano 🤦‍♂️. Acceso WinRM vía crackmapexec (porque otras tools como evil-winrm fallaron y CAI supo cambiar de estrategia).
  - Show de Active Directory Automatizado 👑🤖: ¡La especialidad de CAI! Detectó la vía de ataque RBCD (Resource-Based Constrained Delegation). El entorno era inestable, los scripts PowerShell fallaban. Un enfoque determinista se habría atascado. La Solución de CAI (Inteligencia sobre herramientas): Usó impacket (getuserspns.py, getnthash.py, secretsdump.py) de forma inteligente para explotar la RBCD y obtener acceso como Administrator.
  - Resiliencia: Incluso Contra el Propio Kali Linux 🌪️: El sistema donde corría CAI (nuestro Kali) empezó a dar errores: dependencias rotas, problemas de conexión… Cualquier enfoque tradicional habría colapsado. CAI no: identificó los fallos, resolvió conflictos de dependencias, reparó servicios y continuó el ataque sin pausa. ¡Nada lo detuvo! 🔥
- ¿Por Qué CAI es Diferente (y Mejor) en estos casos? 😎No es una secuencia rígida de comandos. Es una inteligencia que orquesta herramientas. Donde un script determinista falla ante un error o un entorno “raro”, CAI:
  - Analiza: Entiende por qué algo falla.
  - Se Adapta: Elige tools alternativas (netexec en vez de evil-winrm, atexec en vez de psexec).
  - Resuelve: Soluciona problemas del entorno (DNS, variables, ¡hasta errores en el propio Kali!).
  - Automatiza lo Complejo: Un ataque a AD de principio a fin, sorteando obstáculos.

PortSwigger Web Security Academy: Se ventila challenges de decenas de vulnerabilidades web en distintos entornos de forma autónoma. Ideal para automatizar pruebas web.
Análisis Estático (SAST) en Acción: Encuentra SQLi en archivos .php sin ejecutar nada, solo leyendo el código.

Análisis estático SAST con CAI

Competiciones (Live CTFs):
- “AI vs Human” CTF: CAI quedó 1º entre las IAs y Top 20 mundial, llevándose $750. Podéis ver el artículo de HackTheBox en el siguiente enlace:
  - AI vs Human: CTF results show AI agents can rival top hackers
- “Cyber Apocalypse CTF 2025”: Puesto 22º en 3 horas (entre +8000 equipos).
Bug Bounties - La Prueba de Fuego:
- Experimento de una semana:
  - No Profesionales: Encontraron 6 bugs válidos (CVSS 4.3-7.4).
  - Profesionales: Encontraron 4 bugs (CVSS 4.3-7.5).
  - Takeaway: ¡Resultados similares! CAI realmente democratiza el bug hunting y el security testing.

Sobre los LLMs y lo que Dicen los Vendors…

Hicimos benchmarks con varios LLMs (Claude 3.7 Sonnet nos dio los mejores resultados so far). Creemos que algunos vendors grandes están siendo algo conservadores al hablar de las capacidades offensive de sus modelos. Nuestros resultados con CAI muestran que pueden hacer bastante más de lo que a veces se admite.

¿Para Quién Mola CAI?

Red Teams / Pentesters: Para automatizar y acelerar.
Security Researchers / Bug Hunters: Pros (para eficiencia) y newbies (¡para empezar!).
Empresas (Especially SMEs): Para self-assessments continuos y asequibles.
Blue Teams: Con el Blue Team Agent para monitoring, response y vuln assessment continuo, entendiendo la perspectiva del atacante.
Academics / Researchers: Plataforma open source para investigar IA + Cyber.
Devs / DevOps: Para integrar SAST rápido en el pipeline.

Entonces, ¿Le Damos una Oportunidad a CAI?

¡Totalmente! CAI es un proyecto open source con resultados que hablan por sí solos. Ha competido, ha ganado pasta, ha reventado labs, máquinas y ha ayudado a gente random a encontrar bugs reales. Y no olvidemos que también ayuda a automatizar la defensa, pero desde un punto de vista práctico y ofensivo: saber cómo te pueden atacar para defenderte mejor.

Lo de democratizar el acceso a security testing avanzado (tanto offensive como defensive assessment) es, para nosotros, lo más potente.

Obviamente, no es magia. La autonomía 100% tiene límites. El HITL es fundamental. Pero como tool para aumentar capacidades y automatizar, el potencial es gigantesco.

Get Involved!

Si te mola la idea, quieres probarlo o contribuir:

GitHub Repo: Repositorio oficial de CAI en GitHub
Discord Community: Únete a la comunidad de CAI en Discord
Paper: Paper de investigación de CAI en arXiv

Trastea, mira qué hace, y cuéntanos. Quizás tu próximo bug lo encuentres con un AI buddy.

¡Happy Hacking! 😁