Methodology
Como recolectamos, verificamos y publicamos los datos. 128 modelos, 31 benchmarks, 28 empresas.
Sources
Los scores publicados en este atlas vienen exclusivamente de fuentes primarias y secundarias verificables:
- Papers oficiales y system cards de los labs (OpenAI, Anthropic, Google DeepMind, etc.)
- Blogs tecnicos y model cards al lanzamiento
- Hugging Face leaderboards (cuando aplican)
- Reportes tecnicos de terceros verificados
- LMSYS Chatbot Arena (snapshots de Arena-ELO con fecha explicita)
Nota: NO almacenamos AA-Index (Artificial Analysis Intelligence Index) en el catalog porque su escala cambia con la metodologia de AA (v3 → v4) sin que podamos auditar el delta. En su lugar publicamos un Frontier Index propio, reproducible y documentado.
Frontier Index
Composite reproducible derivado solo de benchmarks atomicos del modelo (medidos una vez por el provider, sin escala que cambie con el tiempo).
Algoritmo: Core-set Percentile Rank
CORE-SET (8 benchmarks): GPQA-Diamond, SWE-bench-Verified,
AIME-2025, MMLU-Pro, SWE-bench-Pro, Terminal-Bench-2, LiveCodeBench, HLE
for each core benchmark b reported by model m:
pct_b = (#flagships_with_score_<=_m / #flagships_with_b) * 100
FrontierIndex(m) = (Σ pct_b * weight_b) / (Σ weight_b) [b ∈ core ∩ m]
// normalized by PRESENT weights — NO coverage penalty
eligible(m) = (#core_benchmarks_of_m >= 3)
AND has(reasoning) AND (has(coding) OR has(math))
// not eligible → "insufficient data", no ranking position Por que percentile rank y no simple weighted average: Distintos benchmarks tienen distintos "techos" naturales. Un score 80 en HumanEval (techo cerca de 95) no equivale a un 80 en FrontierMath (techo cerca de 50). El percentile rank neutraliza esa diferencia: 80% del field es 80% del field, sin importar el bench.
Validacion empirica
El Frontier Index ranquea solo sobre un CORE-SET fijo de 8 benchmarks que un flagship serio reporta (GPQA-Diamond, SWE-bench-Verified/Pro, AIME-2025, MMLU-Pro, Terminal-Bench-2, LiveCodeBench, HLE), SIN coverage penalty y con un gate de elegibilidad. Lo validamos con Spearman rank correlation contra 3 referencias externas (junio 2026), medido sobre el pool de produccion (FLAGSHIP_POOL). Metodo viejo = promedio de TODOS los benchmarks reportados con coverage penalty; core-set = actual:
| Metodo | AA-v4 | LMArena | llm-stats |
|---|---|---|---|
| Viejo (todo + penalty) | 0.43 | 0.07 | 0.50 |
| Core-set ✓ | 0.97 | 0.75 | 0.89 |
El core-set sube la correlacion con los indices tecnicos de ~0.47 a ~0.93 promedio (Artificial Analysis 0.97, llm-stats 0.89); incluso LMArena — preferencia conversacional humana, un eje ortogonal — sube a 0.75. El metodo viejo promediaba benchmarks auto-reportados sobre sets heterogeneos y premiaba el VOLUMEN de benchmarks via un penalty multiplicativo, produciendo inversiones absurdas (un preview specialized en #1, un modelo abierto sobre el flagship lider solo por reportar mas benchmarks). El test empirico vive en packages/data/src/empirical.test.ts y se valida en CI.
Core-set y pesos
Ocho benchmarks con n≥10 en el pool (confiables; la cola con n<10 — IFEval, ARC-AGI-2 — queda fuera, porque ahi vivia el cherry-picking). Pesos (suma 1.0): GPQA-Diamond 0.26, SWE-bench-Verified 0.18, AIME-2025 0.15, MMLU-Pro 0.10, SWE-bench-Pro 0.09, Terminal-Bench-2 0.08, LiveCodeBench 0.07, HLE 0.07. El indice renormaliza por los pesos PRESENTES, asi reportar mas benchmarks ya no infla el score.
Gate de elegibilidad
Un modelo entra al ranking solo si reporta ≥3 del core-set Y cubre reasoning + (coding o math). Quien no llega no recibe ningun numero — se marca "datos insuficientes" en vez de inventar una posicion. Por eso algunos flagships (Grok 4.20/4.3, ERNIE, Nova) no aparecen ranqueados: sus vendors no publican benchmarks comparables (LMArena Elo, tau2-Bench, olimpiadas en su lugar).
El algoritmo esta en packages/core/src/scoring/frontierIndex.ts. Los percentiles se computan sobre FLAGSHIP_POOL (flagships GA, sin specialized/preview/legacy), asi un modelo tiene el mismo indice en cada pagina.
Scores de reasoning de tercero
Los flagships agenticos mas nuevos (MiniMax M3, varios open chinos) solo reportan benchmarks de coding/agentic (SWE-bench-Pro, Terminal-Bench), no los de reasoning (GPQA-Diamond, HLE) que exige el gate. Cuando un vendor omite un benchmark de reasoning del core-set, cerramos el hueco con la medicion independiente de Artificial Analysis, etiquetada como tercero en la pagina del modelo. Esos scores permiten que el modelo califique, pero quedan fuera del pool de percentiles vendor (la regla se mantiene 100% vendor self-reported) — un valor de tercero solo se mide CONTRA esa regla, nunca se mezcla en ella. Un modelo cuyo dato de tercero aun carece de reasoning (p.ej. Kimi K2.7-Code) sigue sin rankear.
Taxonomia de benchmarks
Los 31 benchmarks estan organizados en 8 categorias: Reasoning, Coding, Math, Knowledge, Instruction, Multilingual, Agentic y General. La taxonomia es opinionada pero clara: cada benchmark vive en una sola categoria.
Que NO hacemos
- NO ejecutamos modelos. Reflejamos lo que reportan fuentes verificadas.
- NO usamos data sintetica ni estimaciones que no esten publicadas.
- NO recibimos pagos por incluir o destacar modelos.
- NO tenemos rankings sponsored.
- NO ofrecemos API publica: la unica forma de consumir los datos es esta web.
Politica de actualizacion
Los datos se revisan al lanzamiento de cada modelo frontier. Cuando un modelo nuevo se lanza con scores oficiales, lo agregamos. Cuando una fuente reportada se desmiente o publica numeros corregidos, actualizamos. Cuando un score se identifica como contaminado por training data, lo marcamos.
Cada cambio significativo va a changelog con su fecha y razon.
Estimacion de hardware
El Hardware Checker estima si un modelo cabe en tu GPU usando una formula explicita:
VRAM = params × bytes_per_param + KV_cache(context) + overhead
Detalle completo (bytes per param de cada cuantizacion, KV cache scale, MoE caveat, Apple unified memory) en la pagina del Hardware Checker. La estimacion es best-effort — cifras reales pueden variar 5-15% segun framework, batch size y kv-cache compression.
Tono editorial
Numeros sin contexto son numeros sin sentido. Cuando un modelo lanza con un score record, tratamos de explicar por que importa, que metodologia usa el benchmark, y si hay caveats (contamination, version del benchmark, condiciones de evaluacion). Preferimos honestidad sobre marketing — incluso cuando significa decir no sabemos.