Saltar al contenido
Coding

Terminal-Bench-Hard

Tareas dificiles de terminal/CLI.

2 modelos publicaron score
# Modelo Empresa Score
1 Claude Opus 4.5 Anthropic 44.0
2 Command A+ Cohere 25.0