Coding

HumanEval

Correccion funcional en 164 problemas de codigo Python.

8 modelos publicaron score

#	Modelo	Empresa	Score
1	Qwen3.5-Omni-Plus	Alibaba	92.6
2	Mistral Large 3	Mistral AI	92.0
3	Nova Pro	Amazon	89.0
4	Codestral 25.08	Mistral AI	86.6
5	Llama 4 Maverick	Meta	86.4
6	Nova Lite	Amazon	85.4
7	Yi-Lightning	01.AI	83.5
8	DeepSeek V4 Pro	DeepSeek	76.8