HumanEval
-
Anthropic发布Claude Opus 4.1:以突破性编码能力重塑AI竞赛格局
人工智能领域迎来重大技术突破,Anthropic公司最新发布的Claude Opus 4.1模型在多项编程基准测试中展现出碾压级表现。这一里程碑式进展不仅重新定义了代码生成AI的能…
-
自调用代码基准可帮助您决定使用哪些 LLM 来完成编程任务
随着大型语言模型 (LLM) 在编码方面的不断改进,用于评估其性能的基准变得越来越不实用。 这是因为,尽管许多 LLM 在这些基准上获得了类似的高分,但了解在特定的软件开发项目和企…
-
Qwen2.5-Coder 改变了人工智能编程的游戏规则——而且它是免费的
阿里云发布了新的 AI 编程助手Qwen2.5-Coder,它已经成为Hugging Face Spaces上第二受欢迎的演示。早期测试表明,它的性能可与 GPT-4o 相媲美,并…