HumanEval

AI前沿

人工智能领域迎来重大技术突破，Anthropic公司最新发布的Claude Opus 4.1模型在多项编程基准测试中展现出碾压级表现。这一里程碑式进展不仅重新定义了代码生成AI的能…

2025年8月16日

000

AI前沿

随着大型语言模型 (LLM) 在编码方面的不断改进，用于评估其性能的基准变得越来越不实用。这是因为，尽管许多 LLM 在这些基准上获得了类似的高分，但了解在特定的软件开发项目和企…

2025年1月11日

000

AI前沿

阿里云发布了新的 AI 编程助手Qwen2.5-Coder，它已经成为Hugging Face Spaces上第二受欢迎的演示。早期测试表明，它的性能可与 GPT-4o 相媲美，并…

2024年11月13日

000