LiveCodeBench：对大语言模型进行全面且无污染的代码能力评估

LiveCodeBench是一个针对大型代码语言模型的评估平台，通过持续收集LeetCode、AtCoder和CodeForces的新题目进行动态更新。其特色包括：1）采用时间戳标记问题，有效防止数据污染；2）提供代码生成、错误修复、代码执行和测试输出预测等全面的评估维度；3）每个场景都设有专门的评估流程。该平台通过跟踪竞赛网站的实时问题更新，为模型评估提供了可靠且无污染的测试环境，并已在官网公开

AI蜗牛车

437人浏览 · 2025-07-16 14:49:45

AI蜗牛车 · 2025-07-16 14:49:45 发布

一、前言

LiveCodeBench: Holistic and Contamination Free Evaluation of
Large Language Models for Code

对大型代码语言模型进行全面且无污染的评估

paper： https://arxiv.org/pdf/2403.07974
page：https://livecodebench.github.io/index.html
leaderboard：https://livecodebench.github.io/leaderboard.html

二、LiveCodeBench

一个全面且无污染的代码 LLM 评估平台，它会随着时间的推移从三个竞赛平台（即 LeetCode、AtCoder 和 CodeForces）的比赛中收集新问题。

并且这个基准测试还关注更广泛的代码相关功能，例如自我修复、代码执行和测试输出预测，而不仅仅是代码生成。

2.1 实时更新以防止污染

LiveCodeBench 包含标有发布日期的问题，允许在不同时间窗口内进行评估。可以通过仅在模型截止日期之后的时间窗口进行评估来检测并避免污染。

2.2 整体评估

代码生成 + bug fix + 代码执行 + 测试输出预测

每个场景有一套评估流程：

2.3 数据收集

主要是从 LeetCode、AtCoder 和 CodeForces收集以上四种类型代码题目，并打标时间范围。

火山引擎开发者社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OBS Studio音频分离：人声与背景音乐分离全攻略

你是否曾在直播或录屏时遇到这样的困境：想要单独调整人声音量却影响了背景音乐，或是后期剪辑时无法消除环境噪音？OBS Studio（Open Broadcaster Software Studio，开放广播软件工作室）作为免费开源的音视频录制与直播工具，提供了强大的音频处理框架，通过合理配置滤镜链与外部工具组合，可实现专业级别的人声与背景音乐分离。本文将系统讲解3种分离方案，从基础声道分离到AI驱动

火山引擎开发者社区

lmstudio-python：简化LLM操作的强大Python SDK

lmstudio-python 是一款功能强大的 Python SDK，旨在帮助开发者轻松地使用大型语言模型（LLM）进行文本生成、对话系统搭建以及其他相关应用。通过简单易用的API，lmstudio-python 能够让用户快速集成 LLM 功能，无论是进行基础文本补全还是复杂的对话系统设计。## 项目技术分析lmstudio-python SDK 以 Python 为基础，提供了一个同

火山引擎开发者社区

OBS Studio AI增强：智能场景识别与自动优化全攻略

你是否曾在直播切换场景时手忙脚乱？是否因复杂的参数配置而错失最佳直播时机？OBS Studio作为开源直播软件的佼佼者，虽提供强大的自定义功能，但传统手动操作已难以满足专业创作者对效率和质量的双重需求。本文将系统介绍如何通过AI技术增强OBS Studio的核心能力，重点实现智能场景识别与自动参数优化，让你的直播制作流程效率提升300%。读完本文你将获得：- 基于OpenCV的实时场景分析插