当前位置：首页 > RPA最新资讯 > AI视角 > Arena-Hard：开源高质量大模型评估基准

Arena-Hard：开源高质量大模型评估基准

suntingting 发布于 2024-04-23 16:32:48
分类：AI视角
来源：
阅读()
评论()

开发一个安全、准确的大模型评估基准通常需要包含三个重要内容：1）稳定识别模型的能力；2）反映真实世界使用情况中的人类偏好；3）经常更新以避免过拟合或测试集泄漏。

但传统的基准测试通常是静态的或闭源的，同时大模型的技术发展和功能迭代比较，这凸显了建立具有高可分离性评估基准的必要性。

大模型研究组织Lmsys Org则开源了Arena-Hard。这是一个全新高质量大模型评估基准。

开源地址：https://github.com/lm-sys/arena-hard

Lmsys将新的基准测试平台 Arena Hard v0.1 与当前领先的聊天大模型基准测试 MT Bench 进行比较。

结果显示，Arena Hard v0.1 相对于 MT Bench 提供了明显更强的可分离性，且置信区间更窄。它还与 Chatbot Arena（仅限英文）的人类偏好排名具有更高的一致性（89.1%）。

Arena-hard-v0.1与广泛采用的大模型基准相比显示出最高的可分离性 (87.4%)，并且也便宜且运行速度快（25 美元）。

Arena-hard-v0.1构建了一个管道，可以从通过 Chatbot Arena 收集的 200,000 个用户查询的数据集中自动提取高质量提示。这包括多样性，提示集应涵盖广泛的现实世界主题；提示质量，每个提示都应具有高质量来衡量大模型的水平。

为了确保提示多样性，Lmsys在BERTopic中采用主题建模管道，首先使用 OpenAI 的嵌入 (text-embedding-3-small) 转换每个提示，使用 UMAP 降维，并使用基于层次的聚类算法 (HDBSCAN) 来识别聚类然后使用 GPT-4-turbo 进行总结。这有助于Lmsys识别涵盖广泛领域的 4000 多个主题。

但主题集群在大模型基准测试中具有不同的质量和可分离性。Lmsys为大模型开发了一个经过校准的系统提示，帮助其根据七个关键标准例如，特异性、领域知识、问题解决能力等选择高质量的用户查询。

大模型Judge（GPT-3.5-Turbo、GPT-4-Turbo）对每个提示进行注释，从 0 到 7，以指示满足多少个标准。然后，Lmsys根据提示的平均得分对每个簇进行评分。

下面，Lmsys展示了从低到高平均分数的主题集群示例。例如，游戏开发或数学证明。另一方面，得分较低的集群指向琐碎或模糊的问题，例如“设计风格和影响”。

为了了解提示分数是否与可分离性相关，Lmsys对每个分数采样 50 个提示，并比较 GPT-4 和 Llama-70b 的响应，并以 GPT-4-Turbo 作为判断。

Lmsys表示高潜在得分与 GPT-4 对 Llama-70b 的胜率之间存在很强的相关性。在其他模型对中也观察到类似的趋势，例如Claude Sonnet 与 Haiku 以及Mistral-large 与 Mixtral。

本文素材来源Lmsys Org官网，如有侵权请联系删除

继续阅读：

未经允许不得转载：RPA中国 | RPA全球生态 | 数字化劳动力 | RPA新闻 | 推动中国RPA生态发展 | 流 > Arena-Hard：开源高质量大模型评估基准

相关推荐

热门信息

阅读 (14785)
1 2023第三届中国RPA+AI开发者大赛圆满收官&获奖名单公示
阅读 (13774)
2 《Market Insight：中国RPA市场发展洞察（2022）》报告正式发布 | RPA中国
阅读 (13067)
3 「RPA中国杯 · 第五届RPA极客挑战赛」成功举办及获奖名单公示
阅读 (12992)
4 与科技共赢，与产业共进，第四届ISIG中国产业智能大会成功召开
阅读 (11597)
5 《2022年中国流程挖掘行业研究报告》正式发布 | RPA中国

快速导航