辛宝的玄酒清谈

我的数字花园 A Solo Place

No.94 不服跑个分,AI Benchmark 指标如何解读?

|
|

节目介绍
本期播客聚焦"AI 模型跑分榜单"这件事。
借 Claude Opus 4.7 发布放出的那张跑分表为切入点,三位主播辛宝、smart、还老师一起把 SWE-bench(含 Verified 与 Pro 三代演进)、Terminal-Bench、Humanity's Last Exam、GPQA、MMLU、OSWorld、ARC-AGI 等主流榜单挨个做了一轮"查漏补缺式"的科普,讲清楚每个榜单在考什么、为什么分数有高有低、以及厂商为何爱针对性刷分。横向对比了 GPT-5.4、Gemini 3.1 Pro,以及国产御三家 GLM-5.1、MiniMax-2.7、Kimi-2.5、千问 3.6 的发布榜单,并回看一年前 DeepSeek V3 的分数作为参照。最后从 OpenRouter 用量榜看 token 消耗格局——从"程序员才能用多少"到"Agent才能用多少"的演进。适合...去小宇宙查看完整单集简介
在小宇宙查看该单集文稿

去收听

Comments

Comments are disabled for now.