“人类最后的考试”:全球呼吁对人工智能进行更严格的测试

一个名为“人类的最后一次考试”的全球项目正在寻找艰难的、专家级的问题来评估人工智能的进展，因为流行的基准对高级模型来说太容易了。

周一，一组技术专家向全球发出呼吁，寻求向人工智能系统提出最难的问题。人工智能系统越来越多地像处理儿童游戏一样处理流行的基准测试。

该项目被称为“人类的最后一次考试”，旨在确定专家级别的人工智能何时到来。据组织者，一个名为人工智能安全中心(CAIS)的非营利组织和初创公司Scale AI表示，它的目标是在未来几年技术进步的情况下保持相关性。

就在几天前，ChatGPT的制造商预览了一款名为OpenAI o1的新模型，CAIS的执行董事、埃隆·马斯克(Elon Musk)创业公司xAI的顾问丹·亨德里克斯(Dan hendricks)表示，该模型“摧毁了最流行的推理基准”。

亨德里克斯与人合著了两篇2021年的论文，提出了对目前广泛使用的人工智能系统进行测试的建议，其中一篇测试了它们对美国历史等主题的本科水平知识，另一篇则探索了模型通过竞赛水平数学进行推理的能力。这个本科风格的测试在在线人工智能中心“拥抱脸”上的下载量超过了任何此类数据集。

在这些论文发表的时候，人工智能几乎是随机给出考试问题的答案。亨德里克斯对路透社说:“他们现在已经崩溃了。”

举个例子，根据一个著名的能力排行榜，人工智能实验室Anthropic的克劳德模型在2023年的本科水平测试中得分约为77%，一年后达到近89%。

但人工智能仍然没有比人类更聪明

斯坦福大学(Stanford University) 4月份发布的《人工智能指数报告》(AI Index Report)显示，人工智能在计划制定和视觉模式识别谜题等较少使用的测试中得分很低。例如，ARC组织者周五表示，OpenAI 01在模式识别ARC- agi测试的一个版本中得分约为21%。

一些人工智能研究人员认为，这样的结果表明，规划和抽象推理是更好的智力衡量标准，尽管亨德里克斯表示，ARC的视觉方面使其不太适合评估语言模型。他说，“人类的最后一次考试”将需要抽象推理。

行业观察人士表示，来自普通基准的答案也可能最终成为用于训练人工智能系统的数据。亨德里克斯表示，“人类最后一次考试”中的一些问题将保密，以确保人工智能系统的答案不是死记硬背的。

此次考试将包括至少1000道11月1日到期的众包题，非专家很难回答。这些作品将接受同行评审，获奖作品将获得合著资格，并由Scale AI赞助高达5000美元的奖金。

Scale首席执行官亚历山大·王表示:“我们迫切需要对专家级模型进行更严格的测试，以衡量人工智能的快速发展。”