去可网 > 社会 > 正文

​首个AI高考全卷评测结果发布:最高分303,数学全不及格

2024-06-24 06:45 来源:去可网 点击:

首个AI高考全卷评测结果发布:最高分303,数学全不及格

钛媒体 App 6 月 19 日消息,上海人工智能实验室旗下司南评测体系 OpenCompass 选取了 7 个大模型进行高考 " 语数外 " 全卷能力测试。OpenCompass 发布了首个大模型高考全卷评测结果。语数外三科加起来的满分为 420 分,此次高考测试结果显示,阿里通义千问 2-72B 排名第一,为 303 分,OpenAI 的 GPT-4o 排名第二,得分 296 分,上海人工智能实验室的书生 · 浦语 2.0 排名第三,三个大模型的得分率均超过 70%。来自法国大模型初创公司的 Mistral 排名末尾。从结果来看,大模型的语文、英语考试水平普遍不错,但数学都不及格,最高分也只有 75 分。