您的当前位置:首页 > 娱乐 > 内地首个AI高考评测 数学全不及格 正文
时间:2024-07-01 13:05:51 来源:网络整理 编辑:娱乐
合肥市喝茶外卖VX-合肥市各区品茶工作室-合肥市海选
图:AI得分情况。内
【大公报讯】据第一财经报道:高考这一高难度综合性测试,地首目前普遍被研究者用于考察大模型的个AI高格智能水平。在前不久高考结束后,考评上海人工智能实验室旗下司南评测体系OpenCompass选取了7个大模型进行高考“语数外”全卷能力测试,测数并于19日发布了首个大模型高考全卷评测结果。学全
语数外三科加起来的不及满分为420分,此次高考测试结果显示,内阿里通义千问2-72B得303分排名第一,地首OpenAI的个AI高格GPT-4o得296分排名第二,上海人工智能实验室的考评书生.浦语2.0排名第三,三个大模型的测数得分率均超过70%,但大模型的学全数学都不及格,最高分也只有75分。不及在数学试卷上,内阅卷老师们发现,大模型的主观题回答相对凌乱,且过程具有迷惑性,甚至出现过程错误但得到正确答案的情况。大模型的公式记忆能力较强,但是无法在解题过程中灵活引用。可以看出,在数学方面大模型还有很大的提升空间。
数学关乎复杂推理相关能力,这是大模型普遍面临的难题,也是大模型在金融、工业等要求可靠的场景落地需要的关键能力。上海人工智能实验室领军科学家林达华表示,“现在很多大模型的应用场景是客服、聊天等,在聊天场景一本正经胡说八道影响不太大,但它很难在非常严肃的商业场合去落地。”
据说各大物业公司最近在疯狂加班,啥情况?2024-07-01 12:43
害怕了?歼35曝光,美专家破大防:有歼20还不够吗2024-07-01 12:41
央视直播辽粤决战,杜锋抓内鬼辽宁籍小将踢出名单,杨鸣弃用新援2024-07-01 12:35
“最终还是妥协了”!原价12万多的高端SUV,如今“打骨折”只卖5万多2024-07-01 11:38
冯氏毒舌:20个反常识的常识2024-07-01 11:36
国家统计局:4月份居民消费价格同比上涨0.3%2024-07-01 11:23
欧冠出局后,拜仁宣布上诉,主裁承认错判,欧足联介入,或将重赛2024-07-01 11:21
又有券商炫富?汤臣一品!卖方首席3年买上了上海独栋大别墅…2024-07-01 10:48
水花兄弟解体!克莱将与勇士结束13年合作 詹皇愿降薪帮湖人追他2024-07-01 10:33
知名药企又“出事了”!北京好多人都吃过!速查!2024-07-01 10:23
普京总统带来了一个震惊世界的消息!2024-07-01 12:59
独家|日赢控股上海办公楼已被警方要求暂时关闭,正计划拆除logo2024-07-01 12:34
喜讯!穆帅将向上港提交夏窗4人补强名单,两大心仪人选来自鲁能2024-07-01 12:11
历史首次辽疆争冠:辽宁第12次进总决赛 超八一升历史第二冲3连冠2024-07-01 12:05
震惊!网传京东再次开启裁员模式?直接关闭权限,发放待岗通知…2024-07-01 11:43
中国对美国不客气了,态度前所未有强硬,拜登需要掂量掂量?2024-07-01 11:27
梁咏琪演唱会取消,网友:说什么不可抗力,其实就是票卖不出!2024-07-01 11:24
后续!西安地铁黑衣男真容曝光,大量知情人发声,果然有情况2024-07-01 11:18
冯氏毒舌:20个反常识的常识2024-07-01 11:15
造谣徐杰车祸身亡,中国篮协发布声明!2024-07-01 11:09