一年一度高考季,高考试题是大众关注的焦点,也成为了AI能力的试金石。AI大模型数学功底到底如何?比人类“聪明”吗?搜狐科技使用五款AI大模型对2023高考上海数学试卷进行了同题测试。
在测试中,搜狐科技选取了高考试卷前10道填空题,让百度文心一言、阿里通义千问、科大讯飞星火认知大模型、360智脑、ChatGPT进行回答。
【资料图】
测试结果显示,这五款大模型在答数学题的能力上差异显著。
最“聪明”的讯飞星火答对了5题,正确率50%。百度文心一言和ChatGPT“紧跟其后”,答对了4题,正确率为40%。
360智脑和通义千问则“全军覆没”,一道题也没答对,交了白卷。
值得一提的是,昨天搜狐科技也用五款大语言模型产品,对高考作文全国卷(甲)进行了测试,并邀请了5位语文名师打分。
打分结果显示,ChatGPT高考作文得分最高,文心一言、讯飞星火得分稍低,但跟ChatGPT处于同一水平。360智脑和通义千问得分最低。
虽然语文作文题和数学计算题,对大模型能力考察的维度并不尽相同。但巧合的是,不擅长写作文的360智脑和通义千问,似乎也不擅长做数学题。
通过这两次高考题测试,也能从侧面反应出各家大模型的能力确实是“参差不齐”。如果ChatGPT、文心一言、讯飞星火是“学霸”,那么360智脑和通义千问则是妥妥的“学渣”。
附测试中使用的高考数学题题目:
1.不等式|x-2|<1的解集为__
2.a=(2,3),b=(-1,2),则a·b=__
3.首项为3,公比为2的等比数列的前六项和S6=__
4.tanA=3,tan2A=__
5.f(x)={2^xx>0;1,x≤0}的值域为__
6.复数z=1-i,则|1+iz|=__
7.圆的方程x^2+y^2-4y-m=0的面积为π,则m=__
8.三角形的三边长为a=4,b=5,c=6,则sinA=__
9.某地一年四个季度的GDP(亿元),第一季度GDP为232,第四季度GDP为241,且四个季度的GDP逐季度增长,中位数、平均数相等。则该地一年的GDP为__
10.(1+2023x)^100+(2023-x)^100=a0+a1x+a2x^2+…+a100x^100。若ak<0,正数k的最大值为__
责任编辑:
近日,第七届中国汽车工程学会巴哈大赛(简称巴哈大赛)在湖北襄阳落下帷幕。该项赛事是继中国大学生方程式汽车大赛(FSC)成功举办之后,中国
近年来,受国际能源价格大幅上涨影响,发挥压舱石作用的新疆煤炭抓住契机,融入到全国统一大市场,有效缓解了国内能源供应偏紧形势。随之而
近日,备受瞩目的东风天龙GX上市发布会暨东风天龙中国卡车驾驶员大赛(第6季)暨东风阳光杯(第2届)全国商用车维修技能竞赛总决赛在车城十堰隆
随着科技进步,新一轮产业变革蓬勃兴起。数字化发展,是互联网时代向大数据时代、后数据时代的必由之路,抓住数字经济的发展新机遇,是实现
5月19日,由国家邮政局、中华全国总工会指导,中国邮政快递报社主办的第五届中国梦·邮政情 寻找最美快递员活动揭晓发布会在北京国际会议
明月出天山,苍茫云海间。5月21日,耀世登场·擎铃未来庆铃五十铃2023款ELF轻卡家族在克拉玛依焕新上市。凭借智能、效能、全能的产品优势,
2023年5月15日,国产高端重卡东风天龙GX全场景干线接力实测圆满收官。历时6天,途径成都-恩施-潜山-上海-武汉-十堰,全场景验证盆地、高原
5月10日,东风天龙GX成都-上海-十堰全场景干线实测拉开序幕,本次实测的重头戏,不仅在于东风天龙GX的全方位展示,更是围绕着百公里油耗的
近日,由国家互联网信息办公室、国家发展和改革委员会、工业和信息化部、国务院国有资产监督管理委员会、福建省人民政府等共同主办的第六届
5月11日,峰捷(湖北)供应链有限公司、东风商用车有限公司与荆门中泽汽车有限公司在湖北十堰共同签署了采购100台东风天龙牵引车的战略合作协