云开·体育全站app(kaiyun)(中国)官方网站 登录入口

新闻

云开体育全站app百度文心一言、腾讯元宝、Kimi等大模子准确率较低-云开·体育全站app(kaiyun)(中国)官方网站 登录入口

发布日期:2024-07-19 07:58    点击次数:120

  

云开体育全站app百度文心一言、腾讯元宝、Kimi等大模子准确率较低-云开·体育全站app(kaiyun)(中国)官方网站 登录入口

近日,复旦大学NLP(当然谈话惩办)履行室LLMEVAL团队发布了2024年高考数学大模子评测的效果。在此次评测中,阿里千问和讯飞星火永别赢得了2024高考数学新I卷的第又名和第二名,以及高考数学新II卷的第二名和第又名,两份考卷的评测中,GPT-4o均列第三名。

复旦NLP团队以为,全新出炉的高郑重题具备高度的创举性和覆盖性,是用来评测大模子的绝好评测鸠合。在新Ⅰ卷中,阿里千问和讯飞星火对14谈数学客不雅题的准确率达到70%以上,大幅率先GPT-4o的57%,字节豆包、智谱清言、百川等大模子紧随后来,准确率跳跃50%,百度文心一言、腾讯元宝、Kimi等大模子准确率较低。而在在新Ⅱ卷的评测中,讯飞星火、阿里千问、GPT-4o准确率均跳跃60%,其他大模子的差距较小,除百川、DeepSeek和海螺以外,准确率均在50%以上。

数学智商是GPT-4o一直以来引以为傲的智商模块,OpenAI在5月14日的发布会上推出大谈话模子GPT-4o时,曾重心演示其数学智商。

在现场演示中,GPT-4o哄骗其及时的图像识别和语音智商进行在线教训。从评测效果不错看出,阿里千问和讯飞星火对数知识题的长远合伙和分析智商照旧跳跃GPT-4o,使其在高考数学试题的解答上具有更高的准确率。有网友示意,作念数学题毕竟如故咱中国东谈主的特长。

以阿里千问和讯飞星火为代表云开体育全站app,国产东谈主工智能大模子在数学界限的出色智商,为曩昔东谈主工智能时期在教师界限的应用提供了有劲扶植。



Powered by 云开·体育全站app(kaiyun)(中国)官方网站 登录入口 @2013-2022 RSS地图 HTML地图