公众号

关注微信公众号

移动端

创头条企服版APP

商标注册云服务办公孵化推广通双创地图

ChatGPT、文心一言、通义千问、讯飞星火做高考数学题，看谁的表现更好？

AI先锋官 |袁博杨文 2023-06-09 17:03 抢发第一评

作者｜杨文袁博

编辑｜六耳

来源｜AI先锋官

高考已经接近尾声，小编先预祝各位考生金榜题名，前程似锦。此次高考不仅是各位考生们的大考，也是各家AI大模型之间的暗中较量。

之前小编也让文心一言、讯飞星火、GPT-4秀了一把作文能力。同时，我们也非常好奇它们的数学能力到底如何？

我们在今年的高考数学I卷中共挑选了13道题（其中选择题8道、填空题2道、解答题3道），共计84分。我们分别测试了GPT-4、通义千问、文心一言、讯飞星火四个大模型，其中GPT-4得分最高为36分，讯飞星火得分最低为19分。按百分制分别为43、35、26、23分。

微信图片_20230609165849.png

一、选择题

测试题目：单选题5道、多选题3道。

选择题得分：GPT-4：19分；文心一言：22分；通义千问：29分；讯飞星火：9分。

微信图片_20230609154249.png

答题过程描述：在解答选择题的时候，四个大模型表现都较其它题型要好。其中，通义千问答对了全部5个单选题，不过每道题都回答了4到5遍左右。这不禁让小编怀疑它答题也是靠“蒙”？文心一言在解答前两道选择题时，都是一遍对。

然而，讯飞星火表现的表现就有点掉链子。即便小编把答案告诉它，它依旧坚持选择错误答案，一副死犟死犟的范儿。

二、填空题

测试题目：2道

640 (8).jpg

填空题得分：GPT-4：5分；文心一言：0分；通义千问：0分；讯飞星火：5分。

微信图片_20230609154230.png

答题过程描述：在填空题方面，四个大模型表现都比较一般。GPT-4、讯飞星火得分相对较高。文心一言、通义千问得了一个零蛋。

在通义千问答题过程中，小编发现它还很固执。比如，在解答第13题时，我们让它做了不下10遍，无一次正确。甚至，通义千问还表示：“并不想考虑每类至少选修1门的限制”，这种“犟”劲儿有点让人哭笑不得。

三、解答题

测试题目：3道

得分：GPT-4：12分、文心一言：0分、通义千问：0分、讯飞星火：5分。

微信图片_20230609153248.png

答题过程描述：在解答题方面，四个大模型的表现都很一般，出现胡编乱造的情况，甚至一度让自己陷入死循环。

相对而言，GPT-4更胜一筹，基本上能答一道大题中的一个小题。讯飞星火次之。文心一言、通义千问则全军覆没，全部答错。

您也可以关注我们的官方微信公众号（ID：ctoutiao），给您更多好看的内容。

声明：本文由AI先锋官企业号发布，依据企业号用户协议，该企业号为文章的真实性和准确性负责。创头条作为品牌传播平台，只为传播效果负责，在文章不存在违反法律规定的情况下，不继续承担甄别文章内容和观点的义务。

您阅读这篇文章花了0秒

转发这篇文章只需要1秒钟哦

赏

ChatGPT、文心一言、通义千问、讯飞星火做高考数学题，看谁的表现更好？

打赏一下 0

喜欢这篇 9

评论一下 0

凯派尔知识产权全新业务全面上线

蓝月亮离“中国宝洁”还有多远？

蓝月亮离“中国宝洁”还有多远？

2020-12-18 16:14 抢发第一评

25倍股欧普康视遭实控人减持持股已质押近两成

25倍股欧普康视遭实控人减持持股已质押近两成

2020-12-18 16:35 抢发第一评

极狐阿尔法 T：续航和驾驶体验均衡的北汽新能源之子

极狐阿尔法 T：续航和驾驶体验均衡的北汽新能源之子

2020-12-18 16:38 抢发第一评

沾上疫苗就涨停！常铝股份收关注函：疑似蹭热点配合股东减持

沾上疫苗就涨停！常铝股份收关注函：疑似蹭热点配合股东减持

2020-12-18 16:48 抢发第一评

隆基股份遭股东李春安减持4033万股超计划减持数量

隆基股份遭股东李春安减持4033万股超计划减持数量

2020-12-18 16:53 抢发第一评

评论

试试以这些内容开始评论吧

数据可视化数据可视化数据可视化

登录后发表评论

游客

热文

1

Anthropic 又传融资 20 亿美金，OpenAI劲敌终养成

2

低生育率也能“破局”，揭秘贝因美营销如何C位出道

3

Lmarena模型排名中国占4/10，斯坦福称中美AI对战临界点到来

4

特朗普签发总统令（全文）：成立美国科技委

5

五年1万亿元，这个项目被称为“中国版星际之门”

6

DeepSeek的顶流魔咒

7

Figure抛弃OpenAI，“通用大模型+机器人”似成断头路

8

Anthropic CEO 万字长文预警（全文）：美国要加紧对DeepSeek管制

9

扎克伯格：DeepSeek 很厉害，会威胁到美国科技行业领先地位

10

DeepSeek最强恐慌效应:美议员推动立法，促中美AI全面脱钩（法案全文）

最新视频

重磅嘉宾寄语｜加拿大工程院院士杜如虚为2023中国创交会打Call！

1.7万次播放

重磅嘉宾寄语｜加拿大工程院院士杜如虚为2023中国创交会打Call！

抢发第一评

18600040560

【视频精彩回顾】科技创新与成果转化大会暨聊城概念验证中心合作签约仪式

2.6万次播放

【视频精彩回顾】科技创新与成果转化大会暨聊城概念验证中心合作签约仪式

2

18600040560

中国科技创业数字地图3.0数字化服务支持创新创业

3.9万次播放

中国科技创业数字地图3.0数字化服务支持创新创业

抢发第一评

18600040560

最新专题

TOP “科创中国”创新创业联合体

12 43.7万 2

2 2023中国创新创业成果交易会

18 64.6万 3

3 2023阿里云创峰会暨长三角（镇江）数字经济发展高峰论坛

9 58.8万 0

4 科技创新与成果转化大会暨聊城概念验证中心合作签约仪式

8 55.0万 0

5 颂扬中国制造精神，寻访隐形冠军

7 49.4万 0

凯派尔知识产权全新业务全面上线

宁波城市站

金华城市站

热文

1

Anthropic 又传融资 20 亿美金，OpenAI劲敌终养成

2

低生育率也能“破局”，揭秘贝因美营销如何C位出道

3

Lmarena模型排名中国占4/10，斯坦福称中美AI对战临界点到来

4

特朗普签发总统令（全文）：成立美国科技委

5

五年1万亿元，这个项目被称为“中国版星际之门”

6

DeepSeek的顶流魔咒

7

Figure抛弃OpenAI，“通用大模型+机器人”似成断头路

8

Anthropic CEO 万字长文预警（全文）：美国要加紧对DeepSeek管制

9

扎克伯格：DeepSeek 很厉害，会威胁到美国科技行业领先地位

10

DeepSeek最强恐慌效应:美议员推动立法，促中美AI全面脱钩（法案全文）

资讯

政策

活动

100特色空间

×

#热门搜索#

精选双创服务

历史搜索清空

创头条是创兴动力旗下的创新创业资讯和企服产品，国家高新技术企业。平台汇聚百万级企业用户，基于企业号、双创地图、政策通、融资报、活动工具、企服市场等产品，提供资讯、数据、线上对接等企业服务，并以路演、产业大赛、峰会、培训、产业对接等方式提供线下赋能服务。

创兴动力

北京| 上海| 杭州| 郑州| 大连| 金华| 石家庄| 邢台| 济南| 深圳| 佛山

关于我们

APP下载

Android & IOS

微信公众号

扫码关注

©2015-2025 创头条版权所有京ICP备15013664号-2

京公网安备 11010802029378号站长统计 RSS

Tel：18514777506

关注微信公众号

创头条企服版APP