《麻省理工科技评论》大模型测评报告：讯飞星火得分第一

2023-10-01 01:20:24 互联网三龙汇之窗网19

核心提示：《麻省理工科技评论》中国最新发布的大模型评测报告显示，在8个一级大类的600道题目的测试和盲评中，讯飞星火认知大模型V2.0在6个大类中得分率排名第一，在此次评测中表现突出，以81.5分（百分制计）的

《麻省理工科技评论》我国发布的大模型评测报告表明，在8个一级类别的600道试题的评估和盲评中，科大讯飞星光认知能力大模型V2.0在6个类别中得分排名第一，在这次实测中表现优异，以81.5分（学分制计）的成绩此次测评中登上，喜获“智商最高”的国产大实体模型头衔。

《麻省理工科技评论》（MIT Technology Review）是通过麻省理工大学国有独资拥有的杂志期刊，借助麻省理工大学学术和市场资源，发刊于1899年，是世界上历史悠久的技术性杂志期刊及知名度最大的一个高新科技商业化的中国智库之一。《麻省理工科技评论》于2016年落地式我国，由DeepTech独家代理经营，在我国进行新闻媒体、科学研究、出版发行及大会业务流程，紧紧围绕技术性话题讨论辐射源和影响到新兴技术圈内。

《麻省理工科技评论》我国从研制和商业化的水平、外部心态及其发展趋向等多个维度多方位检验大模型能力，试图评选“智商最高”的国产大实体模型。此次实测所使用的验证集包括600道题型，覆盖语言表达重点、数学课重点、理综、文综、逻辑思维能力、编程能力、综合应用能力、安全系数共8个一级类别、126个二级分类、290个三级标识，并对存在的问题的主体性和多元性进行了提升。在题型分析上，还要兼顾定量分析、定性的评价和检测，增设了“单选题”“选取”“填空题”“简单”4个题目类型，分别为145道、138道、136道及181道。大模型实测管理体系应用盲评方法，客观性评定国产大模型聪慧水平。

作为“智商最高”大实体模型核心能力的实测，语言表达重点实测包括会话了解、多种语言、讥讽、古诗文了解、文本生成、关键点汇总、文本分析、词义分辨等61个二级分类，题目类型则是以简单为主导。数据显示，科大讯飞星光85.73%的得分排名第一，远远高于均值。

数学课重点实测，是“智商最高”大模型不可缺少的实测层面。此次实测包括解析几何、几何图形、列方程、繁杂数学课、应用统计学等9个二级分类，以单选题为主导。在其中，科大讯飞星光77.75%的得分名列第一，远远高于均值得分56%，其他网站得分基本上非常。报告指出，在实体模型广泛“数学不好”的情形下，科大讯飞星光这一考试成绩甚为难能可贵，其在数学重点里的领跑一样表现在二级分类评分结论上，在77.8%的二级分类中得分第一，远高于其他网站，分析判断其善于几何图形与场景使用。

做为反映大模型“聪慧水平”不可缺少的“强势”一部分，理综实测包括报表互动问答、有机化学、微生物、物理学、医药学5个二级分类，题目类型内以单选题和简单为主导。实测结论中，科大讯飞星光78.50%的得分排名第一。此外，科大讯飞星光在理综类别下80%的二级分类实测中得分为第一，有机化学与生物较为突出。

逻辑思维能力都是“智商最高”大模型的具体体现，此次逻辑思维能力实测在逻辑判断、逻辑思维链等多个方面制定了比较多的题型，包括对比、常识推理、空间方位、演绎推理、逻辑谬误检验、因果推理等19个二级分类，题目类型上相对性均值，在其中填空较多，多项选择题至少。在逻辑思维能力问题中，科大讯飞星光81.25%的得分名列第一，远远高于72.6%的均值。除此之外，科大讯飞星光在逻辑思维能力63.2%的二级分类这个问题上得分第一。逻辑思维能力针对大模型真正了解现实世界特别重要。

编程能力是模式较为高级能力，此次的编程能力实测包括ASCII、ASCII码鉴别、Python、编码、编码调整、电子计算机6个二级分类，在其中Python主要是以简单方式评定大模型的代码生成能力及准确率，别的则是以主观题的方式调查。数据显示，科大讯飞星光80%的得分远远高于71%的均值，其他网站得分基本上非常。值得一提的是，在很多人关注的生成代码的简答单项工程上，科大讯飞星光的评分率为82%，远远高于其他网站，呈现甚为醒目。

做为较难实测层面，综合应用能力对大模型的“聪慧”水平规定也非常高，涉及到的题较杂，包括百科问答、基本常识、科技知识、客观事实互动问答、工作技能、谜面等13个二级分类，题目类型以选取为主导。在综合应用能力实测上，科大讯飞星光80.61%的得分排名第一，在84.6%的二级分类上得分第一，基本表明存在于百科问答和历史文化里的“独到之处”。

报告显示，在本轮大模型实测中，科大讯飞星光以81.5的高分技压群雄，变成国产大实体模型的第一名。

在刚结束的8月15日，科大讯飞星光认知能力大模型V2.0按期公布，进一步提升代码能力和跨模态水平。在研发得到重大进展的前提下，配备科大讯飞星光V2.0核心竞争力的使用和产品也更为丰富。

标签： 人间百态,实时热点,娱乐资讯,奇闻异事,社会万象

点赞 0反对 0举报 0 收藏 0 打赏 0

更多>同类资讯

推荐图文

霍启刚这么恋爱脑吗	水果店8.8元一斤卖榴
火车站已开启人从众模	58岁头婚新郎接亲走红

推荐资讯

点击排行

免责声明：本站所有信息均来自互联网搜集，产品相关信息的真实性准确性均由发布单位及个人负责，请大家仔细辨认！并不代表本站观点,258商务网对此不承担任何相关法律责任！如有信息侵犯了您的权益，请告知，本站将立刻删除。
友情提示：买产品需谨慎
网站资讯与建议：125493959@qq.com 客服QQ：2924917661

2924917661

• 十大行动七项机制全面吹响共和创城“冲锋号”	• 当前看点!智慧”养殖”新‘鸡’遇
• 国家民委：尽快培养一批铸牢中华民族共同体意识	• 实时焦点：2023年中国家电及消费电子博览会开幕
• 民生成本增加英国救济食物发放量创新高	• 商务部：将继续磋商加入《数字经济伙伴关系协定
• 海南省文昌市2023年职工庆“五一”系列活动开幕	• 世界快讯:青海湖枯水期面积较上年基本持平
• 焦点速递！中国海军南宁舰、微山湖舰紧急撤离我	• 应用场景丰富各类机器人同台竞技