通用认知智能大模型有了能力评测体系包含7大能力维度、481个细分任务类型-四处观察

　　◎本报记者吴长锋

　　通用认知智能大模型评测体系根据底层认知智能能力的智能涌现对通用认知智能大模型的能力进行分析，从而制定通用认知智能大模型的评测标准与评测方法，更科学地衡量通用认知智能大模型各个方面的能力和水平。

　　王士进认知智能全国重点实验室副主任

　　6月3日，以“AI大模型时代的长三角数字化之路”为主题的长三角企业家联盟产业数字化峰会在安徽合肥举行。会上，认知智能全国重点实验室、中国科学院人工智能产学研创新联盟和长三角人工智能产业链联盟共同发布了通用认知智能大模型评测体系，旨在形成一套覆盖多任务的大模型能力客观评测体系，引导中国认知智能大模型技术和产业健康发展。

　　认知智能大模型或迎爆发式增长

　　伴随着人工智能技术的进步，认知智能大模型或成为实现通用人工智能的“曙光”。

　　未来几年，随着业界长期系统性推进人工智能的技术研发，认知智能大模型或将迎来爆发式增长，传统的内容生产及传播方式或被改写，人机协作将进一步改变人们的生产生活方式，甚至将改写现有的产业生态格局——一些传统产业将“被迫”进行转型升级，认知智能技术将创造出新的职业、岗位，为整个信息产业和数字经济带来新的发展契机。

　　5月6日，科大讯飞股份有限公司(以下简称科大讯飞)正式发布讯飞星火认知大模型。仅一个月后，科大讯飞宣布，星火认知大模型“牵手”工业互联网平台，实现在“产、供、销、服、管”等各流程的知识学习与人工智能赋能，有效助力企业降本增效。

　　从各大互联网企业的发展路径可以看出，工业互联网建设和企业数字化转型等或是实现认知智能大模型规模化落地应用的重要切入口。

　　然而，如何提前研判认知智能大模型给各行各业带来的颠覆性改变和创新性发展机遇，使得企业能够及时且有针对性地作出相应的调整？这就需要一套科学、系统的客观评测体系，既可以综合判断现阶段的技术进展，还能够明确认知智能大模型多维度的发展路径。认知智能大模型领域“百花齐放”，效果度量和评价成为重点，覆盖多维度、多任务的客观评测成为验证认知智能大模型能力的重要手段。

　　科学研判通用认知智能大模型

　　针对现实需求，认知智能全国重点实验室牵头设计，与中国科学院人工智能产学研创新联盟、长三角人工智能产业链联盟一起，从产学研源头技术创新和产业链应用落地两方面出发，组织多轮评测标准研讨会议，邀请中国科学院科技战略咨询研究院、中科寒武纪科技股份有限公司、科大讯飞等产学研各界代表探讨交流，共同形成了通用认知智能大模型评测体系。

　　“评测体系根据底层认知智能能力的智能涌现对通用认知智能大模型的能力进行分析，从而制定通用认知智能大模型的评测标准与评测方法，更科学地衡量通用认知智能大模型各个方面的能力和水平。”认知智能全国重点实验室副主任王士进介绍说。

　　王士进表示，本次发布的评测体系覆盖内容生成、语言理解、知识问答、逻辑推理、数学能力、编程能力、多模态7大能力维度，共计481个细分任务类型，力求为大模型的研究、行业标准的制定提供参考和借鉴。

　　他表示，未来评测体系将致力于让认知智能大模型技术真正解决社会刚需，助力长三角打造具有全球影响力的通用人工智能科技创新策源地和新兴产业聚集地。“围绕推动通用人工智能评测体系共建，下一步，认知智能全国重点实验室希望与长三角企业家联盟单位基于通用评测体系持续合作优化，共同推动行业评测方案落地，促进技术和产业健康发展。”王士进说。

【责任编辑：长风】

通用认知智能大模型有了能力评测体系包含7大能力维度、481个细分任务类型

2023北京智源大会：人工智能顶级专家对话发布系列大模型

360视觉大模型重塑AIoT，智慧生活给周鸿祎“交卷”

中国信通院：编制纸鸢开放人工智能模型许可证促大模型落地

人工智能大模型应如何发展、治理？科技部副部长提出四点倡议

报告：中国10亿级参数规模以上大模型已发布79个

大咖连线｜专访李开复：大模型，谁能笑到最后？

大模型掀热潮中国着力打造开源生态

大模型掀热潮中国着力打造开源生态

李开复：AI大模型蕴含几十万亿美元商机

业界：大模型“开放性生态”对行业未来发展至关重要

通用认知智能大模型有了能力评测体系 包含7大能力维度、481个细分任务类型

通用认知智能大模型有了能力评测体系包含7大能力维度、481个细分任务类型