·“虽然目前大模型技术还有有待攻克的缺陷,比如新知识难以及时更新、事实类问答容易‘张冠李戴’,史实、传统典籍等容易‘编造情节’等,但这些问题在今年会有明显的改进。”
·“我们要向OpenAI致敬和学习,同时也要快速追赶并努力超越,而这需要一套科学系统的评测体系。”科大讯飞通过认知智能全国重点实验室牵头设计了通用认知大模型评测体系,覆盖7大类481个细分任务类型。
讯飞星火认知大模型发布会现场。
国内AI大模型“百模之战”又迎来新的挑战者。
5月6日,科大讯飞董事长刘庆峰、研究院院长刘聪正式发布讯飞星火认知大模型,在现场实测向大模型提问。刘庆峰称,当前讯飞星火认知大模型在文本生成、知识问答、数学能力三大能力上已超ChatGPT。
目前大模型技术还有待攻克的缺陷。
“虽然目前大模型技术还有有待攻克的缺陷,比如新知识难以及时更新、事实类问答容易‘张冠李戴’,史实、传统典籍等容易‘编造情节’等,但这些问题在今年会有明显的改进。”刘庆峰公布了年内讯飞星火认知大模型技术持续升级的三个关键里程碑节点:
年内讯飞星火认知大模型技术持续升级的三个关键里程碑节点。
6月9日,将突破开放式问答、多轮对话能力明显提升、数学能力再升级;8月15日,代码能力升级以及多模态交互能力提升,希望能帮助到更多的合作伙伴及开发者团队;10月24日,将实现通用模型对标ChatGPT,中文超越ChatGPT的当前版本,英文能做到相当水平,并在教育、医疗等领域做到业界领先。
据刘庆峰介绍,算力方面科大讯飞将联手华为,“使我们未来认知大模型的持续进化,要在我们自主可控的平台上,不断地提升。”
评测讯飞星火认知大模型
“孙悟空和奥特曼也偷偷潜入了会场,他们都争着想做讯飞星火认知大模型的代言人,还为此吵了一架,请根据上述信息创作一个故事。”刘庆峰在发布会上向大模型提问。
随后,澎湃科技(www.thepaper.cn)记者也向星火认知大模型询问了这个问题,得到以下结果:
澎湃科技向大模型询问上述问题后得到的结果。
刘庆峰称,在长文本生成上,讯飞星火大模型在国内明显领先,在中文方面超过了ChatGPT,并且在持续进步中。
在语言理解方面,刘聪现场问道:“俗话说男子汉大丈夫宁死不屈,但是俗话又说男子汉大丈夫要能屈能伸,请问这两句话怎么理解?”
澎湃科技向大模型询问上述问题后得到的结果。
刘聪还问道:“如果一个小伙子跟女朋友吵架了,他应该宁死不屈还是能屈能伸呢?”
澎湃科技向大模型询问上述问题后得到的结果。
大模型现场还展示了“情感分析”能力,试图体现其跟人类共情的潜力。
刘庆峰问道:“今天小明参加比赛获得了冠军,拿到奖杯后他默默地站了一分钟。今天我上课被老师批评了,走出教室后我默默地站了一分钟。请问上面这两个默默地站了一分钟分别表达了什么心情?”
澎湃科技向大模型询问上述问题后得到的结果。
刘庆峰称,科大讯飞现在的语言理解能力相比ChatGPT还略有差距,但已超越国内同类产品。
“1+N”落地应用计划
“我们要向OpenAI致敬和学习,同时也要快速追赶并努力超越,而这需要一套科学系统的评测体系。”刘庆峰说。
科大讯飞通过认知智能全国重点实验室牵头设计了通用认知大模型评测体系,后与中科院人工智能产学研创新联盟和长三角人工智能产业链联盟共同探讨,最后形成了覆盖7大类481个细分任务类型。
通用认知大模型评测体系。
据刘庆峰介绍,从ChatGPT关注的48个主要任务方向和讯飞开放平台上400多万开发者团队的需求分析,通用人工智能应当具备七大维度能力,包括文本生成、语言理解,知识问答、逻辑推理、数学能力、代码能力、多模态能力等。
认知大模型的“智能涌现”将带来解决人类刚需的全新机遇。
对于大模型的落地应用计划,刘庆峰透露,2022年12月15日科大讯飞已正式启动“1+N”认知大模型专项攻关,其中“1”就是指通用认知智能大模型,“N”就是大模型在教育、办公、汽车、人机交互等各个领域的落地。
在本次发布会上,围绕星火认知大模型“1+N”架构中“N”个领域的内容,科大讯飞还发布了大模型在教育、办公、汽车、数字员工等多个方向的行业应用成果。
据科大讯飞介绍,在教育方面,“大模型+AI学习机”可以让AI像老师一样批改作文,像口语老师一样实景对话。在办公方面,“大模型+智能办公本”可以根据手写要点自动生成会议纪要。在汽车内,“大模型+智能座舱”可以实现车内跨业务、跨场景人车自由交流。对于“大模型+数字员工”,其基于自然语言生成业务流程和RPA,可以帮助企业员工完成大量重复性工作。
除了上述领域外,科大讯飞表示,讯飞星火认知大模型还将赋能包括医疗、城市、政法、工业等在内的更多行业,满足更多专业领域的需求,向更广阔的产业领域延伸。