实测阿里版ChatGPT：回答问题注重逻辑，比想象中更聪明-武陵观察网

文|另镜刘雨婷

编辑|陈彦旭

科技技术在改变人与工具的交互方式。PC时代的Apple Lisa电脑，是首次采用图形用户界面和鼠标的个人电脑；到智能手机时代，iPhone定义了触控交互。下一步，ChatGPT类的多模态大模型又将影响未来AI的发展方向和人类的工作方式。

未来科技产业注定是变革和颠覆的一年，新时代属于造梦者、勇闯者，甚至是孤独者。在外界看来，新的科技也许在不久的将来会打破现有的商业格局。大浪淘沙，敢为者先。

新浪潮下，另镜推出「Tech潮向」专题系列报道，洞察当下前沿科技新变革和发展趋势，报道前沿科技企业新战略、新思维，提供更多具有前瞻思考的价值信息。此篇为该系列报道第三篇，聚焦新一轮新科技ChatGPT开启。

4月7日，阿里版GPT官宣内测，自研大模型“通义千问”开始邀请用户测试体验，现阶段主要定向邀请企业用户进行体验测试。

最近一段时间以来，ChatGPT成了互联网领域最大的风口，国内受追捧热度同样高涨，百度文心一言率先发布，美团联合创始人王慧文早已宣布入场，360集团创始人周鸿祎也公开演示了其公司的聊天机器人。

ChatGPT的出现引领新一轮技术创新，各行各业将会如何被颠覆是2023年外界最关心的话题。

阿里此次发布的通义千问是达摩院自主研发的超大规模语言模型，可以回答问题、创作文字，以及表达观点、撰写代码。

另镜拿到“通义千问”首批邀测资格，在登陆“通义千问”后，其主页页面主要突出了四个功能：职场助理、撰写短文、写封邮件和电影脚本。

在二级入口“百宝袋”中，通义千问举例了更多应用场景，包括提升工作效率的写提纲、SWOT分析、商品描述生成；生活类的菜谱、小学生作文、接文续写；以及娱乐类的彩虹屁、情书、写诗。

另镜通过邀测码对通义千问进行了体验，从问题回答、观点表达、逻辑计算等多个方面对“通义千问”进行测试，并与文心一言、ChatGPT（GPT-4）的回答进行对比。

能写英文推荐信

首先，另镜测试了几个大模型对于最新热点的了解，提问其是否了解最近刚刚成为网络热点的熊猫“花花”。

通义千问给出了回答，识别出提问者是想了解具体熊猫个体“花花”，但可惜或受限于语料资料，并未能给出正确介绍。

通义千问答案

正确信息：花花，本名和花，雌性大熊猫，2020年7月4日出生在成都大熊猫繁育研究基地月亮产房。

文心一言、ChatGPT则是未能理解提问者的具体意图，均未能将问题回答落实到具体个体上。

文心一言答案

ChatGPT答案

这也在一定程度上体现了几个大模型对于新闻热点的滞后捕捉问题。作为国外的语言大模型，ChatGPT在中英文互译过程中的信息理解偏差也是使用者要面临的问题。

之后，另镜测试了通义千问对于问题的逻辑理解能力。另镜用一个藏有逻辑“陷阱”的问题进行测试：眼镜没发明出来之前，眼镜蛇叫什么？

在首次测试中，通义千问未能正确解答问题，但在第二次重新回答后，其回答眼镜蛇有另一个名字——眼镜王蛇，以及该名称来源，但这也并未能避开“眼镜”这个问题。

通义千问答案

文心一言则是给出了眼镜蛇的其他名称，避开了“眼镜”字眼。

文心一言答案

ChatGPT则是成功理解了问题逻辑，解开了文字矛盾，并介绍了眼镜蛇的命名方式。

ChatGPT答案

在接下来的提问中，另镜特意测试了“通义千问”对于中文诗句的理解：“云渺渺，水茫茫。征人归路许多长。相思本是无凭语，莫向花笺费泪行”是什么意思？

通义千问答案

与百度文心一言、ChatGPT相比，通义千问的回答要更简洁一些，文心一言、ChatGPT详细解释了每句诗词的意思和情感表达。

文心一言答案

ChatGPT答案

接下来，另镜测试了通义千问对中文诗句的更深层理解，细化到具体诗句词语：“凄凄惨惨戚戚中”的戚戚是什么意思？

在这个问题上，通义千问并未能识别诗句出处，在中文文学理解方面还略有不足。

通义千问答案

文心一言回答出了诗句原文，但并没能对具体词语进行解释。

文心一言答案

ChatGPT虽然回答出了具体词语意思，但也并未回答诗句出处，并将“凄凄惨惨戚戚”错误理解成了四个形容词。

ChatGPT答案

除中文语料测试外，另镜也测试了通义千问的英文输出能力。另镜要求通义千问用英文写一封推荐信，推荐学生申请硕士，通义千问给出了相应推荐信模板。

通义千问答案

有理科生气质

在观点表达方面，通义千问、文心一言、ChatGPT体现了不同的分析框架。

另镜要求三者评价马斯克和他的登月计划：

通义千问从技术才华、商业才华、人品道德三方面，分条展现了评价马斯克的角度，这个评价框架具有一定的通用性、

通义千问答案

与通义千问偏“理科生”的逻辑性回答不同，文心一言的回答更像是一篇“文科生”的感性作文。

文心一言答案

ChatGPT则是回答了大众对于马斯克的看法，直接介绍了马斯克的身上的标签，更加有针对性。

ChatGPT答案

在评价马斯克后，另镜要求三者分析其太空移民计划能否成功。与上个问题相似，通义千问分条回答了该问题，文心一言写了一段小作文。

通义千问答案

文心一言答案

ChatGPT则是深入分析了太空移民计划目前面对的困难，有针对性的分析了能否成功的具体因素，回答也更实际。

ChatGPT答案

还不能替小学生写作业

在数学逻辑方面，通义千问、文心一言、ChatGPT都遇到了困难。另镜挑选了两道小学六年级奥数题，在回答第一道逻辑判断题问题时，通义千问和ChatGPT回答正确，文心一言则出现判断错误。

通义千问和ChatGPT通过语言逻辑解答了问题，但在更具体的数学公式搭建上却遇到困难。

在回答第二道数学计算问题时，通义千问、文心一言、ChatGPT都出现错误。三者给出了解答公式，进行推算，但是都未能给出正确答案。

正确答案是：20小时。

写在最后

目前，各个大模型的表现都不算完美。但正如通义千问所介绍的，语言大模型的未来是非常广阔的。

随着人工智能技术的不断发展和普及，语言大模型将被越来越多的应用于自然语言处理领域的各种任务。例如，语言大模型可以用于翻译、问答系统、智能客服、机器翻译、文本分类等。

同时，语言大模型也将促进人工智能技术在其他领域的应用，例如智能驾驶、医疗健康、金融服务等。未来，语言大模型将会持续发展和创新，为人类社会带来更多的便利和效益。

无论现在OpenAI、百度、阿里旗下的聊天机器人表现如何，这也只是AI技术迭代的最开始，未来的路还有很长。

进行,逻辑,ChatGPT,模型,测试,问题,答案,文心一,眼镜,阿里,文心,眼镜蛇,模型,马斯克,百度文心

相关文章