华泰计算机：GPT&智能终端—大模型定义新入口-武陵观察网

以机器人为突破口，ChatGPT等大模型定义智能终端新入口。大模型的“新入口”属性已经从主流的 PC 和手机端，向更广泛的智能设备扩散。我们认为，主要的智能设备包括智能终端和智能音箱。

核心观点

以机器人为突破口，ChatGPT等大模型定义智能终端新入口

2023年2月，微软提出了ChatGPT for Robotics，利用ChatGPT解决机器人应用程序问题。在此过程中，不要求LLM（大语言模型）输出特定于机器人平台或库的代码，而是创建简单的高级函数库供ChatGPT调用，并在后端将高级函数库链接到各平台、场景和工具的现有库和API。结果表明，ChatGPT能够以zero-shot的方式解决各种与机器人相关的任务，对于zero-shot无法解决的问题，用户也可以采用交互对话的形式对ChatGPT实行进一步指导。以人形、协作机器人为突破口，ChatGPT等LLM将成为智能音箱、车载虚拟助手等智能终端设备新入口。

人类on-the-loop指导ChatGPT操纵机器人

ChatGPT的引入，使得人类用户脱离in-the-loop，转以on-the-loop的形式，通过自然语言等高级语言命令与语言模型交互，实现无缝部署各种平台和任务，并对ChatGPT输出的质量和安全性进行评估。其中，定义高级函数库与构建提示是关键：前者通过调用机器人平台API赋予ChatGPT操纵机器人的能力；后者通过描述约束&；需求、环境、当前状态、目标、方案示例等，更好的指导ChatGPT生成结果。微软还提供专门的PromptCraft和AirSim仿真平台辅助开发者进行机器人方面的研究。

ChatGPT分三个层次解决不同复杂度的机器人问题

对于简单的机器人任务，例如时空推理、无人机飞行和AirSim工业检测等，ChatGPT能够以zero-shot的方式解决，不需要提供额外的代码示例。对于较为复杂的任务，例如课程学习和AirSim避障，ChatGPT无法zero-shot解决问题，人类用户on-the-loop与ChatGPT进行交互，可以辅助其完成相关任务。以上两类任务的完成均依赖ChatGPT生成的代码，而更高层次地，用户通过文本对话不断将人类的感知信息输入到ChatGPT，ChatGPT能够解析观察流并在“对话系统”中输出相关操作，不再需要生成代码。

LLM定义机器人、智能音箱、车载助手等新入口

微软的ChatGPT for robots开启了ChatGPT的设备入口属性。

1）机器人入口：谷歌的PaLM-E具身多模态模型同样实现了对机器人的控制；OpenAI从2017年即开始在机器人领域布局，2023年3月领投挪威的人形机器人制造商1X technologies。

2）智能音箱&；家居：国外智能家居提供商Josh.ai提供了与ChatGPT结合的使用示例，阿里大模型联合项目团队在天猫精灵智能音箱上部署了个性化消费级终端模型。

3）车载助手：通用汽车正开发基于ChatGPT的虚拟个人AI助手，毫末智行预告了DriveGPT。

风险提示：宏观经济波动，技术进步不及预期。本报告内容均基于客观信息整理，不构成投资建议。

正文

ChatGPT：探索机器人新入口

微软解锁ChatGPT处理机器人应用程序的能力，构建高级函数库是关键。微软提出了ChatGPT for Robotics，利用ChatGPT解决机器人应用程序问题。在此过程中，不要求LLM（大语言模型）输出特定于机器人平台或库的代码，而是创建简单的高级函数库供ChatGPT调用，并在后端将高级函数库链接到各平台、场景和工具的现有库和API。此外，基于ChatGPT良好的推理和理解能力，能够很好的理解用户自然语言形式的意图，将其转换为高级函数调用的逻辑链。

ChatGPT能够以zero-shot的方式解决各种与机器人相关的任务。在微软的演示中，通过自由形式的自然语言对话、代码提示、XML标记和闭环推理等提示（prompt）技术，ChatGPT指导机器人以zero-shot（零样本学习）完成了常识性知识推理问答、无人机操控、视觉导航等任务，并实现对话式闭环推理。

仿真模拟和人工监督是安全性的重要保障。为确保安全性，在将模型部署到现实世界之前，使用了模拟器评估模型性能。此外，微软在机器人技术中使用ChatGPT并不是一个完全自动化的过程，而是作为一种增强人类能力的工具，即在实际执行代码前，会在人工监督下确保代码质量和安全性。

ChatGPT在人类作者提示下完成了该论文创作。微软指出，ChatGPT for Robotics论文主要是在ChatGPT的帮助下完成的，其中人类作者提供必要的prompt，并修改了和调整了ChatGPT的输出结果，显著地加快了写作过程。

人类on-the-loop指导ChatGPT操纵机器人

ChatGPT将人类从机器人流程中的in-the-loop变为on-the-loop。目前，机器人pipeline（流程）需要一个专门的工程师in-the-loop编写代码来改进流程。而ChatGPT的引入，可以替代人类在循环中的位置，人类（技术或非技术均可）用户可以以on-the-loop的形式，通过高级语言命令与语言模型交互，实现无缝部署各种平台和任务。

人类用户在机器人pipeline中评估ChatGPT输出的质量和安全性。人类在机器人pipeline中的任务主要包括：

1）定义高级机器人函数库。高级机器人函数库（high-level robot function library）一方面面向机器人平台，能够调用和指导机器人相关动作；另一方面面向ChatGPT，保证库中函数的命名应能便于ChatGPT理解和遵循。

2）构建prompt。Pompt描述任务目标，并标识允许ChatGPT使用的高级函数库中的函数。此外，还可以包括约束信息，或者告知ChatGPT如何组织其响应。3）分析评估ChatGPT输出结果并反馈。用户以on-the-loop的形式，通过直接分析或模拟来评估ChatGPT输出的代码，并就输出代码的质量和安全性向ChatGPT提供反馈。4）迭代。不断迭代chatgpt生成的结果直到符合人类预期，并确保最终的代码可以部署到机器人上执行。

定义高级函数库与构建提示是关键

定义高级函数库赋予ChatGPT操纵机器人的能力。机器人技术是一个多样化的领域，存在多种平台、场景和工具，以及各种各样现成的库和API。因此，不需要LLM输出特定于平台或库的代码，只需要定义高级函数库，将现有的机器人控制相关的库进行封装，这样通过prompt调用高级函数即可实现ChatGPT对机器人的操作。此外，基于ChatGPT的理解和推理能力，还可以实现基于现有API开发新的API功能。

良好的prompt策略是ChatGPT输出更好结果的关键。除了提示ChatGPT可调用的API外，良好的上下文prompt应包括：

1）约束和需求：指定与任务相关的约束或需求。例如指定任务涉及移动对象的重量、大小和形状。

2）环境：描述机器人任务所在的环境。例如描述需要避免的障碍物或危险。

3）当前状态：描述机器人系统的当前状态。例如描述机器人和物体的当前位置和方向。

4）目标和目的：描述任务的目标和目的。例如指出机器人移动方块的个数和预期的完成时间。

5）解决方案示例：演示如何解决类似的任务，作为指导LLM解决方案策略的一种手段。例如对于涉及用户交互的任务，可以提供示例，说明机器人应该如何以及何时要求用户输入。

用户能够以聊天交互的形式让ChatGPT自行修改生成结果。即使是设计良好的prompt也可能会存在不完备的情况，或者在某些情况下ChatGPT不能以zero-shot的方式生成正确的响应。此时，用户可以聊天方式向ChatGPT发送附加指令，并让其自行纠正。

微软提供开源prompt和仿真平台

微软提供PromptCraft和AirSim帮助加速模型在机器人应用中的迭代。PromptCraft是微软提供的基于Github的合作开源平台，允许研究人员分享不同机器人任务中的提示工程（prompt engineering）策略。用户可以上传示例，对其他人的提交进行评分。此外，PromptCraft还提供了一个带有ChatGPT封装的AirSim环境，供研究人员在受控的模拟环境中对提示和算法进行原型设计。

简单任务：zero-shot可以直接解决

ChatGPT能够以zero-shot的方式解决简单的机器人任务。对于简单的机器人任务，用户只需提供prompt和函数库描述，不需要提供具体的代码示例，ChatGPT即可zero-shot解决时空推理、控制真实无人机和无人机工业检测等问题。

1）时空推理：要求ChatGPT控制一个平面机器人，用视觉伺服捕捉篮球位置。

2）真实世界无人机飞行：使用ChatGPT和API控制一个真实的无人机，完成物体寻找任务。

3）AirSim工业检测：基于AirSim模拟器，利用ChatGPT控制模拟域无人机进行工业巡检。

复杂任务：用户on-the-loop交互式对话实现

在人类用户on-the-loop交互下，ChatGPT能够完成更复杂的机器人控制任务。对于更复杂的问题，ChatGPT没法zero-shot完成或者完成效果有限，此时人类用户可以以文本反馈交互的方式辅助ChatGPT，完成课程学习、AirSim避障等任务。

1）课程学习：教授ChatGPT简单的拾取和放置物体技能，并将所学会的技能按逻辑组合用于更复杂的区块排列任务。

2）AirSim避障：ChatGPT构建了避障算法的大部分关键模块，但仍需要人工反馈无人机朝向等部分信息。人工反馈均是高级的自然语言，但ChatGPT能够理解并在适当的位置进行代码修正。

感知-动作循环：代码层次与对话层次

ChatGPT的对话系统能够解析观察流并输出相关操作。在具身代理任务中，一方面，模型能够使用API库在其“代码”输出中构建感知-动作循环，利用图像采集和物体检测等感知功能，生成机器人导航和控制所需的相关信息。另一方面，用户通过文本对话不断将人类的感知信息输入到ChatGPT，ChatGPT能够解析观察流并在“对话系统”中输出相关操作，而不依赖代码生成。

1）具身代理：带API库的闭环对象导航：为ChatGPT提供了对计算机视觉模型的访问，作为其函数库的一部分。ChatGPT在其“代码”输出中构建感知-动作循环，实现估计相对物体角度、探索未知环境，并导航到用户指定对象的功能。

2）具身代理：使用ChatGPT的对话进行闭环视觉语言导航

在模拟场景下，人类用户将新的状态观测值（可见对象的相对极坐标）作为对话文本输入，ChatGPT的输出仅返回向前的运动距离和转弯角度，实现了用“对话系统”指导机器人一步步导航到感兴趣区域。

以机器人为突破口，LLM定义智能终端新入口

ChatGPT等LLM将成为定义智能终端的新入口。ChatGPT结合了自然语言理解、代码生成等优点，并具有对话方面的自然性和灵活性。目前，ChatGPT已在个人电脑（PC）和移动端入口上实现了较为全面的布局，包括办公软件（微软365 Copilt）、协同软件（微软Teams）、移动端搜索引擎（微软Bing）、创意软件（Adobe Firefly）。微软的研究已经证明，ChatGPT能够借助机器人这一入口扩展应用场景。未来，ChatGPT等LLM或将依托更多的现实载体，定义智能终端新入口，扩展其设备入口属性。

入口#1：人形、协作等各类机器人

谷歌的PaLM-E具身多模态模型同样实现了对机器人的控制。谷歌于2023年3月基于其已有的大语言模型PaLM，提出了能够实现具身化和多模态的新模型PaLM-E，并实现了对机器人的控制（参考华泰研报：《GPT系列：具身化多模态PaLM-E》，2023年3月14日）。在机器人的控制流程中，PaLM-E模型基于人类用户的目标意图，生成机器人控制指令，并且能够接受机器人的反馈信息以对下一步控制指令进行调整和重规划。与微软的ChatGPT for robotics相比，PaLM-E更注重模型本身的对多模态输入的理解以及推理输出能力，而微软的成果更注重人类在机器人流程中的on-the-loop支持。

OpenAI在机器人领域早有布局。2017年5月，OpenAI推出了用于机器人模拟的开源软件Roboschool。同月，OpenAI在机器人中部署了新的单样本模仿学习（one-shot imitation learning）算法，通过人类在VR中向机器人演示如何执行任务，机器人即可从任意起始配置解决相同的任务。2018年2月，OpenAI发布了8个模拟机器人环境和Hindsight Experience Replay（事后经验回放，HER）基线实施，并用来训练在物理机器人上工作的模型。2023年3月23日，挪威的机器人制造商1X technologies宣布完成2350万美元的A2轮融资，领投方是OpenAI旗下的启动基金。1X technologies将利用融资加快其即将推出的双足机器人模型NEO的研究进展，并在挪威和北美规模化生产首款商用机器人EVE。

节卡机器人实现了ChatGPT与产品的结合和应用演示。节卡机器人是新一代协作型机器人提供商，其工程师将ChatGPT与节卡机器人本体、编程、二次开发，以及公司客服支持等板块结合，实现了部分实用性的应用演示。原理上看，采用语音识别技术将用户的自然语言实时转换成文本，节卡机器人对转换的文本内容进行理解，进而完成语音指令到运动控制的转换，智能化的实现了目标任务，并且对人类的对抗性干扰具有良好的鲁棒性。

入口#2：以智能音箱为代表的智能家居

智能音箱是重要的家居控制入口，ChatGPT的理解推理能力将对其赋能。智能家居通过物联网技术连接家中的各种设备（如音视频设备、照明系统、窗帘控制、空调控制、安防系统、数字影院系统、影音服务器、影柜系统、网络家电等）。其中，智能音箱是重要的家居控制入口。目前的智能音箱等语音产品往往只能实现简单一问一答功能，或者重复咨询、确认、沟通的循环中，交互方式过于“理性”和僵化。而ChatGPT具有很好的语义理解和推理能力，能够对用户下达的长指令进行逻辑分析和规划执行，并且支持向用户提供更多建议。因此，ChatGPT与智能音箱结合后，将赋予其更多“智能”。

Josh.ai公司致力于开发基于ChatGPT的语音集成。Josh.ai是国外的智能家居提供商，开发了语音控制家庭自动化系统Josh和Josh Core/Micro/Nano等智能家居产品。目前，Josh.ai提供了与ChatGPT结合的使用示例，例如控制音乐播放、控制灯具启闭、回答用户问题等，交互过程更加智能和自然。

Josh.ai指出潜在用例还包括：1）根据住家的位置和家庭特质提供个性化的回答；2）提供购物、户外活动、艺术等用户感兴趣的各种服务；3）帮助用户学习和理解新知识；4）为用户制定各种活动列表，并支持添加费用、环境等约束条件；5）帮助用户实现对智能家居的控制。

Josh.ai正在与亚马逊合作，进一步开发家庭智能系统潜能。据亚马逊CES 2023大会信息，亚马逊正在与Josh.ai合作，开发Josh.ai家庭智能系统的多助手集成潜力。当Josh.ai助手控制智能家居或连接设备时，用户将能够同时使用Alexa（亚马逊公司推出的智能助理）处理各种语音请求，例如查看最新的体育赛事比分和管理购物清单。

阿里大模型联合项目团队在天猫精灵智能音箱上部署了个性化消费级终端模型。阿里团队以通义大模型为基础，量身脱口秀演员打造了个性化数字分身“终端模型”，并部署在天猫精灵智能音箱上，实现了：1）不间断自由语音对话；2）个性化音色、语气、表达方式的模拟；3）向用户提供百科、创作灵感等信息和知识。

个性化应用是大模型研究的重要方向。智能家居具有“千人千面”的特性，个性化大模型能够更好的实现对智能家居的“智能”加持。阿里指出个性化大模型在对话场景训练中关注的重点包括：1）人设、对话风格、逻辑的一致性；2）对话三观的正确性；3）有偏好的个性化对话实现。通过大规模语言训练、知识和工具增强、个性化对话增强和人类反馈增强等四个步骤，个性化大模型被赋予了相应的共情能力，能够更和谐的融入家庭环境。

通义大模型、TTS与ASR技术实现个性化大模型的知识、情感、记忆和性格四位一体。阿里团队以通义大模型系列为模型基础，融合了ASR猫耳算法、自研的声学模型KAN-TTS定制方案，实现了个性化模型在知识、情感、记忆和性格上的和谐统一。

1）ASR猫耳算法：结合深度学习方法与传统AEC、多通道立体声消除回声，并借助设备中的麦克风阵列实现定向拾音，准确识别说话人位置，将用户语音精确转换成文本，同时利用降噪消除非人声或非主要说话人声。

2）KAN-TTS定制方案：基于达摩院自研声学模型，只需收集1个小时的个性化录音，即可在一周内完成录音、训练、模型上线全流程，且呈现出的拟人化声音更自然的接近真实人声。

入口#3：车载虚拟个人AI助手

ChatGPT等LLM在车载场景下能力优势相较传统AI助手更明显。语音交互是车内简洁、人性化、安全的交互方式，也是未来主要的车内交互方式，而ChatGPT等大模型能够通过上下文理解能力、思维链推理、增强指令等实现持续学习，提供更灵活、更人性化、更精准的车机交互，相比传统的AI助手更能快速适应复杂的车载交互环境。

通用汽车正开发基于ChatGPT的虚拟个人AI助手。据2023年3月的Semafor数据，通用汽车公司正在开发一款虚拟个人AI助手，该助理使用ChatGPT人工智能模型和微软的Azure云服务。通用汽车副总裁Scott Miller指出，AI助手可能会超越简单语音命令，更智能的帮助用户处理汽车相关问题，例如，轮胎损坏时用户可以要求汽车解释如何更换轮胎，或在车内的显示屏上播放教学视频；仪表盘上出现诊断灯，司机可以询问AI助理如何处理，或者推荐维修店并进行预约。在此基础上，通用汽车将在ChatGPT模型中添加与汽车相关的层（layer），以便更好的处理与汽车相关的问题。

风险提示

宏观经济波动。若宏观经济波动，产业变革及新技术的落地节奏或将受到影响，宏观经济波动还可能对AI投入产生负面影响，从而导致整体行业增长不及预期。

技术进步不及预期。若AI技术和大模型技术进步不及预期，或将对相关的行业落地情况产生不利影响。

本报告内容均基于客观信息整理，不构成投资建议。

定义新,机器人,代码,ChatGPT,平台,模型,的任务,智能,计算机,机器人,模型,高级函数库,prompt,微软

相关文章