波士顿动力 Spot 机器狗刚刚学会用 ChatGPT 说话
英雄波士顿动力会说话的机器狗
狗是人类最好的朋友,或者就波士顿动力公司的机器狗 Spot 而言,它是每个人最好的导游。该公司利用 ChatGPT 为 Spot 创建多个个性,使用视觉问答 (VQA) 或“字幕”模型来描述环境中的各种对象,然后使用大型语言模型 (LLM) 等活动详细说明这些描述。
众所周知,许多科技公司正在寻找更多方法来使用人工智能来增强产品。以波士顿动力公司为例,该公司着眼于生成式人工智能,并探索了法学硕士如何工作,以了解它们如何影响机器人技术的发展。在研究阶段,该公司使用机器人应用基础模型(FM)制作了一些概念验证演示,并在内部黑客马拉松期间对其进行了扩展。一个比其他演示更耀眼的演示是使用 FM 的演示,该演示利用 Spot 作为自主工具。
除了能够识别环境中的物体并对其进行详细说明之外,Spot还能够回答问题并规划下一步应该采取的行动。波士顿动力将法学硕士描述为就像一个即兴演员,团队提供大致的剧本,法学硕士则即时填补空白。
该团队了解到,法学硕士因产生幻觉和在未经事实核查的情况下添加听起来合理的细节而臭名昭著。然而,就导游Spot而言,团队并不担心事实的准确性。其目标是让机器狗具有娱乐性、互动性和细致入微。
Spot 的对话技能是通过使用 OpenAI ChatGPT API 实现的,从 GPT-3.5 开始,然后在可用后升级到 GPT-4 。机器狗的对话技能是通过该公司所说的“仔细的提示工程”来控制的。LLM Spot 可以使用公司的自主 SK、带有每个位置的一行描述的旅游景点地图,以及提问和说出短语的能力。
为了使 Spot 与其受众和环境互动,该团队集成了 VQA 和语音转文本软件。然后,它将机器人的抓手摄像头和前置机身摄像头输入 BLIP-2,然后以视觉问答模式或图像字幕模式运行。该过程大约每秒运行一次,结果直接输入到提示符中。