更大更昂贵的人工智能模型
与人工智能领域的许多其他最新进展一样,Meena 的成功至少部分归功于其庞大的规模。“Meena 模型有 26 亿个参数,并在 341 GB 的文本上进行训练,从公共领域的社交媒体对话中过滤出来,”谷歌的人工智能研究人员写道。相比之下,OpenAI 的 GPT-2有 15 亿个参数,并在 40 GB 的文本语料库上进行了训练。
需要明确的是,我们距离创建与人类大脑复杂性相匹配的 AI 模型还很远,人类大脑拥有大约 1000 亿个神经元(大致相当于人工神经网络中的参数)和超过 100 万亿个突触(神经元之间的连接) . 所以,大小很重要。但这不是全部。一方面,没有人可以在其一生中处理 340 GB 的文本数据,更不用说需要这么多才能进行连贯的对话了。
痴迷于创建更大的网络并在问题上投入更多计算和更多数据会导致经常被忽视的问题。其中包括开发此类模型的成本和碳足迹。
根据论文,Meena 在由 2,048 个 TPU 内核组成的 TPU v3 Pod 上进行了 30 天的训练。Google 没有 2,048 核 TPU v3 Pod 的价格表,但 32 核配置每小时收费 32 美元。预计到 2,048 个内核(2,048 美元/小时),每天将花费 49,152 美元,30 天将花费 1,474,560 美元。有趣的是,谷歌可以分配这样的资源来研究更大的人工智能模型,但大多数学术研究实验室并没有这些资金可以腾出。这些成本使得在商业部门之外开发此类 AI 模型变得困难。
更明智和具体
基准在对 AI 模型进行排名和评估其准确性和有效性方面发挥着非常重要的作用。但正如我们在这些页面中看到的,大多数 AI 基准测试都可以被玩弄并提供误导性结果。
为了测试 Meena,Google 的工程师开发了一个新的基准,即合理和特异性平均 (SSA)。敏感性意味着聊天机器人在与人类进行对话时必须有意义。因此,如果 AI 产生的答案绝不适用于该问题,那么它在敏感性方面的得分为负。
但提供连贯的答案是不够的。一些回应,如“很好!” 或“我不知道”或“让我考虑一下”可以应用于许多不同的问题,而无需人工智能理解它们的含义。这就是特异性发挥作用的地方。除了评估 AI 的敏感性之外,审阅者还指定代理是否生成了与其对话主题相关的响应。
与其他流行的聊天机器人引擎相比,Meena 在 SSA 上的得分要好得多。
这是一个显着的改进。该论文包含几个对话示例,这些示例表明 Meena 在多次交流中始终围绕该主题。在某些情况下,它甚至会提出诙谐的回答,例如论文和博客文章中都提到的这个笑话。
但谷歌尚未发布模型或演示,因此我们仅将论文中发布的对话作为 AI 好坏的指导。研究人员写道:“我们正在评估与外部化模型检查点相关的风险和收益......并可能选择在未来几个月内提供它以帮助推进该领域的研究。”
我们离理解语言的人工智能更近了吗?
虽然 Meena 展示了 NLP 研究的显着进步,但它是否让我们更接近具有“常识和关于世界的基本知识”的人工智能?
“我们看到的许多成果类似于一种先进的记忆形式,而不是智能行为,”人工智能研究员斯蒂芬·梅蒂 (Stephen Merity) 说。“这种方法对于背景知识很有效。常识和抽象的可能性要小得多。我们尚不知道这些模型在执行复杂推理方面的能力如何,因此如果您确实看到了常识,它可能会再次通过模糊的记忆形式进行。”
“没有可用的演示,在此之前,我认为我们不应该认真对待它,”认知科学家 Gary Marcus 说。“我们以前看过这部电影;GPT 最初被称为“太危险而不能发布”;当它出来时,它很有趣,甚至可能令人印象深刻,但最终还是很肤浅的。”
Marcus 最近发表了他对 GPT-2 评估的观察。
“我怀疑基本上会出现同样的问题:推理会很差,系统不会开发足够丰富的认知模型来真正理解正在发生的事情。它可能会通过图灵测试,但不会是真正的智能,”马库斯说。
ZDNet 的 Tiernan Ray 也对 Meena 的对话进行了有趣的观察:“Meena 正在重新创建一种非常准确的语言分布,但也仅仅是对信息的重新创建,这很无聊。Meena 形式的语言模式在单词级别上具有高度的联想性,这使得 Meena 成为文字游戏的最佳示例。文字游戏在某种程度上很有趣,感觉它以某种方式反映了智慧。但它也很快变得肤浅和乏味。”
虽然 AI 聊天机器人能够提出如下对话(同样来自 Meena 的论文)很酷,但它们没有任何用途。
显然,米娜——或任何其他人工智能代理——对世界的理解与我们不同。我不希望人工智能能够在一秒钟内处理比我一生读过的更多的文本数据,以了解在五天的辛勤工作后休周末是什么感觉。我也不认为它知道“爱星期五”是什么意思。只要人工智能代理不像我们那样体验生活,他们的行为中任何与人类相似的东西充其量只是廉价的模仿。
然而,更严肃地说,我期待人工智能的进步为我们提供更多实用的聊天机器人,人工智能代理可以更灵活地解决特定问题、从网络获取信息、从文本中提取隐含含义,例如正如雷在他的文章中提供的对话。
我怀疑 Meena 是否准备好接受这样的任务。谷歌为我们提供了另一个庞大的语言模型,但在我们声称人工智能已经接近理解人类语言之前,我们还有很长的路要走。
“我认为这些类型的模型将非常重要,但无论我们对它们进行多少缩放,我们仍然缺少组件,”Merity 说。