人工智能另一个巨大的语言模型能证明什么吗
本周,谷歌推出了 Meena,这是一个可以“谈论……任何事情”的聊天机器人。Meena 是大型科技公司试图解决人工智能最严峻挑战之一:语言的众多努力中的最新一项。
“当前的开放域聊天机器人有一个严重的缺陷——它们通常没有意义。他们有时会说出与迄今为止所说的不一致的话,或者缺乏常识和对世界的基本知识,”谷歌的研究人员在一篇博文中写道。
他们是对的。理解语言和参与对话是人类大脑最复杂的功能之一。到目前为止,创建能够理解语言、进行有意义的对话并生成连贯的文本摘录的人工智能的大多数努力都产生了较差的结果。
在过去几年中,聊天机器人在银行和新闻等某些领域找到了自己的位置。自然语言处理的进步也为 Alexa、Siri 和 Cortana 等人工智能助手的广泛使用铺平了道路。但目前的人工智能只能从事与语言相关的任务,只要问题域仍然狭窄和有限,例如回答具有明确含义的简单查询或执行简单的命令。
OpenAI 的 GPT-2等高级语言模型可以生成出色的文本摘录,但这些摘录随着长度的增加很快就会失去连贯性。至于开放域聊天机器人,即本应讨论广泛话题的 AI 代理,它们要么无法生成相关结果,要么经常提供可以针对各种问题给出的模糊答案,例如政治家逃避在媒体上给出具体答案会议。
现在的问题是,谷歌的大型聊天机器人 Meena 对对话式 AI 的推动作用有多大?
引擎盖下是什么?
像过去几年推出的许多创新语言模型一样,谷歌的 Meena 有一些有趣的细节。根据arXiv 预印本服务器上发表的博文和论文,Meena 基于 Evolved Transformer 架构。
的变压器,在2017年引入的第一次,是一个序列到序列(seq2seq)机器学习模型,这意味着它作为输入数据的序列(数字,字母,单词,像素...),并输出另一序列。序列到序列模型特别适用于与语言相关的任务,例如翻译和问答。
还有其他类型的 seq2seq 模型,例如 LSTM(长短期记忆)和 GRU(门控循环单元)网络。由于其并行处理的效率和训练更多数据的能力,Transformer 越来越受欢迎,并在过去几年成为大多数前沿语言模型(例如 BERT、GPT-2 )。
该演进变压器是一种特殊类型,它使用的算法搜索,找到最佳的网络设计,为变压器的AI模式。开发神经网络的主要挑战之一是找到正确的超参数。Evolved Transformer 自动执行查找这些参数的任务。