互联网

当前位置/ 首页/ 新闻频道互联网 正文

迪士尼的AI通过脚本生成故事板动画

从文本片段创建原始剪辑的AI并不像听起来那么新颖。去年,研究人员详述了一个系统,该系统利用一对神经网络 - 以生物神经元为模型的数学函数层 - 生成长度为32帧,尺寸为64×64像素的视频,如“在草地上打高尔夫球”等描述。迪士尼研究和罗格斯的科学家们在预印本服务器Arxiv.org上发表了一篇新论文,将这一想法更进一步,采用端到端的模式,可以创建一个粗略的故事板和视频,描绘电影剧本中的文字。具体而言,给定输入文本描述某些活动,他们的文本到动画模型生成动画而不需要注释数据或预训练步骤。

“从自然语言文本自动生成动画可以在许多领域中找到应用,[如]电影脚本编写,教学视频和公共安全...... [这些系统]通过实现更快的迭代,原型设计和概念验证,对于编写屏幕特别有价值对于内容创作者。“研究人员写道。“在本文中,我们开发了一个能够处理复杂句子的文本到动画系统......系统的目的不是要取代作家和艺术家,而是要使他们的工作更有效率,更少乏味。”

正如团队解释的那样,将文本转换为动画并不是一项简单的任务。输入句子和输出动画都没有固定的结构,他们说这是大多数文本到视频工具无法处理复杂句子的原因。为了解决先前作品的局限性,共同作者构建了一个包含多个组件的模块化神经网络:一个新颖的脚本解析模块,可以自动将相关文本与剧本中的场景描述隔离开来; 自然语言处理模块,使用一组语言规则简化复杂句子,并将简化句子中的信息提取到预定义的动作表示中; 以及将所述表示转换为动画序列的动画生成模型。

研究人员说,简化方法使得提取关键脚本信息变得更加容易,并且为此,他们的系统自主地确定给定的片段是否包含特定的句法结构,然后将其拆分并组装成更简单的句子,递归处理它直到不再进一步简化是可能的。接下来,将“协调”步骤应用于与头部具有相同句法关系并提供相同功能角色的句子,最后,词汇简化器将简化句子中的动作与52个动画匹配(通过同义词词典扩展到92)在预定义的库中。

然后,一个名为Cardinal的管道将动作作为输入,并在流行的视频游戏引擎Unreal中创建预可视化。利用预定义的动画库,预加载的对象以及可用于创建角色的模型,它可以生成近似描绘已处理脚本的3D动画视频。

为了训练这个系统,研究人员从996个剧本中编辑了一系列场景描述,这些剧本来自1000多个从可自由获取的资源中删除的脚本,包括IMSDb,SimplyScripts和ScriptORama5。最后,它包含525,708个描述,包含1,402,864个句子,920,817(超过40%)至少有一个动作动词。

在一项定性测试中,22名参与者以5分制评估系统生成的20个动画(例如,如果所显示的视频是文本的合理动画,则视频中描绘了多少文本信息,以及视频中有多少信息存在于文本中),68%表示系统从输入剧本生成“合理”的动画。研究人员补充说:“除了我们系统的局限性外,[任何]分歧都可归咎于任务的模糊性和主观性。”

也就是说,该团队承认该系统并不完美。它的动作和对象列表并不详尽,偶尔,词汇简化无法将动词(如“手表”)映射到类似的动画(“外观”)或仅为动词中的动词创建一些简化句子原句。研究人员打算在未来的工作中解决这些缺点。

“内在和外在的评价表明系统的合理表现...... [最终],我们希望通过考虑文本中描述的行动顺序来利用话语信息。这也有助于解决文本中关于行动的含糊不清,“该团队写道。“此外,我们的系统可用于生成可用于训练端到端神经系统的训练数据。”