互联网

当前位置/ 首页/ 新闻频道/互联网/ 正文

对Cloud Speech-to-Text API的全面改革旨在使该技术更加商业友好

Google已对其Cloud Speech-to-Text语音识别技术进行了几项重大更新。这是自两年前Google宣布这项服务以来的最大规模的改革,旨在使语音转文字对企业更加有用。

这些更新包括用于转录电话和视频的预制模型,支持自动标点的功能以及用于转录工作量的新标记和分组机制。为了保持其业务重点,这些更新还附带一个标准服务级别协议(SLA),可保证99.9%的可用性。

Google产品经理Dan Aharon在4月9日的博客中写道:“获得高质量的语音转录技术为希望与用户联系并向用户学习的公司打开了无限可能。”该更新利用了Google在机器学习方面的最新研究成果他说。

Google 于2016年6月宣布了Cloud-Speech-to-Text。该技术为开发人员提供了一种将音频转换为文本的方法。Google已将语音转文字描述为一种API,该API将神经网络模型应用于将语音转为文字的任务。该技术旨在处理预录制的音频和实时流音频,因此它可以在呼叫中心设置中工作,就像转录语音邮件一样。

该API可用于以近乎实时的方式转录120种语言和方言中的短和长格式音频。它专门用于识别和转录在现实世界中涉及多个说话者和背景噪音的语音。据Google称,语音转文本甚至可以转录专有名词,并适当格式化诸如日期和电话号码之类的内容。

该公司声称,由于云语音到文本由Google的机器学习技术提供支持,因此其转录的准确性会随着时间的推移而提高。

Aharon列出了该技术的几种企业用例,包括人机交互,呼叫中心分析以及电话,音频和视频内容的自动转录。

作为新近更新的API功能的示例,Aharon指出电视广播涉及四个扬声器和大量背景噪音。他声称,根据游戏时间的长短,语音转文字将能够在大约两个小时内抄录广播的内容。

Google在最新更新中提供了多种预先构建的模型,其中包括针对特定用例量身定制的模型,例如视频到音频转录和电话转录。

该更新反映了自2016年推出以来一直在测试云语音到文本的组织的反馈。他说,这项技术的客户提供的信息使Google能够对功能进行优先级排序,并专注于下一步要做的事情。

API的起价为每15秒音频0.006美元。视频型号的起价为每15秒$ 0.012,但可在5月31日之前享受折扣。

语音到文本API的更新是最近几天Google的Cloud AI语音产品小组的第二项重要公告。上个月,Google推出了Cloud Text-to-Speech,这是一种将文本转换为语音的语音合成API。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。