当前位置:主页 > 秦皇岛科技 > 文章内容

欧博客户端:当方言赶上人工智能,智能语音助手会被方言打败吗?

日期:2020-06-26 浏览:

  自从IBM的Shoebox和Worlds of Wonder的玩具娃娃Julie doll宣布以来,语音识别技能一直在不绝地成长。到2018年底,Google Assistant支持高出30种差异的语言。

  高通也开拓了一款可以识别单词和短语的语音识别系统,其精确率高达95%。另外,微软的智能语音客服比人工呼唤处事越发精确高效。

  然而,尽量呆板进修使语音识别技能的成长突飞猛进,如今这些语音识别系统照旧不足完美,最严重的问题就是有地区歧视性。

  华盛顿邮报最近举办的一项研究功效显示,谷歌和亚马逊研发的风行智能语音助手识别非美国当地口音的精确率要比美国当地口音低30%。

  像IBM和微软这样的公司城市通过Switchboard语料库来低落语音助手的堕落率。可是事实证明,语料库也无法彻底办理语音助手的口音识别问题

  “数据是杂乱的,因为数据反应了人性,”埃森哲的全球责任AI监理Rumman Chowdhury说,“这就是算法最擅长之处:寻求人类行为模式。”

  算法毛病暗示呆板进修模子对数据可能设计发生成见的水平。许多新闻报道都劈面部识别系统(尤其是亚马逊网络处事的图像识别Rekognition)发生了不小的成见。

  并且,算法毛病还会呈此刻其他方面,好比预测被告是否会在将来犯法的自动化系统以及谷歌新闻等app背后的内容推荐算法。

  微软以及包罗IBM、高通和Facebook在内的AI行业率领者已经开拓出自动化东西,用于检测并淘汰AI算法中发生的毛病,但很少有人可以或许提出口音识别问题的详细办理方案。

  真正提出办理方案的只有两家公司。一个是Speechmatics,另一个即是Nuance。

  办理口音差距问题

  Speechmetrics是一家专门研究企业语音识别软件的剑桥科技公司,它于12年前就开始实施了一项宏愿勃勃的打算,旨在开拓比市场上任何产物更精确全面的语言识别系统。

  该公司最初是研究统计语言建模和轮回神经网络。它开拓了一种可以处理惩罚内存输出序列的呆板进修模子。2014年,它操作一个十亿字节的语料库加快其统计语言建模的成长,以后迈出了第一步。

  到了2017年,它又迈向了另一个里程碑:与卡塔尔计较研究所(QCRI)相助开拓了阿拉伯语言文字转换处事。

  “我们已经发明我们需要开拓一款语音识别系统,只需一种模式便能合用于所有语言,不再有口音问题,而且它识别澳大利亚口音的精确度和转录苏格兰口音一样高。”Speechmatics首席执行官BenediktvonThüngen说。

  他们在本年七月乐成研发了一款这样的语音识别系统Global English。它拥有40多个国度的数千小时的语音数据和数百亿单词,支持所有英语口音的语音文本转换成果。

  另外,Global English的成立还离不开Speechmatic的Automatic Linguist,这是一种人工智能框架,通过操作已知语言中识此外模式来进修新语言的语言基本。

  “假设你一边要和美国人攀谈,另一边还要和澳大利亚人交换,并且这个美国人曾经住在加拿大,所以有加拿大口音,这时大大都的语音识别系统城市很难识别这种带有差异口音的语言,可是我们的语音识别系统就完全不消担忧这个问题。”Speechmatics公司产物副总裁IanFirth在一次采访中说。

  在测试中,Global English在识别特定的口音方面表示的比谷歌的Cloud Speech API和IBM的Cloud还要精彩。Thüngen暗示,在高端规模中,它的精确率比其他产物还要高23%到55%。

  Speechmatics并不是独一一家想要办理口音识别问题的公司。

  总部位于马萨诸塞州柏林顿的Nuance暗示,它将回收多种要领,确保其语音识别系统可以或许识别快要80种语言,而且精确率都一样高。

  在其英国语言模子中,它收集了20个特定方言区域的语音和文本数据,包罗每种方言独占的单词(好比利用单词“cob”特指面包卷)及其发音。因此,这款Nuance的语音识别系统便能识别出“Heathrow”的52种差异表达方法。

  如今,Nuance语音识别系统又有了新的成长。更新版本的Dragon是Nuance研发的定制语音文本转换软件组合,其呆板进修模子可按照用户的口音在几种差异的方言中自动切换。

  与没有方言自动切换成果的旧版本对比,新版本的语音识别系统识别带有西班牙口音的英语的精确率要高22.5%,识别美国南部方言的精确率要高16.5%,识别东南亚英语的精确率要高17.4%。

  数据越多越好