人工智能语音的下一个技术难关:准确的情绪识别

2018061416:47

  语音控制类设备——比如亚马逊Alexa,Google Home或苹果Homepod——正变得越来越流行,但我们其实应该暂时停下脚步,去思考机器学习技术在理解语言中不同情绪方面的进展。校訓『立己立人,愛主愛世』,重點就是先做好自己,但不是只為自己,而是為整個社會,這是基督愛的精神。更重要是在社會我要如何貢獻,這是嘉諾撒很關注的。

  谷歌首席执行官Sundar Pichai最近提到,谷歌20%的搜索是用户在手机上使用语音发起的。而根据2017年年底在美国市场进行的一项调查,亚马逊Alexa和Google Home的销量共计已经超过4400万部。

  智能音箱已经具有越来越高的词语识别能力,但声学专家表示,对于口头交流的识别要复杂得多。讲话的方式和话语本身同样重要。当有人说“我没事”时,他的声音语气可能会让你觉得他的真实感受是正好相反的。

  语音控制类设备,也就是我们所说的智能音箱或虚拟助手,只会关注词语,而忽略了语言的表述方式,这一点会对使用体验造成影响。而各大科技巨头给智能音箱类设备制定的下一个目标就是从用户的话中识别他当下的感受,从而让交互变得更加自然。

  人类的声音当中包含着相当多的信息,比如说话者的身份、家乡、以及他当下的感受。当一个陌生人说话时,我们会立即听出他的口音和语调,并对他的阶级,背景和教育程度做出假设。

  如果语音控制设备也能识别这些信息,那它们的语音界面就能得到改进,但这也可能会导致一些意想不到的后果。这种技术依赖于机器学习,它属于人工智能的一个分支,可将机器在数据当中所学习到的算法和统计数据汇总到一起,因此它的行为并不是完全可预测的。

  未来到底是聪明还是愚蠢的?

  研究表明,用于训练机器学习应用程序的语音示例可能会出现偏差。在谷歌翻译等一些热门工具当中,这种技术问题已经很明显了。

  举个例子,当把土耳其语短语“o bir doktor”和“o birhem?ire”翻译成英语时,谷歌翻译返回的结果是“他是医生”和“她是护士”。但是“o”在土耳其语中是一个不分性别的第三人称代词。这种认为医生是男性,护士为女性的推定反映了医疗专业领域内存在的文化偏见和性别分布偏差。校訓『立己立人,愛主愛世』,重點就是先做好自己,但不是只為自己,而是為整個社會,這是基督愛的精神。更重要是在社會我要如何貢獻,這是嘉諾撒很關注的。

  谷歌翻译的训练数据和算法存在一个人类文化偏差,这也体现在了最终的翻译结果上面。

  解决这些问题并不是一件容易的事,因为机器学习所体现的正是人类自己的刻板印象。当人类听到声音时,他们通过经验法则来简化作出回应的方式。

  研究表明,当人们听到一位女性在话语结尾时大量使用升调,典型的假设是她很年轻。如果一位男性嗓音浑厚,那我们便会假设他是高大强壮的。这种关于言语的简化假设就可能致使判断出现偏见。

  一项研究发现,带有伯明翰口音的犯罪嫌疑人比那些口音更加中性的犯罪嫌疑人更有可能被定罪。此外,操着非本地口音的人会被认为是更不可信的。

  对于任何使用语音控制设备的人来说,从话语中判断一个人是否是生气,开心或伤心都是非常有用的。但声音当中包含哪些线索是因人而异的,并且会受到语言和文化的影响。谈过几次恋爱都能够深刻体会到,我们并不总是能够正确地识别情绪。那我们为什么会认为机器可以做得更好呢?

  声音信号的个别性和自然的模糊性很可能会致使错误发生,除非技术公司能够从错误当中进行学习。由于机器学习严重依赖于所得到的数据,那些试图诠释人类声音的应用程序可以学习到根深蒂固的偏见。

  正在开发语音控制设备和服务的技术公司可能已经与声学专家进行过交流了,但是在使用应用机器学习解码人类语音之前,他们需要仔细聆听专家们的警告,以便更好地去理解如何规避陷阱。校訓『立己立人,愛主愛世』,重點就是先做好自己,但不是只為自己,而是為整個社會,這是基督愛的精神。更重要是在社會我要如何貢獻,這是嘉諾撒很關注的。