(原标题:AI帮助渐冻症患者恢复语言功能!第一位受益人:我的声音回来了)
冰桶挑战盛行的那一年,前美国国家橄榄球联盟球员Tim Shaw被诊断患有肌萎缩侧索硬化(ALS)。他生活的目标也从球场上的奋力奔跑,变成了不再跌倒。
Tim曾是美国国家橄榄球联盟的后卫,曾效力于卡罗莱纳黑豹队、杰克逊维尔美洲虎队、芝加哥熊队和田纳西泰坦队,不幸的是,2014年他被诊断出患有ALS。之后,轮椅变成了他生活的日常,在没有帮助的情况下,Tim再也无法像正常人那样说话、吞咽或呼吸了。失声对于任何人来说,都是毁灭性的打击。
但幸运的是,Tim参与了DeepMind公司以及谷歌(Google)展开的一项针对语言障碍人士的技术项目——Euphonia,有幸成为AI语音识别和文本转录技术的第一个ALS受益患者。时隔5年多,Tim和他的家人也再次重新听到了他的原声。
▲时隔多年,Tim与母亲再次听到由AI合成的“原声”(图片来源:DeepMind官网)
Euphonia项目是针对语言障碍人士的语音到文本的转录服务,基于神经退行性疾病患者的音频数据,结合Parrotron模型(基于注意力机制的Seq2Seq模型),从而可以提高语音合成的效率并生成高质量的语言。针对Tim展开的“声音恢复”项目持续6个月,研究人员第一步先对Tim患病前的声音进行提取,将其声音作为合成语音的样本数据。因此,研究人员生成了一个名为WaveNet的生成式AI模型。
WaveNeat模型通过识别韵律进而模仿合成人类语言。与过去的一些语音生成模型相比,它产生的语音片段更真实、更具说服力,WaveNet模型在模仿人类语音合成语言方面已达到与人类70%相似的水平,同时具有更高的语言生成效率。该AI模型在谷歌转为机器学习定制的张量处理器(TPU)上运行,1秒钟的语音样本平均只需要花50毫秒便可创建。
WaveNet模型特点在于,不同“口味”的英语也难不倒它。不管是带有印度口音的英语、韩国口音的英语还是纯正的英式发音等,它都可以进行模仿。目前WaveNet已经用于Google智能助理(Google Assistant)系统,能识别9种不同口音的英语。
图片来源:Pixabay
研究人员在建立相关模型后,另一关键操作便是微调,这也是从最少的训练数据中获得高质量综合效果的关键。首先他们在数以千计的扬声器上对WaveNet模型进行大规模的预先训练,然后AI从Tim过往说话的音频影响素材中提取小部分语音样本,不断模仿练习后,WaveNet所生成的语音自然而然会具有说话者本人的特征。
不过光有优秀的语音模仿和生成能力还不够,对于AI模型来说,完美的模型体系结构是保障其系统整体运作效率的基础。于是研究人员将WaveNet模型迁移至WaveRNN模型上,WaveRNN模型更紧凑,所生成的音频更保真。此外研究人员还对能够将文本转换到语音的系统——Tacotron 2采用了微调技术,它可以基于频谱图或随时间变化的音频信号频谱的视觉表示建立语音合成模型。也就是说,AI不仅学会了“听声拟声”,它还会“看图拟声”!
6个月下来,针对Tim所展开的“语音恢复”项目取得不小进展,目前其研究成果已经向公众进行展示。在由小罗伯特·唐尼讲述的新兴技术节目《AI人工智能时代》第一集中,Tim和家人第一次听到了自己合成的声音,节目中通过基于Tim曾经语音文本进行训练的AI读出了34岁的Time写给22岁的自己的一封信。
▲Tim(右二)与家人以及Euphonia项目成员一起收看《AI人工智能时代》(图片来源:DeepMind官网)
虽然合成的声音不是很完美,缺少一些人类在讲话时独有的表达张力,但针对Tim的这项研究所取得的实际效果来看具有实际应用的潜力及价值。DeepMind研究副总裁Koray Kavukcuoglu先生表示:“最初始版本的文本-语音转换系统WaveNet于2016年首次推出,随着时间的推移,其现实世界的用途不也在断发展。这一技术的成熟以及落地,对于像Tim Shaw这样的ALS患者来说是一种希望。”
当疾病来临,它摧毁人类的健康、打乱人类的生活步调;可别忘了,科技也在发展,那些被疾病缠绕时间,慢慢会随着先进技术的指针转动,直到疾病治愈、重回健康。
参考资料(可上下滑动查看)
[1] DeepMind and Google recreate former NFL linebacker Tim Shaw’s voice using AI Retrieved Dec 23, 2019 from https://venturebeat.com/2019/12/18/deepmind-and-google-recreate-former-nfl-linebacker-tim-shaws-voice-using-ai/
[2] Google’s Parrotron is an AI tool for people with speech impediments Retrieved Dec 23, 2019 from https://venturebeat.com/2019/07/17/googles-parratron-is-an-ai-tool-for-people-with-speech-impediments/
[3] ALS is slowly robbing ex-linebacker Tim Shaw of his muscles. But he won't let that stop him from living.
Retrieved Dec 23, 2019 from https://ftw.usatoday.com/2017/02/tim-shaw-book-blitz-your-life-als-lou-gehrigs-disease-tennessee-titans-nfl