圣彼得堡国立大学的语言学家让神经网络学会识别大屠杀受害者的话语
圣彼得堡国立大学的语言学家们修改了Wav2Vec2.0神经网络,使其能够识别人们谈论其所经历的强烈情感冲击的话语。该神经网络是在以色列犹太大屠杀纪念馆基金会(Yad Vashem)记录的大屠杀受害者访谈中进行培训的。

情感语音识别是人类交际和计算机自动系统领域的一项重要任务,因为成功的语音识别可以自动生成字幕、复述视频的主要思想并轻松将其转化为文本。今天的技术已经能够帮助我们识别人类的言语,但是当说话者情绪激动时,任务将变得更加复杂。
研究成果发表在International Conference on Speec and Computer杂志。
有时,就连人们也很难分辨对话者在谈话录音中所说的话,因为对话者情绪很激动,比如伴随着哭泣或嘶喊。通过提高语言识别系统的工作能力,可极大简化和加快对遭受剧烈震荡者的话语的识别与字幕生成工作。在与全球性历史事件的见证者交谈时尤其如此。
圣彼得堡国立大学的语言学家们创建了一个神经网络,它不仅可以确定所说内容,还能确定人们在接受采访时的情绪。
“我们使用了深度神经网络Wav2Vec2.0,用俄语进行预先训练。其作用机制是掌握一个人讲话时的每个声音与相应字母的对应关系。 具体来说,这种神经网络架构还借助‘注意力机制’来学会发现通过声音确定某一字母的重要标志,这显著提高了结果的质量。”圣彼得堡国立大学(数学语言学系)在读研究生米哈伊尔·多尔古申介绍说。
为解决这一问题,圣彼得堡国立大学的语言学家们使用了新西伯利亚国立大学伊万·邦达连科教授此前免费提供的俄语语音识别模型。由圣彼得堡国立大学创建的神经网络,其性能通过以色列国家纪念馆公开发布的大屠杀受害者访谈材料进行了检查。大屠杀幸存者的视频证词已被纪念馆收集了50多年。 在视频中,人们谈论其所目睹的重大事件:城市沦陷、大规模屠杀、贫民区的生活等等。
圣彼得堡国立大学的专家处理了超过26小时的对话视频。 为此团队成员编制了社会语言学标记,确定了受访者的性别、年龄、大致原籍和母语。 正如专家所解释的那样,这些迹象会显著影响人们说话的口音、词汇量及其讲话被自动模型识别的准确度。
据研究人员介绍,这项技术同样适用于其他人的录音,尽管由于不同的录音条件,或语音在样本中表现不佳(例如儿童的话语),识别质量可能略差。