事实上,AI的读唇术比人类要厉害得多。
2016年,牛津大学训练了一种叫作Lipnet的AI。它在唇读测试中达到了93.4%的准确度,远超过人类。
那么,AI怎么识别唇语呢?
它先从图像中识别出人脸,提取人说话时口型变化的特征,识别对应的发音。之后,识别单词、句子,再借助大数据对这些语句进行搜索,从而判断哪些语句更可能是说话人想表达的。
当然,AI能练成读唇术,其背后的技术难度是非常大的。
以视频数据库训练自动唇读系统为例,必须要让AI预先学习每一个视频片段。可问题是,视频流与音频流未必完全同步,甚至可能会出现1秒左右的时间差。
这会让AI蒙圈,因为视频中出现的口型没办法和音频完美贴合,它无法将某一特定口型和其发音对号入座。
为此,AI要先学会那些完全同步的音视频流,掌握发音与口型间的关联;然后,自行推断音视频流中哪些画面是不同步的,再自动修正。
我国也曾发布全球规模最大的中文唇语识别数据集,采集了超过2000人的70多万个样本,训练AI的唇读能力。它对唇语的识别可以达到90%以上。
作者: 编辑:徐静怡