新闻中心

AI如何练“听力”?

2024-09-29 20:27

来源:

事实上,AI的读唇术比人类要厉害得多。

2016年,牛津大学训练了一种叫作Lipnet的AI。它在唇读测试中达到了93.4%的准确度,远超过人类。

那么,AI怎么识别唇语呢?

它先从图像中识别出人脸,提取人说话时口型变化的特征,识别对应的发音。之后,识别单词、句子,再借助大数据对这些语句进行搜索,从而判断哪些语句更可能是说话人想表达的。

当然,AI能练成读唇术,其背后的技术难度是非常大的。

以视频数据库训练自动唇读系统为例,必须要让AI预先学习每一个视频片段。可问题是,视频流与音频流未必完全同步,甚至可能会出现1秒左右的时间差。

这会让AI蒙圈,因为视频中出现的口型没办法和音频完美贴合,它无法将某一特定口型和其发音对号入座。

为此,AI要先学会那些完全同步的音视频流,掌握发音与口型间的关联;然后,自行推断音视频流中哪些画面是不同步的,再自动修正。

我国也曾发布全球规模最大的中文唇语识别数据集,采集了超过2000人的70多万个样本,训练AI的唇读能力。它对唇语的识别可以达到90%以上。


作者: 编辑:徐静怡

  • 越牛新闻客户端

  • 越牛新闻微信

  • 绍兴发布微信

  • 越牛新闻微博

  • 绍兴发布微博

爆料

新闻热线

0575-88880000

投稿信箱

zjsxnet@163.com