首页 > 要闻

比唇语专家更懂唇语 读唇语软件识别准确率远超人类

2023-03-01 03:37:14

来源:科技日报

  读唇语软件识别准确率远超人类

  “动动嘴皮子”,AI就能知道你在说啥

  可以想见,由于公益、公共安全、国家安全等领域巨大的潜在需求的牵引,以及AI技术飞速发展的强力推动作用,在不久的将来,AI读唇语有望实现快速推广与深度普及,产业前景十分可期。

  ——闫怀志 北京理工大学计算机学院副教授、网络与安全研究所所长

  ◎本报记者 翟冬冬

  虽然电视剧《狂飙》已经迎来了大结局,但热度仍然没有丝毫减弱,有的网友利用剧中人物创作娱乐视频,也有的网友剪辑其中精彩片段。不过,还有一些“较真”的网友,发现《狂飙》中的一些人物对话,配音和嘴型对不上,于是便想通过人工智能进行唇语识别,还原最初的剧本情节。

  然而,AI读唇语并非只能被用于破译“隐藏剧情”。据统计,我国听力残障人口超过2054万,除了主要的手语交流外,读唇语也是他们重要的沟通方式。但人工解读唇语容易受到个人经验、视觉感受能力、语言理解能力等因素影响,在正确率方面差强人意,于是人们开始尝试利用AI技术来解读唇语。

  比唇语专家更懂唇语

  “所谓AI读唇语,即人工智能唇语识别,其核心技术框架为视觉识别和自然语言处理。”北京理工大学计算机学院副教授、网络与安全研究所所长闫怀志介绍道,具体而言,就是利用机器视觉技术,将人脸从图像中连续识别出来,并提取其中连续的口型变化特征,输入至唇语识别模型,辨识出该人物口型对应的发音,进而输出可能性最大的表达语句。

  “视觉识别和自然语言处理分别有着庞大的技术体系和不同的技术路线,但究其本质,都是通过大量的唇语数据来训练AI模型,力求文本输出的准确性。”闫怀志补充道。

  近几年,不断有AI巨头开始在唇语识别赛道上作出尝试。谷歌旗下Deep Mind公司就与英国牛津大学合作,研发出了一款AI读唇语软件,通过让AI读唇语软件“收看”数千小时的电视节目来训练其唇语识别能力。有意思的是,在随机抽取200个视频片段的读唇语测试中,AI读唇语软件的准确率达到了46.8%,而经过专业训练的人类读唇语专家,准确率仅为12.4%。

  为何AI读唇语能够悄然兴起?闫怀志给出了自己的分析:一是强烈的需求牵引,二是巨大的技术推动。从需求牵引来说,唇语识别不仅可为部分残障人士提供方便,更可以在公共安防等诸多领域发挥巨大作用;从技术推动来说,由于AI算法、算力以及数据瓶颈被不断突破,使得AI技术在唇语识别领域取得较大成功成为现实。

  众多难题有待突破

  不过,闫怀志也表示,目前我国人工智能唇语识别技术尚处于起步阶段,若想利用人工智能准确地识别唇语,还有很长的路要走。

  从语言本身来看,人类语言具有较高的复杂性,在人类话语所涉及的所有音标中,仅有30%左右是直接由人类嘴唇来控制的,70%是难以通过肉眼,甚至是机器视觉区分的齿音、舌音以及喉音。而且,不同人说话的语气、方言、连词、口音,乃至胡须遮盖等因素,都会导致嘴型的细微变化,而恰恰是这种细微变化,会严重影响人工智能对于唇语的识别和判断。

  从技术层面来看,人工智能采集唇语的环境通常较为复杂,若想精准识别难度很高。以目前的人工智能技术而言,对于长句、复杂句式等的识别水平不尽如人意,更不用说还存在着多场景识别、多人像唇语识别等问题。

  闫怀志表示,只有解决了上述问题,AI读唇语才能得到突破性提升,迈向成熟发展阶段。

  人类不同语种之间千差万别,AI能读懂每个语种的唇语吗?

  闫怀志介绍,此前较为成功的AI读唇语系统大多仅限于英语模型,这是因为多数AI模型都是基于英语数据训练而得。但是,从技术框架上来说,不同语种的训练模型是基本一致的,或者说可以依赖于同一类技术手段来实现。

  当然,为了适应不同语种的唇语识别,也需要作一些适应性调整:一方面要选择对应语种的数据进行有针对性的训练;另一方面,还需要对AI模型进行调整,比如纳入时间屏蔽、优化语言模型以及改进超参数等。

  此外,同一语种也会有不同口型,即便口型类似,也可能代表着完全不同的意思。因此,成熟的AI读唇语系统需要大量的唇语特征样本数据,并尽可能地覆盖多种应用场景、多类型的说话人群,借此来提升训练后的唇语识别模型的泛化能力,提高AI读唇语对于不同口型和不同表意语言的识别准确率。

  亟须监管的技术双刃剑

  尽管存在种种难题,但仍有越来越多的AI企业开始涉足并计划深耕人工智能唇语识别赛道。目前来看,各大AI巨头的选择不尽相同,具体可分为唇语数据、唇语视频识别、唇语理解等。

  闫怀志也表示,目前许多人工智能唇语识别技术领域已实现初步突破,全链条集成前景可期,产业集群正在逐步形成。

  从应用场景来看,AI读唇语在社会公益、公共安全等领域都已开始崭露头角。从目前各大巨头的布局以及相关技术的发展趋势来看,AI读唇语预期可在身份识别、国家安全、智慧系统等方面具有广阔的应用前景。“可以想见,由于公益、公共安全、国家安全等领域巨大的潜在需求的牵引,以及AI技术飞速发展的强力推动作用,在不久的将来,AI读唇语有望实现快速推广与深度普及,产业前景十分可期。”闫怀志说。

  例如,在安防安监领域,很多安监场景噪音较大或仅有视频信号,无法准确捕捉声音,人工智能唇语识别技术就能派上用场;在身份识别领域,可以利用AI读唇语来实现口型支付密码输入,“动动嘴唇”就能实现身份识别和支付交易;在公共安全领域,利用AI读唇语,可以在各类视频中分析案件当事人的唇语信息,辅助案件侦查工作;在智慧系统领域,可利用AI读唇语来实现“无声胜有声”——只依靠口型来控制智能设备,比如智能家电等。

  当然,技术应用是把双刃剑。很多人担心,AI读唇语会使人们对话中的隐私内容遭到泄露,无论当事人是公开发言、窃窃私语或是自言自语。“张张嘴”就被别人窃取聊天内容,仔细想来确实可怕。

  闫怀志表示,这种担心并非杞人忧天。AI读唇语导致的隐私泄露,一方面可能是有人恶意进行唇语获取识别,另一方面也可能是正常使用的AI读唇语系统,但其中的存储、使用等环节保护不当,导致相关数据被窃取或滥用,进而对个人权益造成损害。而且,由于涉及到当事人的对话内容,具有明显的方向性,这种隐私泄露的危害性可能要比普通的个人信息泄露更为严重。

  因此,闫怀志建议,应从隐私安全保护的角度,在管理层面加强相关法律法规的制定,严格规范和约束AI读唇语的应用场景、范围和目的,加大对技术恶意利用的监管和惩戒力度。此外,还要在技术层面加强AI读唇语系统的安全保护体系建设,以技术手段提高系统的识别精准度,避免技术滥用,切实保障用户对话的内容安全。(科技日报)

【责任编辑:长风】
  • 相关阅读
  • 比唇语专家更懂唇语 读唇语软件识别准确率远超人类

      读唇语软件识别准确率远超人类  “动动嘴皮子”,AI就能知道你在说啥   可以想见,由于公益、公共安全、国家安全等领域巨大的潜在需求的牵引,以及AI技术飞速发展的强力推动作用,在不久的将来,AI读唇语有望实现快速推广与深度普及,产业前景十分可期。  ——闫怀志 北...

    时间:03-01
  • Meta加入AI军备竞赛:发布开源大语言模型,号称优于ChatGPT

      澎湃新闻记者 吴雨欣  继微软、谷歌之后,脸书(Facebook)母公司Meta(Nasdaq:META)也加入AI军备竞赛。  当地时间2月24日,Meta官网公布了一款新的人工智能大型语言模型LLaMA,从参数规模来看,Meta提供有70亿、130亿、330亿和650亿四种参数规模的LLaMA模型,并用20种语言进行训练。  Meta首席执行官马克·扎克伯格表示,LLaMA模...

    时间:02-27
  • Meta挑战微软谷歌,专家称ChatGPT绝不是终点

      作者:钱童心  微软和谷歌的大模型竞赛中又杀出了一个新对手——Meta。Meta公司的研究人员周末发布了一种新的大型语言模型,加剧了科技巨头的人工智能军备竞赛升温。  此前,凭借OpenAI的ChatGPT技术,微软公司拔得头筹,并促使谷歌和百度等全球科技巨头都匆忙加入到这场竞赛。但ChatGPT自发布3.0版本以来就拒绝开源,这也引起...

    时间:02-27
  • 当AI变得聪明又油腻 距离人类智能还有多远

      中国矿业大学公共管理学院教授刘蕾去年对人工智能领域产生兴趣,买了四五本人工智能相关的书籍。她记得,有本新出版的书里提到,从阿尔法狗这类专用型人工智能技术,到通用型人工智能产生,可能还要很长一段时间。  如今来看,这样的预言显然低估了人工智能的发展速度。  ...

    时间:02-27
  • 当AI变得聪明又油腻 距离人类智能还有多远

      中国矿业大学公共管理学院教授刘蕾去年对人工智能领域产生兴趣,买了四五本人工智能相关的书籍。她记得,有本新出版的书里提到,从阿尔法狗这类专用型人工智能技术,到通用型人工智能产生,可能还要很长一段时间。  如今来看,这样的预言显然低估了人工智能的发展速度。  几年前,人工智能技术还被网友嘲...

    时间:02-27
  • AI不止会说话

      1月26日,在国际大屠杀纪念日的前一天,一场特殊的影像展览在以色列阿什克伦开幕。展览中,你能看到一家人在冰天雪地里躲避战斗机的追击、小男孩趴在窗口凝视马路上驶过的坦克、小女孩逃亡成功后绽放笑颜的画面,这些图像故事感十足,乍一看像油画,实际上却是人工智能生成的“照片”。  在非营利机构的帮助下,19名二战犹太大屠杀...

    时间:02-27
  • AI为奇妙的“多样性”打开了一扇门

      ■本报记者 张懿  聊天机器人ChatGPT持续引爆人工智能(AI)热度。昨天在临港新片区举行的2023全球人工智能开发者先锋大会当然也离不开这一焦点。面对当今AI突破性发展的现实,如何看待国内的技术和行业竞争力,哪些领域将成受益者,普通人该如何面对ChatGPT竞争?来听一听院士专家和行业领袖给出的判断。  AI正在跨越生产力...

    时间:02-26
  • AI绘图诈骗“狂飙” 你网恋“对象”可能是AI合成

      中新网2月25日电 (中新财经记者 吴涛)《狂飙》中有个知名剧情——疯驴子“上山”。  没想到,现实中有社交平台热传类似剧情,网传苏州金鸡湖“游艇女仆party”每位3000元,海报中女孩乍一看和真人无异。警方后续回应:系AI绘图诈骗,已处置。这差一点成为AI绘图领域首诈。  从去年“照片一键改漫画”到现在AI可以直接画照片,AI...

    时间:02-25
  • 学者观点结集成书 未来论坛冀推动社会各界形成AI伦理共识

      中新网北京2月25日电 (张伟帅 张素)作为人工智能(AI)领域的现象级应用,ChatGPT可能引发的信任、责任、伦理等问题引发关注。近日由未来论坛推出的一本新书,意在推动社会形成AI伦理共识,并促进各界为解决相关问题付诸行动。  《人工智能伦理与治理—未来视角》汇聚多位专家的观点,涉及人工智能、...

    时间:02-25
  • 全国港口行业首批AI训练师在天津港集团受聘

      中新网天津2月25日电 (王君妍 王顺琦)记者从天津港集团获悉,为深入推进“以质为先、效率至上、创新引领”的世界一流智慧港口建设,深耕人才沃土,厚植创新根基,2月24日上午,天津港集团聘任全国港口行业首批AI训练师。天津港集团副总裁杨杰敏为一公司拖头队副队长成卫东,煤码头公司孔祥瑞操作队队长张瑞...

    时间:02-25
版权声明:内容资源均来自于网友投稿、互联网整理编辑,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件举报,一经查实,本站将立刻删除。