魔扣论坛

魔扣源码论坛业务
查看: 866|回复: 6

Youtube自动字幕系统已能识别环境音,但国内还在依靠字幕组

[复制链接]
  • TA的每日心情
    擦汗
    2018-10-11 00:05
  • 签到天数: 5 天

    [LV.2]随便看看

    138

    主题

    2

    回帖

    153

    积分

    初级魔扣

    Rank: 2

    魔扣币
    4
    贡献
    4
    威望
    9
    发表于 2017-3-27 11:12:19 | 显示全部楼层 |阅读模式
    魔扣币兑换比例:【 50以下 : ¥1 = 10 魔扣币 】丨【 50 - 100 :¥1 = 20 魔扣币】丨【 100以上:¥1 = 30 魔扣币 】

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?立即注册

    x

    在国内,下载好电影后,再去字幕网站搜索外挂字幕,已经是影迷们的固有动作。这种习惯的养成,归功于近 10 年来逐渐形成的野生网络字幕组,用业余时间为影迷们贡献了大量、快速的免费字幕。
    相比国内的野生字幕组,谷歌的技术宅们在 2009 年为Youtube上线了一个自动字幕系统(Automatic Captioning System),借助人工智能技术,在视频里实时生成字幕。时隔 7 年后,YouTube宣布已经有 10 亿多条视频采用了该系统生成的字幕,而全球日活跃用户也达 1500 万。

    在Google给定的视频中,可以在设置中选择开启自动字幕,之后视频下方会随着视频中的人声,逐个显示对应字幕。另外,在字幕开启菜单中,也有“自动翻译”的选项,包括中文繁体、简体在内的上百种语言均可翻译。

    此外,雷锋网 3 月 23 日还报道过,由Accessibility、Sound Understanding和YouTube三个团队共同完成了,通过深度神经网络(DNN)模型,在自动字幕增加音效信息的技术,进一步提升了观众的“看片”体验。
    其中,Google Accessibility 团队致力于让每个人都能够享用互联网带来的便利,尤其是残障人士,他们主要负责监控 Google 产品的无障碍状况,协调开展无障碍培训、测试并提供咨询服务。Accessibility产品团队需要接受相关培训,以在产品的设计和发布过程中体现无障碍原则。此外他们还努力与各类用户和致力于推广无障碍功能的团体建立密切的关系,以便征求反馈意见。

    而Youtube的自动字幕系统,在很大程度上实现了视频观看的“无障碍”,尤其是听不到声音的聋人,也能通过自动生成的字幕进行高质量的视频信息获取。
    Google Sound Understanding 团队,此前曾负责AudioSet 数据集,致力于教学机器,通过建立状态机器学习模型,生成大规模的音频事件数据集,并定义声音之间存在的层次关系,来准确地感知音频。

    目前,国内主流视频网站均未推出过自动字幕系统,不过在坊间流传着一个能够自动生成字幕的软件——Autosub,最初该软件只帮助字幕组成员自动对轴,后来的更新版本调用了谷歌的API,支持自动生成字幕,不过效果不佳,此后鲜有更新。
    雷锋网(公众号:雷锋网)还了解到, 2011 年《电子学报》的一篇论文称,以《新闻联播》为语料进行训练,实现了音频提取、音频分类与切分、说话人识别、大词汇量连续语音识别、视频文件播放、文本字幕自动生成等功能,从而实现“全自动中文新闻字幕生成”。但此论文中并未提及是否可以做到“实时”。
    这项技术的难点在于,一方面一条视频中的声音有很多,包括对白和混合在一起非常复杂的环境声,要辨别哪个声音是我们想要的,并把几个同时产生的声音区分开来相当不易;另一方面视频实时字幕生成,需要在极短的时间内做出反馈,对于计算速度考验巨大。
    针对分辨声音而言,搜狗CEO王小川就表示过,目前语音识别已经有了较高的准确度,接近实用,但还有很多的限制。比如需要安静的环境,当有噪音的时候同时有两个人说话机器就搞不定了。搜狗的做法是预先录制,比如在汽车环境里面,预先录制发动机引擎的声音,把没有见过的环境变成机器能够见过的环境,就能够做识别。针对计算速度而言,则需要依靠硬件和算法的进步。
    现在能实现的程度,需要归功于过去几年间,DNN 技术、Residual/Highway 网络技术和粗粒度建模单元技术的进展。但环境音非常复杂,想要把所有的独立声音预先录下来,是一项巨大的工程。即便是谷歌自动字幕系统的研究人员们,也只是选取了“鼓掌、音乐、笑声”三种语义清楚的背景声。
    视频之外,在语音转文字这项技术上,国内外企业多有涉及。比如微软帮助聋人通话实时将语音转换为文字的RogerVoice,比如百度新近推出的SwiftScribe、再如国内企业科大讯飞等,还有各类录音、速记应用程序,都能够不同程度的支持语音转文字的技术。一般来说环境越安静,识别的准确率越高。
    科大讯飞相关人士向雷锋网表示,视频字幕需求分为两类,一类为已录制视频的字幕配置,另一类为直播视频的字幕配置,科大讯飞的识别技术均可实现上述两类字幕需求。
    目前讯飞开放平台已对外提供第一种已录制视频字幕配置需求的"语音转写"产品,准确率可达95%,而对于第二种直播视频的字幕配置产品将在今年年中对外提供。
    雷锋网原创文章,未经授权禁止转载。详情见转载须知。

    该用户从未签到

    2

    主题

    262

    回帖

    527

    积分

    高级魔扣

    Rank: 4

    魔扣币
    263
    贡献
    263
    威望
    0
    发表于 2017-4-3 12:27:09 来自手机 | 显示全部楼层
    缘份存在心里是浪漫的梦境,思念藏在心底是芬芳的记忆,魔扣源码论坛上的友情放在心上是甜蜜的旋律,朋友记在心头是温馨的美丽。

    该用户从未签到

    2

    主题

    227

    回帖

    456

    积分

    中级魔扣

    Rank: 3Rank: 3

    魔扣币
    227
    贡献
    227
    威望
    0
    发表于 2017-6-16 17:06:12 来自手机 | 显示全部楼层
    欢迎你,亲爱的朋友,欢迎您光临并留下美好的祝福。相信通过网络的交流,我们会从陌生到相识相知,不断增进彼此信任,友谊会不断加深,这是我们前世修来的缘分。让我们珍惜这份缘,魔扣源码论坛愿我们友谊永存!

    该用户从未签到

    3

    主题

    272

    回帖

    547

    积分

    高级魔扣

    Rank: 4

    魔扣币
    272
    贡献
    272
    威望
    0
    发表于 2017-8-27 07:33:56 来自手机 | 显示全部楼层
    鄙视楼下的顶帖没我快,哈哈

    该用户从未签到

    0

    主题

    262

    回帖

    524

    积分

    高级魔扣

    Rank: 4

    魔扣币
    262
    贡献
    262
    威望
    0
    发表于 2018-1-16 05:00:06 | 显示全部楼层
    有了芬芳的玫瑰,才有蝴蝶的飞舞;有了蔚蓝的海洋,才有鱼儿的畅游;有了朋友的夜空,才有星光的灿烂;有了我们的博客空间,有了我们的展示平台!有了好友的出现,才有人生的精彩!魔扣源码论坛梦中人祝朋友周末愉快!

    该用户从未签到

    3

    主题

    259

    回帖

    522

    积分

    高级魔扣

    Rank: 4

    魔扣币
    260
    贡献
    260
    威望
    0
    发表于 2018-7-31 15:45:33 | 显示全部楼层
    边撸边过

    该用户从未签到

    1

    主题

    253

    回帖

    507

    积分

    高级魔扣

    Rank: 4

    魔扣币
    253
    贡献
    253
    威望
    0
    发表于 2019-1-11 09:44:12 来自手机 | 显示全部楼层
    站位支持
    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    • 联系我们
    • 新浪微博 :
    • 在线客服 :魔扣科技 
    • 源码QQ群 :魔扣源码论坛官方总群
    • 联系邮箱 :charlin#morko.net
    • 微信扫一扫
    快速回复 返回顶部 返回列表