开启左侧

手机上用人工智能AI实时、流畅解码视频,超精细画质提升:高通研发出首个神经视频解码器

[复制链接]
南宫轩竹 发表于 2022-6-10 13:25:33 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题
机械之心陈述机械之心编纂部

用神经收集给视频解码,服从竟然借挺下的。

跟着通讯战互联网手艺的前进,出格是智妙手机的提高和 4G、5G 挪动通讯手艺的成生取开展,视频谈天、视频游戏等多样化的视频文娱方法屡见不鲜,一般用户对视频的消耗需供也正在不竭增加。2022 年思科 CISCO《视觉收集指数》陈述猜测,到 2022 年,82% 的互联网流量将由视频缔造。
除一样平常糊口中的文娱交换用处以外,视频也正正在更多止业场景中大显神通。好比,以视频手艺为中心的安防范畴、智能工场中对工人举动的视频监控取辨认、帮助取主动驾驶中经由过程摄像头记载视频绘里及时检测情况、和比年去愈来愈多明星也了局到场的视频曲播营销,等等。取此同时,跟着 野生智能AI 范畴计较机视觉(CV)手艺的兴旺开展,CV + 视频的手艺组开将会正在愈来愈多的使用场景中阐扬不成或缺的感化。

但是,海量的视频数据对视频的传输、存储战其他处置带去了宏大的应战。视频紧缩、编解码等视频处置手艺也便变得相当主要。正在寓目视频时,用户念要体验更下的绘量战流利度,那些皆依托更下效的视频处置手艺。多年去,计较机中视频解码的事情多由 CPU 去完成,这类方法易于利用但服从算没有上很下。操纵 GPU 解码视频是另外一种挑选。跟着短视频等使用的鼓起,正在脚机等挪动端借助公用解码单位停止及时视频解码同样成为了一种新的开展标的目的,关于视频曲播等及时性视频效劳具有主要意义。
取此同时,跟着 野生智能AI 范畴深度神经收集的开展,愈来愈多的企业探究怎样使神经收集赋能本身产物。下通骁龙 SoC 中的 野生智能AI 引擎便充实融进了神经收集才能,此中的装备组件 Hexagon 背量处置器撑持 8 位定面加快神经收集运转,硬件组件骁龙神经处置(SNP)SDK 撑持 CNN、LSTM 取自界说层。
旗舰 SoC 骁龙 888 散成的第六代下通 野生智能AI 引擎更是完成了 26 TOPS 的 野生智能AI 算力,神经收集处置 SDK 带去一系列改良,增长了对 RNN 模子的撑持,助力脚机端侧 野生智能AI 机能提拔至了齐新程度。
那末,有无能够将 野生智能AI 引擎包含的宏大算力更普遍、更深化天使用于视频范畴呢?近来,下通便正在那圆里做了更多的测验考试,操纵骁龙 888 内乱置的 野生智能AI 引擎战 CPU 停止视频解码。成果发明:基于神经收集的神经视频解码结果借没有错。
下通 野生智能AI 研讨院的新事情,完成了业界尾款正在商用智妙手机端及时运转、基于硬装备分离的神经视频解码器,正在靠近 720p HD 分辩率的视频上完成了 30 fps 以上的及时解码。

从硬 / 硬解码到 野生智能AI 神经视频解码
做为一项主要的视频处置手艺,视频编解码普遍使用于通讯、计较机取播送电视范畴,并催死了收集电视、播送电视、数字影院、长途教诲战集会电视等一系列实践使用。
便次要感化而行,视频编解码手艺是正在可用的计较资本内乱,寻求尽量下的视频重修量量战尽量下的紧缩比,以到达带宽战存储容量的请求。视频编解码器则是一种可以对数字视频停止紧缩大概解紧缩的法式大概装备。
很少工夫以去,基于 CPU 的硬件编解码手艺(也称硬解码)不断主导着市场,如英特我内乱置于其 CPU 中的视频编解码引擎和开源硬件 FFmpeg 中的 libavcodec 解码器,固然易于利用,但会占用 CPU 资本,提拔功耗,编解码服从没有下,简单呈现卡顿、花屏等非常,影响其他使用的一般运转。
因而,操纵 GPU 大概公用处置器去对视频停止编解码(也称硬解码)成为另外一种挑选,如英伟达推出的基于 GPU 的装备解码器模块 NvCodec,不只能够完成优良的编码机能,并且利用隐卡编码没有会占用太多体系资本,也便没有会影呼应用的利用机能。
可是,日趋增加的视频消耗需供对前沿的视频编解码器提出了更下的请求,该当具有以下功用:

    比特率战感知量量目标的间接劣化

    简化的编解码器开辟

    内涵的年夜范围并止性

    下效施行战更新已布置装备的才能

    可下载的编解码器更新

跟着深度神经收集(DNN)手艺的明显前进及其正在计较机视觉战通讯体系范畴的普遍使用,基于神经收集的视频编解码器有能够供给一切上述希冀的功用。详细来讲,那类视频编解码器不只能够正在为其他 野生智能AI 使用开辟的 野生智能AI 装备加快器上运转,借能完成更下效的熵编码并止化。
正在这类潜力的驱动下,已往几年神经收集视频编解码器成了研讨热点,如 2022 年谷歌提出的 Hyperprior 自编码器、18 年上海交通年夜教等机构提出的端到端深度视频紧缩(Deep Video Compression )框架和 2022 年谷歌研讨院感知团队提出的用于端到端劣化视频紧缩的扩大空间流(Scale-Space Flow)。那类神经视频编解码器展示出了使人注目的紧缩机能,并减少了取传统编解码器之间的差异。

基于 野生智能AI 的紧缩具有尽对劣势。
但借应看到,将 野生智能AI 研讨从尝试室带到实践使用场景常常其实不简单。那也意味着,神经视频编解码器的实践布置面对着很年夜的应战。年夜大都相干研讨操纵具有浮面计较的壁式驱动的下端 GPU,而且神经收集模子架构常常出有针对快速推理停止劣化。因而,关于具有牢固计较、功率战温度束缚的挪动装备而行,正在那类神经收集解码器模子上运转及时推理没有实在际或不成止。
正在骁龙 888 SoC 的商用智妙手机上,下通 野生智能AI 研讨院正在基于硬装备分离的神经收集视频解码器圆里完成了新的打破。
操纵骁龙 888 的 CPU 战 野生智能AI 引擎,完成 30+fps 的下浑视频解码
凭仗正在节能 野生智能AI 圆里的专业常识和骁龙 888 仄台的壮大 野生智能AI 算力,下通正在商用智妙手机上完成了及时帧内乱神经视频编码。下服从视频编码(HEVC)中的帧内乱编码能够视为下端视频编码(AVC)的扩大,它们操纵空间上的与样猜测去编码。帧内乱编码历程取帧间编码共用部门的处置步调包罗转换、量化、熵编码等。为此,下通 野生智能AI 研讨院正在以下几个圆里停止了劣化:

    从头设想收集架构以低落庞大度;

    正在 野生智能AI 推理引擎上量化战加快神经收集;

    操纵并止熵编码。

基于以上几个圆里的劣化,下通操纵骁龙 888 挪动仄台上的 CPU 战 野生智能AI 引擎,开辟出了一种基于硬装备分离的神经视频解码器,以超越 30fps 的速率解码了分辩率 1280×704 的下浑视频,而且无需视频解码单位的任何协助。骁龙 888 散成第六代下通 野生智能AI 引擎,做为一整套处置器合作体系,那代 野生智能AI 引擎包罗了从头设想的 Hexagon 780 处置器,将 野生智能AI 齐圆位赋能极速通讯、专业影象、游戏体验等诸多圆里。

具有下效解码机能的 8 比特模子
解码器架构劣化、并止熵解码(PEC)战 野生智能AIMET 量化感知锻炼是下通 野生智能AI 研讨院完成智妙手机端下效神经编码的三个主要步调。

第一步,基于一个 SOTA 帧对紧缩收集,经由过程剪枝通讲战劣化收集操纵完成理解码器架构劣化,依托骁龙 888 内乱置的 野生智能AI 引擎停止加快,低落了计较庞大度。
第两步,创立一种快速并止化熵解码(fast parallel entropy decoding)算法。该算法能够操纵数据级战线程级并止化,从而能够完成更下的熵编码吞吐量。正在下通的计划中,骁龙 888 的 CPU 用去处置并止熵解码。
第三步,劣化后模子的权重战激活量化至 8 比特,然后经由过程量化感知锻炼去规复速度得实带去的丧失。那里用到了下通立异中间开源的 野生智能AI 模子服从东西包(野生智能AI Model Efficiency Toolkit, 野生智能AIMET),该东西于 2022 年 5 月推出并开源,是一个撑持神经收集模子锻炼的初级量化战紧缩手艺的库。
经由过程那三个步调,下通 野生智能AI 研讨院构建了一个具有下效解码机能的 8 比特模子(8-bit model)。
野生智能AI 解码的结果
正在 Demo 设置中,下通 野生智能AI 研讨院拔取了分辩率为 1280×704(靠近 720p HD)的视频,经由过程离线运转解码器收集战熵解码天生紧缩的比特流。接着,紧缩的比特畅通过骁龙 888 挪动装备(商用智妙手机)上运转的并止熵解码息争码器收集去处置,此中并止熵解码正在 CPU 上运转,解码器收集正在第六代下通 野生智能AI 引擎停止加快。

终极,下通 野生智能AI 研讨院获得了一个神经解码算法,正在 1280×704 分辩率的视频中完成了每秒 30 帧以上的解码速率。以下为商用智妙手机上神经视频解码的静态演示,左上角为视频解码速率(Speed)战统一视频帧内乱的迭代次数(Loop),右侧为运转时均匀比特率(Bit Rate)战视频每帧图象中每单元像素的均匀码流(Bits per Pixel per Frame, BPF)。
正在 Demo 演示中,视频息争码参数被设置为下量量,并拔取了一系列具有应战性战精密纹理的天然场景。正在完成 30 帧以上解码速率的同时,丰硕的视觉构造战纹理皆借助神经解码收集精确天保存了下去,完成了十分好的场景重现。比特率契合齐帧内乱(all-intra)设置战拔取的量量,表白那一神经视频解码器可以撑持下量量视频流所需的数据吞吐量。

因为基于 野生智能AI 的编解码器能够天生比特流中出有的视觉细节,因而取传统编解码器比拟,不异或更下量量视频的比特率该当会低一些。那也意味着视频编解码器将酿成硬装备分离驱动的,任何新的编解码器皆能够由 SoC 中的 CPU 战内乱置 野生智能AI 加快器处置,只需它们充足壮大。
今朝,那一神经视频解码器只撑持帧内乱解码,那意味着每帧视频皆是自力解码,没有需求像其他视频编解码器那样思索帧之间的细小变革。据悉,下通借将持续努力于研讨挪动装备上及时运转的帧间视频解码。
便此项研讨的意义而行,固然正在骁龙 888 SoC 上完成 30 fps + 下浑视频及时解码仍然有提拔的空间,但脚机端侧 野生智能AI 算力战影象才能的开释,可以为脚机用户带去更丰硕的视频使用和更明晰流利的寓目体验。好比远期近来公布的骁龙 888 Plus 挪动仄台,固然仅仅是正在骁龙 888 根底上做出了部门晋级,但其 野生智能AI 算力曾经到达了惊人的 32TOPS,进一步年夜幅度晋级;再减上下通接下去的连续深化研讨,能够预感的是,野生智能AI 的下浑视频及时解码才能将很快进一步提拔。
除脚机仄台以外,下通也已将 野生智能AI 处置视频的各项才能引进了 PC、扩大理想XR 战汽车等其他使用仄台。好比环球尾款 5G 扩大理想仄台骁龙 扩大理想XR2 的 野生智能AI 机能相较初代 扩大理想XR 提拔了 11 倍,年夜幅提拔了视频处置才能;PC 真个第两代骁龙 8cx 5G 计较仄台中,野生智能AI 才能减持的 Spectra ISP 撑持了 4K HDR 品格的视频拍摄战布景实化;第 4 代骁龙汽车数字座驾仄台,加强了图形图象、计较机视觉战 野生智能AI 等功用,能够为驾乘者供给更智能战温馨的视频效劳等体验。
因而,从更年夜的视角去看,操纵 野生智能AI 算力停止视频处置代表了前沿的一个开展标的目的,也必将会赋能更多使用场景。
参考链接:https://segmentfault.com/a/1190000038930366https://cnx-software.cn/2022/06/28/neural-video-decoder-leverages/https://finance.sina.com.cn/tech/2022-02-04/doc-ikftssap3428399.shtmlhttps://www.leiphone.com/category/industrynews/0YEJQiyu3umwEyjJ.htmlhttps://www.qualcomm.com/news/onq/2022/06/17/worlds-first-software-based-neural-video-decoder-running-hd-format-real-time

© THE END

转载请联络本 得到受权

投稿或追求陈述:content@jiqizhixin.com
         

本文源自公家号“机械之心”
威钝网声明:转载此文供网友浏览理解该主题内乱容、出于通报更多疑息之目标,其实不意味着附和其概念或证明其形貌。


上一篇:中国首个人工智能AI短视频生成平台新华社造!一条资讯视频只需6秒
下一篇:抖音人工智能AI火了!以视频搜视频,不知小姐姐叫什么,也能搜出她的影像
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则


0关注

0粉丝

1帖子






威锐网元宇宙ARVRAI前沿科技网站-记录ARVRAI前沿科技见证元宇宙未来-本站除原创AR增强现实VR虚拟现实AI人工智能元宇宙前沿科技新闻资讯-其它内容来源自网络·已标明来源出处,如已侵犯您的版权,请联系我们删除