开启左侧

Meta 让 人工智能AI 视频计算成本暴降 95%,图片遮住一半 人工智能AI 也能猜出原图

[复制链接]
真无牙泛 发表于 2022-7-6 03:36:55 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题
按照中媒 IEEE Spectrum 陈述,Meta 公司的研讨职员揭晓了一系列闭于 MAE(masked auto-encoder,掩码自编码器)的新论文。MAE 体系能够经由过程 SSL 手艺(self-supervised learning,自立监视进修)猜测数据中缺得的部门,进而复原残破的文本、图象、视频战音频。

MAE 体系复原差别范例文件的通用道理,便是按照已有疑息猜测缺得内乱容,再用别的数据补偿。

经由过程那项手艺,野生智能AI 大概可以主动停止数据标注(ground truth),而不消再经由过程野生标注。那便意味着,野生智能AI 模子的进修服从获得很年夜提拔,那大概为 野生智能AI 模子的前沿开展带去了新思绪。
1、智力的素质是猜测才能,SSL 手艺能够提拔 野生智能AI 智能程度

MAE 体系利用了 SSL 手艺(Self-supervised Learning,自监视进修)。SSL 是指用于机械进修的标注源于数据自己,而非去自野生标注的一种手艺。

MAE 体系能够从十分零星的残破数据中猜测出丧失的那些部门,从而复原图象、视频战音频。而那便是 MAE 体系构建“天下模子”(world models)的历程。

Meta 的尾席 野生智能AI 科教家扬・勒昆(Yann LeCun)道:“SSL 手艺是 野生智能AI 体系构建‘天下模子’(world models)的条件前提。只要具有 SSL 功用后,野生智能AI 才气够像人类一样具有理性战知识,得到常识迁徙的才能,顺应差别情况。”扬・勒昆暗示,假如 MAE 体系能够猜测数据中丧失的那部门,那便意味着 野生智能AI 可以了解天下是三维的,具有必然水平的分辩才能,才有能够猜测人的庞大举动。

扬・勒昆(Yann LeCun)报告中媒 IEEE Spectrum:“我们念缔造能像植物战人类一样停止自立进修的 野生智能AI 模子。”扬・勒昆以为,智力的素质便是一种猜测才能。那个概念获得 2022 年图灵奖得主本凶奥(Yoshua Bengio)的承认,本凶奥也以为对天下停止推理猜测的才能是智力的枢纽。

▲ 右边是供给给 MAE 模子的锻炼图,中心是猜测成果,右侧是本图
2、挖字游戏新弄法?野生智能AI 帮您补齐绘里

Meta 的 野生智能AI 部分的研讨职员罗斯・凶我希克(Ross Girshick)取人开著了一篇闭于 MAE 体系道理的论文。论文中提到,Meta 的 MAE 体系成立正在一种叫 Transformer 的神经收集算法上。Transformer 是一类基于留意力机造的神经收集算法。这类算法可让 野生智能AI 模子削减对内部疑息的依靠,捕获数据或特性的内乱部干系,劣化模子锻炼成果。

▲ 闭于 MAE 道理的论文

正在处置文本数据时,MAE 体系将会检测一个缺少某些数据的文本数据库。MAE 体系检测到那些缺得的文本后,会用新的文本块弥补丧失的内乱容。

那一手艺一样能够迁徙到 MAE 体系对静态图象的处置上。研讨职员将图象合成成多个补钉(patch)块,再让 MAE 体系补偿缺得的图象。罗斯・凶我希克(Ross Girshick)道,那一面是遭到了谷歌闭于 ViT 模子(Vision Transformer)的启示。

ViT 模子(Vision Transformer) 的根本道理便是将 Transformer 架构使用于计较机视觉范畴。详细而行,ViT 模子能够将图片切分为不异巨细的补钉块,给每一个补钉块编码后再构成图象序列,机械能够辨认这类图象序列。基于这类启示,MAE 体系正在猜测缺得的图象时,会把图象合成成许多小补钉块,再用新的补钉块添补丧失的内乱容。
3、文本战图象疑息稀度差别,粉饰 75% 图象尝试成果最好

该团队发明,由于文本战图象的疑息稀度差别,文本战图象获得最好复原结果所需粉饰的数据比例也差别。MAE 体系复原静态图象时,袒护 75% 的数据会获得相对最好的成果。但关于文本而行,那个数字是 15%。

▲ 研讨职员发明,粉饰 75% 的图象尝试成果最好

言语是人类天生的具有下度语义战疑息麋集度的标记。每一个字符皆包罗了许多寄义,假如句子中丧失的单词过量,那末 MAE 模子会猜测出许多种成果,精确率没有下。取此对应,图象是具有大批空间冗余的天然标记。比方,正在统一张图片上,地区附近的图片像素特性相好没有年夜,以是经由过程模子能够从相邻的图象块中规复丧失的图片疑息。

罗斯・凶我希克注释道,MAE 体系包罗两个事情步调。起首,MAE 体系会利用编码器经由过程数据散进修像素之间的干系。然后,MAE 体系会利用解码器从受版开端重修本初图象。那两部门完成后,MAE 体系会抛弃编码器,转而利用解码器用于分类战目的检测等视觉使命。

罗斯・凶我希克道:“MAE 体系的解码器能够完成物体辨认等使命,那对我们而行是宏大的播种。”那意味着,经由过程 MAE 体系,机械能够主动为数据标注(ground truth),而不消野生标注数据。
4、MAE 体系可节流 95% 的视频计较本钱

当 MAE 体系用于处置视频时,研讨职员会粉饰每帧绘里中 95% 的数据疑息。视频的帧取帧之间有很下的类似性,那意味着视频比静态图象有更多的疑息冗余。Meta 研讨职员 Christoph Feichtenhofer 道,经由过程这类办法,MAE 体系能够削减 95% 的计较本钱,那便是 MAE 体系正在视频计较上的一年夜劣势。他借道,那个手艺大概能够用于 Facebook 战 Instagram 上的内乱容考核战使命分类。

而关于音频的 野生智能AI 进修,Meta 野生智能AI 团队发明了一个奇妙的办法。他们把音频文件转化为了声谱图,换行之,他们把声音转化成了图象。然后他们会再用取图象不异的处置办法,把声谱图的补钉袒护起去再停止锻炼。虽然该模子今朝只能处置几秒钟的音频片断,但曾经获得了很好的结果。

音频体系的事情职员 Bernie Huang 道,那项手艺正在音频上的潜伏使用包罗音频分类、改进语音通话、更好天找到紧缩音频文件的办法等。

▲ MAE 框架
结语:MAE 体系或有更年夜使用空间,但要慎重思索精确性

MAE 体系能够猜测残破数据中缺得的部门,进而复原文本、图片、视频战音频。

那个手艺有很年夜的设想空间战使用潜力,比方回复复兴考古遗址照片、补偿数据丧失的汗青文件等。MAE 体系不只能够正在 野生智能AI 范畴得到打破,并且也能够为别的范畴带去欣喜。

可是 MAE 模子也出缺面,基于今朝尝试的精确性不成能到达 100%,该模子能够会天生其实不存正在的内乱容。人们正在利用 MAE 模子复原数据时,需求慎重思索战研讨那些成绩。

         

本文源自公家号“科技热门H”
威钝网声明:转载此文供网友浏览理解该主题内乱容、出于通报更多疑息之目标,其实不意味着附和其概念或证明其形貌。


上一篇:人工智能AI视频报告技术在加油站的应用
下一篇:人工智能AI自学视频教程,全球37%设计师都在用的矢量图形处理工具
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则


0关注

0粉丝

1帖子






威锐网元宇宙ARVRAI前沿科技网站-记录ARVRAI前沿科技见证元宇宙未来-本站除原创AR增强现实VR虚拟现实AI人工智能元宇宙前沿科技新闻资讯-其它内容来源自网络·已标明来源出处,如已侵犯您的版权,请联系我们删除