"); //-->
DeepTech 采访到该论文第一作者高谌,他是一位 90 后北京小伙,目前在弗吉尼亚理工大学计算机工程专业就读博士三年级,师从华人教授 Jia-Bin Huang。 该研究成果主要是开发出一项 AI 视频处理算法,其能实现诸多 “炫彩” 成果:比如正在行驶的车辆,突然人间蒸发。
正在坐秋千的小孩,突然只剩下秋千架;正在骑马的运动员,跨过栏杆人和马都不见。
这不是变魔术,而是本次 AI 视频处理算法的功能之一,它依托一种名为光流引导(Optical Flow)的方法。 据了解,当前视频处理主要面临几大难题:补全后的光流难以做到分段光滑,难以保证时序连续型,难以在高分辨率下实现修复,更难以降低视频对计算的开销。 基于此,高谌提出一种以光流边缘为引导(Flow-edge Guided) 的光流补全技术,再利用补全的光流来完成视频补全的算法。相比此前方法,该算法可保持运动边界的清晰度。
研究起源于在 Facebook 的实习
本次研究开始于 2019 年暑假,当时高谌在 Facebook 实习,他跟导师 Jia-Bin Huang 讨论后决定了该方向。在查考相关文献、并了解该领域的现有问题后,他开始着手算法开发。
该研究的主要原理——光流法是视域中物体运动检测的概念,其用于描述运动所造成的观测目标、表面或边缘的运动,主要应用于计算机视觉和影像处理等。使用光流法,可寻到不同帧之间的关系,并通过在不同帧之间传播信息来补全视频。
本次研究主要包含三个步骤:光流完成(Flow completion)、内容传播(Temporal propagation)和融合(Fusion) 。
第一步是光流完成。具体操作时,要计算相邻帧之间的正向光流和反向光流、以及一组非相邻帧 (Non-local) 的正向光流和反向光流。 由于视频可能出现破损,计算出的光流也需要补全。另外,因为光流是分段光滑的,是否能得到一个锐利光流边缘,将直接影响最后的光流补全结果。最终,高谌选择利用神经网络来补全光流边缘,再以光流边缘为引导补全光流。 第二步是内容传播。这时要按照光流的轨迹,为每个丢失的像素找到一组候选像素。顺着正向光流和反向光流,最多可找到两个候选点。而在非局部光流的帮助下,通过检查三个额外的帧,可以获得额外的三个候选帧。高谌表示,对于每个候选帧,都要估计一个置信分数以及一个二进制有效性指标。 第三步是融合。使用置信加权平均值,将每个缺失像素的候选像素与至少一个有效候选像素融合。并通过梯度域的操作方式,可避免明显的拼接裂缝,从而生成无缝的结果。假如一个像素没有任何候选像素,就意味着它无法通过时间传播来填充。这时,高谌选择一个关键帧,并使用单个图像补全技术来填充它。
可实现无痕补视频
本次算法,相比同类算法主要有三大优点: 第一,此前的补全视频中,用户可明显看出视频 “补过”,“补丁” 边界处非常明显。如下图所示,其结果往往带有痕迹,显得很不自然。而使用本次算法得到的补全视频,其补全区域是无痕的。
第二,此前用算法给视频补帧时,只能补到前一帧和后一帧,如果找不到前一帧或后一帧的信息,就会无法补全。而本次算法,不仅能补全前一帧和后一帧,还能跳着补帧。比如,直接跳到第一帧去借用信息,或者直接跳到最后一帧去借信息,这样就不局限于上一帧或下一帧。另外,此前方法在处理有周期性运动物体出现的视频时往往比较困难,针对该难题高谌通过引入非局部 ( Non-local ) 信息,来提升视频修复的准确度。
第三,以前的算法补出来的光流不是很平滑,往往带有明显的接缝。而该团队的算法主要基于光流边缘进行补全,最终可得到分段光滑的光流。
以上三个原因,让本次研究的结果,比以前方法更好。 此外,由于此算法不局限于 GPU 内存,所以可处理最高 2K 分辨率的视频。这种全自动的算法,可告别之前手动一帧帧地删除视频内容。
众所周知,机器学习算法的开发过程费时费力,开发成本高。高谌认为,他们的新算法以完全自动化的流程取代手工,会达到更低的成本。 事实上,机器学习相当于优化问题的过程,优化过程中需要很多 CPU 和 GPU 资源,比如在本次研究中 Facebook 就提供了大量 GPU。
所以,算法开发成本非常高,而算法一旦开发出来,就可以一劳永逸地进行部署,不管多少视频都能完全自动化处理。并且,对于一般视频剪辑者来说,即便没有计算机知识,也能使用该技术。
已经开源,可供厂商和个人使用
在肉眼观感上,依托该算法修复的视频,已能做到无痕抹除水印、无痕补全画面残缺,在目标识别和影视后期(视频编辑)中,具有很大应用前景。 除用于视频编辑外,Vlog 创作者们可使用该算法,营造一个人突然消失的场景;普通用户则可完成 “美图秀秀” 式的视频处理,比如假期旅游拍摄视频时,可能你本来想拍景点,但由于游客太多挡住了景点,使用该算法就能把游客删掉,最终只保留景点本身的视频。
虽然这一过程和删除图片中的内容很相似,但这里是删除同一帧视频中的内容,这也是相比照片处理的难度所在。 再就是针对部分内容缺失的老旧视频,该算法能修复出丢失或破坏的地方。以几十年前的胶片视频为例,假如视频左上角被水淹过,此处就是完全一片黑色,既无颜色也无信息,而使用本次算法,则可补全已缺失部分。 具体操作时,如果某一帧有缺失,就得看能否从视频中的其他帧借到有用信息,也就是 “补丁” 内容不是凭空生成,而是本身就在视频里。这样补出来的视频在播放时,就会非常流畅。
还有一种可能,整个视频都找不到可借用部分,那就只能求助另一个算法,这种方法叫单帧补全,也就是说从其他帧借不到信息,就只能用一个网络来把这一帧缺失的信息补全。 这一帧补全的信息,还可以借给其他帧,即先从其他人那借,借不过来就自己生成一些,相当于鸡生蛋蛋生鸡,不断循环借出去借回来的过程,直到最后可让整个视频都补全,且播放非常流畅。 当前的局限在于,算法无法理解视频的内容,它只能借助光流找到信息并把信息补全,这也是当前人类 ”抠图师”的优势所在。 本算法已经在 GitHub 开源,任何人都可以免费使用。高谌表示,欢迎厂商或其他研究人员把该项目的源代码合并到软件中。由于已经开源,只要你对视频编辑感兴趣,就能直接用本次研究结果来做创造性作品。 在 DAVIS 数据集上,高谌将该成果与已有成果进行对比,在峰值信噪比(PSNR,Peak Signal to Noise Ratio,一种评价图像的客观标准)、结构相似性(SSIM,Structural SIMilarity,一种衡量两幅图像相似度的指标,LPIPS)上,均优于其他成果。
不过,高谌在论文中坦言:“我们的方法运行速度为 0.12 fps,(速度)与其他基于光流的方法相当...... 我们承认运行时间稍慢是个弱点。”对此,他表示该成果已经开源,因此非常期待圈内人士对其进行优化。
今年 28 岁的高谌,本科时就读于俄勒冈州立大学,主修电子与计算机工程;硕士来到密歇根大学安娜堡分校,就读于电气与计算机工程专业;博士则就读于弗吉尼亚理工大学计算机工程专业,师从华人教授 Jia-Bin Huang。截止目前,已发表 7 篇被 ECCV、NeurIPS 等顶会录用的论文。 2019 年夏季,高谌在 Facebook 计算摄影组担任研究实习生。2020 年夏季,则在谷歌安卓相机算法团队,担任研究实习生。谈及他未来的计划,他表示仍然想去企业工作。
*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。