真人视频秒变高清动漫脸，数十种“滤镜”可选，无需注册在线可玩

集成两种框架

要讲明白 VToonify 风格转移的原理，就不得不提到StyleGAN，很多图像风格迁移框架都是以这个模型为基础的。

基于 StyleGAN 的方法也被称作图片卡通化，它将人脸编码到潜在空间中，然后再将生成的代码应用到被艺术肖像数据集调整后的 StyleGAN，最终生成不同风格的肖像图。

重要的是，它可以生成 1024*1024高分辨率的图像。

但 StyleGAN 在调整肖像的风格时，需要在固定的尺寸下进行，而且不完整的面孔以及一些奇怪的手势都会对它的效果产生影响，因此 StyleGAN 对动态肖像是不太友好的。

这时，就需要再介绍另外一种图像转换框架了--采用卷积网络的图像转换框架，它能够很好地忽略在测试阶段图像大小和人脸位置的限制（与 StyleGAN 完全互补了）。

说回 VToonify，它集两个框架的大成于一身，成为一个全新的混合框架。

研究人员删除了 StyleGAN 固定大小的输入特性和低分辨率层，然后创建了创建了一个完全卷积的编码器生成器架构。

具体来说，就是将 StyleGAN 模型集成到生成器中，将模型和数据结合起来，从而它的样式修改特性由 VToonify 继承。

并且，作为生成器的 StyleGAN 对编码器进行训练，可以大大减少训练时间和难度。

值得一提的是，该研究团队在今年 3 月就曾开发过一款图像风格转移 AI：模仿大师（Pastiche Master），基于 DualStyleGAN 的框架，能够灵活控制风格并修改风格度。

而这次研究团队推出 VToonify，不仅继承了 DualStyleGAN 的优点，并且通过修改 DualStyleGAN 的风格控制模块将这些特性进一步扩展到视频。

研究团队

VToonify 的研究团队全部来自南洋理工大学。

论文一作杨帅，是南洋理工大学的研究员，主要研究方向是图像生成和图像编辑，本科和博士均就读于北京大学。

通讯作者吕健勤，是南洋理工大学计算机科学与工程学院的副教授，也是香港中文大学客座副教授，其研究方向主要为计算机视觉和深度学习。

真人视频秒变高清动漫脸，数十种“滤镜”可选，无需注册在线可玩(3)