TAR：使用弱监督学习检测深度伪造的广义取证框架 / 开普饭

重磅干货，第一时间送达

小黑导读

论文是学术研究的精华和未来发展的明灯。小黑决心每天为大家带来经典或者最新论文的解读和分享，旨在帮助各位读者快速了解论文内容。个人能力有限，理解难免出现偏差，建议对文章内容感兴趣的读者，一定要下载原文，了解具体内容。

摘要

深度造假已经成为一个严重的社会问题，检测它们至关重要。此外，深度造假的生成方法也在不断进步，而且越来越难以检测。虽然许多深度伪造检测模型可以单独检测不同类型的深度伪造，但它们在泛化检测性能方面表现较差。这促使作者开发一个通用模型来检测不同类型的深度伪造。因此，在本研究中，作者引入了一个实用的数字鉴定工具来同时检测不同类型的深度伪造，并提出了基于迁移学习的残差自动编码器(TAR)。作者工作的最终目标是开发一个统一的模型，以检测各种类型的深度假视频，具有较高的准确性，只有少量的训练样本，可以很好地工作在现实世界的设置。作者开发了一个基于残差块的自动编码器检测模型，并先后执行迁移学习来同时检测不同类型的深度伪造。作者的方法实现了一个更高的通用检测性能比最先进的方法facefforensics ++数据集。此外，作者对互联网上50位名人的200个真实世界深度假野外(DW)视频进行了评估，获得了89.49%的零拍摄精度，显著高于最佳基线模型(10.77%)，验证了作者的方法的实用性。

论文创新点

作者的贡献总结如下:

作者提出了一种基于迁移学习的带有残差的自动编码器(TAR)，以提高三种不同类型深度伪造的检测性能，达到99%以上的准确率，优于其他基线模型。

作者将迁移学习从一个数据集应用到另一个数据集，检测由不同方法生成的深度假视频，并使用单个模型对所有深度假领域实现了98.01%的平均检测准确率，证明了优于现有方法的通用性。

此外，作者使用从互联网上收集的200个真实的deepfakein - wild视频对作者的方法进行了评估和比较，实现了89.49%的检测准确率，显著高于最佳基线模型。

框架结构

概述作者的方法。作者提出的方法通过带有残差块的自动编码器学习深度伪造的特征。然后，作者在新的目标领域中使用少量的训练集进行多层次迁移学习，并创建最终的模型，以有效地检测各种类型的深度伪造，包括看不见的或新的深度伪造。

作者的TAR模型架构。根据输入的标签(真或假)，Facilitator模块强制使用不同的潜在空间表示。

实验结果

(1)真实帧与假帧的并排比较，2)类激活图(Class Activation Map, CAM)输出，以及3)原始输入和CAM的叠加图像，使用来自每个基础数据集(DF、F2F和FS)的三个不同示例。作者还以相同的顺序提供来自DW数据集的样本图像，其中作者没有原始的真实输入图像。对DW人脸图像进行了故意模糊处理，以隐藏身份。

结论

深度伪造的恶意应用程序，如深度伪造的色情视频，这些天变得越来越流行。在这项工作中，作者提出了TAR来提高多域深度假检测的广义性能，并在未见的真实世界深度假视频上测试它来评估其实用性。一个facilitator模块将作者的TAR模型的潜在空间拆分为真实和虚假的潜在空间，使编码器能够更专注于学习潜在空间的表示，从而获得更准确的真实和虚假分类。作者的多层次序列转移学习基于自动编码器与残差块明显优于其他先进的方法检测多域深度伪造从FF++数据集。此外，TAR在检测50位名人的200个真实世界深度假野外视频中达到了89.49%的准确率，这明显高于最先进的方法。作者的结果表明，基于顺序学习的模型是一个有趣的场所，用于探索分析和检测真实环境中的虚假和操纵媒体，以及其他需要领域适应性的类似视觉任务。

论文链接：https://arxiv.org/pdf/2105.06117.pdf

每日坚持论文分享不易，如果喜欢我们的内容，希望可以推荐或者转发给周围的同学。

TAR：使用弱监督学习检测深度伪造的广义取证框架

相关推荐