全球首个针对证件资质文档类图像的伪造图像对抗攻击竞赛、中国最顶尖的安全 AI 挑战者计划 - 第五期火热进行中。
3. 任务是通过提供的训练集学习出有效的检测算法,对测试集的伪造图像进行篡改定位。
4、奖励丰厚!25 万现金、10 万奖品、阿里清华荣誉证书、联名款元气森林包年喝、顶会颁奖等!
随着各种 P 图工具的普及,篡改伪造出视觉无痕迹的假图门槛大幅降低,于是我们看到大量的假图用于散播谣言、编造虚假新闻等。图像取证正是用于检测篡改伪造图像的技术,经过十多年的发展,已经在新闻、司法、刑侦等领域广泛应用。但是随着各种反取证技术的出现,图像的真伪鉴定问题进入到了攻防双方博弈的阶段。
为了发现现有图像取证技术的不足,推进图像取证技术在更广泛领域的应用,清华阿里联手举办了全球首个针对证件资质文档类图像的伪造图像对抗攻击竞赛。该比赛由深圳大学、中国图象图形学学会、中国图象图形学学会数字媒体取证与安全专委会协办支持。
「安全 AI 挑战者计划」旨在打造全球最顶尖的安全 AI 赛事,面向未来培养更多新基建安全技术人才。2019 年 8 月至今,已经举办了五期比赛;最大的特色是,主打高难度、高创新、高趣味、高回报的题目任务和运营玩法,选手每一期都能够实现超预期的累加技术成就。
赛道一选手作为攻击方,需要对真实的证件文档类图像中的指定候选区域进行伪造篡改,使得篡改后的图像成功欺骗 4 种经典的图像篡改检测模型,同时还要骗过人眼。
然而到了赛道二,选手变成了防守方(检测篡改),提出 「火眼金睛」 的检测算法,定位出资质证件文档图像中提前埋好的「坑」(篡改区域)。
作为全球首个针对证件资质文档类图像的伪造图像对抗攻击竞赛,区别于以往图像取证比赛侧重于自然内容图像,本次比赛需要检测的篡改图像是在数字经济领域频繁使用的资质证件文档图像。比赛任务是通过提供的训练集学习出有效的检测算法,对测试集的伪造图像进行篡改定位。
为了更好的评价选手的检测定位效果,比赛方设计了全面的得分计算准则(F1+IOU)。比赛数据包括训练集和测试集,训练集有 1500 张 JPEG 图像及对应 mask(分辨率与原图保持一致,像素值 0 表示该像素标识为未篡改,像素值 1 表示该像素标识为篡改),JPEG 图像的 EXIF 信息均被擦除,除部分无后处理外,其它可能经过裁边、平滑、下采样、社交工具传输;测试集有 1500 张 JPEG 图像,处理过程与训练集一致;允许使用集外数据进行训练学习。
赛道二篡改检测比赛本质上可以看成一个图像分割问题,但是它比分割难的地方是不能依靠边缘轮廓,而且相对要分割出来的区域可能面积偏小奇异果体育。所以刚开始解这个问题的选手,可以参照一下论坛的高分指南里面提到的一些以前经典算法,但不用局限于那些思路。也可以从纯 CV 的角度去考虑分析,重点找出可以区分篡改区域与奇异果体育网页入口非篡改区域的特征(手工设计或深度学习)。
图像分割可能偏向于强信号特征(可视的,跟内容特征强相关),而图像篡改定位更偏向于弱信号特征(不可视的,跟内容特征弱相关)。还有另外一种解法是利用未篡改区域是自然成像过程形成的,存在特定的模式噪声(PRNU 或者 Noiseprint),而篡改区域这些特性被破坏,从而定位出篡改的区域。但是这类方法的鲁棒性不够好,在经过一些后处理可能提取不是很精准。
虽然现在公榜的满分是 2000 分(1000 张图的 F1 和 IOU 得分),但是任何一张图像的 F1、IOU 得分都超过 0.4 是不容易的,IOU=0.4 意味着有篡改区域面积超过一半精准定位并且误定位的区域面积小于线,(A 表示选手模型预测的 mask,B 表示 Groud Truth 的基准 mask),因此预估这个比赛公榜的上限在 900 分左右。同时看到有些选手在短短三周时间内能够突破 700 分,这是非常了不起的成绩。
与自然图像篡改定位相比,证件文档类图像的篡改定位难度要更大一些,其难度主要体现在三个方面。
首先,证件文档类图像的篡改的潜在面积可能非常小。例如某些日期的关键数字的篡改,2020 变成 奇异果体育网页入口2022,3 改成 2,在图像上篡改的区域面积可能只有 16x16 的像素块。红线框出区域为篡改区域。
其次,当前的图像篡改鉴别大多利用图像生成过程内在特性,篡改区域的此类特性被破坏。然而,在资质文档类图像中,这种图像生成过程引入的特性没有自然图像那么显著,所以同样的篡改操作在资质文档图像比在自然图像中更难被发现。如下图所示,文档背景是纯白纸张,要定位篡改是非常困难的。红线框出区域为篡改区域。
最后,证件文档类图像篡改数据集所提供的篡改图像比较有限,目前还没有一个专门的大型数据集可以拿来训练,选手能利用的篡改证件类图像只有比赛提供的 1500 张带标注图像,这就给算法的提升带来了很大困难。
阿里表示,此次比赛形成的数据集将在后期开放给社会,以促进整个行业的发展。同时,他们也希望进一步推广这类技术在业界的应用,为业界培养更多媒体内容安全方面的人才。
总奖励:除了基础奖励奇异果体育,比赛每 2 周有一轮双周榜,设置头部奖、进步奖、拉新奖。
阿里安全首席架构师钱磊表示:「在阿里安全,基于复杂业务场景的攻防对抗几乎每天都在发生。当数字技术正在构建前所未有的新世界,阿里安全团队面对的是互联网企业中最丰富的业态和风险,毫无疑问,这是训练和提升人才专业能力最好的练兵场。」
清华大学著名教授朱军评价说:「安全 AI 挑战者计划是我们针对目前机器学习算法鲁棒性不足、容易受到恶意攻击的问题,主动地挖掘目前机器学习算法的安全漏洞,以期构建更加安全和可信的 AI 系统的一次尝试。我们希望通过这种努力,发展新的机器学习算法,并逐步将 AI 的安全问题体系化、标准化,逐渐形成一个优秀的线上社区,凝聚对抗样本乃至 AI 安全方面的研究者与开发者,通过大家的共奇异果体育网页入口同努力提升机器学习算法的安全性和可靠性。」
扫码进入对抗样本社区(钉钉群号:23301258),第一时间获取会议信息!
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。