任何长时间上网的人可能都习惯于点击街景图片的 CAPTCHA 网格,识别日常物品以证明他们是人类而不是自动机器人。然而,现在新的研究表明,使用经过特殊训练的图像识别模型的本地运行的机器人可以在这种 CAPTCHA 风格中匹敌人类水平的表现,尽管明显不是人类,但成功率却达到 100%。
苏黎世联邦理工学院博士生 Andreas Plesner 及其同事的最新研究成果(已发布为预印本论文)主要关注 Google 的 ReCAPTCHA v2,该系统要求用户识别网格中的哪些街道图像包含自行车、人行横道、山脉、楼梯或交通信号灯等项目。几年前,Google 开始逐步淘汰该系统,转而采用“隐形”的 reCAPTCHA v3,该系统分析用户交互,而不是提供明确的挑战。
尽管如此,数百万个网站仍在使用旧版 reCAPTCHA v2 。即使是使用更新版 reCAPTCHA v3 的网站,有时也会在更新版系统给用户的“人类”信心评级较低时使用 reCAPTCHA v2 作为后备。
对 CAPTCHA 说 YOLO
为了制作一个能够击败 reCAPTCHA v2 的机器人,研究人员使用了开源 YOLO(“You Only Look Once”)对象识别模型的微调版本,长期读者可能还记得该模型也曾用于视频游戏作弊机器人。研究人员表示,YOLO 模型“以其实时检测物体的能力而闻名”,并且“可以在计算能力有限的设备上使用,从而允许恶意用户进行大规模攻击。”
在对 14,000 张带标签的交通图像进行模型训练后,研究人员拥有一个系统,可以识别任何提供的 CAPTCHA 网格图像属于 reCAPTCHA v2 的 13 个候选类别之一的概率。研究人员还使用了一个单独的、预先训练过的 YOLO 模型来进行他们称之为“类型 2”的挑战,其中 CAPTCHA 要求用户识别单个分割图像的哪些部分包含某种类型的对象(该分割模型仅适用于 13 个对象类别中的 9 个,并且在呈现其他四个类别时仅要求提供一张新图像)。
除了图像识别模型之外,研究人员还必须采取其他措施来欺骗 reCAPTCHA 系统。例如,使用 VPN 来避免检测到来自同一 IP 地址的重复尝试,同时创建特殊的鼠标移动模型来模拟人类活动。还使用了来自真实网络浏览会话的虚假浏览器和 cookie 信息,使自动代理看起来更像人类。
根据所识别物体的类型,YOLO 模型能够准确识别单个 CAPTCHA 图像,准确率从 69%(摩托车)到 100%(消防栓)不等。这种性能(结合其他预防措施)足以让机器人每次都能通过 CAPTCHA 检测,有时甚至在系统提出多个单独挑战后仍能成功。事实上,在类似的试验中,机器人能够以比人类略少的挑战次数解决平均 CAPTCHA(尽管与人类相比的进步在统计上并不显著)。
战斗仍在继续
虽然之前曾有学术研究尝试使用图像识别模型来解决 reCAPTCHA,但成功率只有 68% 到 71%。新论文的作者表示,成功率上升到 100%“表明我们现在已经正式进入超越验证码的时代”。
但这并不是 CAPTCHA 领域的一个全新问题。早在 2008 年,研究人员就展示了如何训练机器人破解针对视障用户的音频 CAPTCHA。到 2017 年,神经网络已用于破解基于文本的 CAPTCHA,这些 CAPTCHA 要求用户输入乱码字体的字母。
现在,本地运行的人工智能也可以轻松超越基于图像的 CAPTCHA,人类身份识别之战将继续转向更微妙的设备指纹识别方法。“为了保证客户的用户不受这种视觉挑战的困扰,我们在 2018 年推出 reCAPTCHA v3 ,而这也是我们所重视的,”谷歌云发言人告诉《新科学家》。“今天,全球超过700万网站的reCAPTCHA保护措施大多数已经完全隐形。我们正在不断增强reCAPTCHA的功能。”
然而,随着人工智能系统越来越擅长模仿越来越多以前被认为是人类独有的任务,确保网络浏览器另一端的用户实际上是一个真正的人类可能会变得越来越困难。
“从某种意义上说,好的验证码标志着最智能的机器和最不智能的人类之间的确切界限,”论文作者写道。“随着机器学习模型越来越接近人类的能力,找到好的验证码变得越来越困难。”
评论 (0)