如何识别不同类型的验证码

什么是验证码

CAPTCHA（全自动区分计算机和人类的公共图灵测试）是一种旨在保护网站的技术。它用于防止垃圾信息、数据盗窃、DDoS 攻击及其他恶意自动化操作。

验证码不断更新和优化，以进一步阻止潜在的恶意脚本。为了验证网站访问者并区分真人与机器人，开发者设计了各种测试方法和完整的数据保护系统。用户可能需要输入文本、选择图片、完成拼图或识别扭曲的音频。现代技术还致力于减少对真实用户的干扰，采用无需操作的后台验证机制，仅在检测到可疑的自动化行为时才激活验证。

本文将帮助您识别验证码类型，并通过查找 HTML 代码中的特定元素来理解其基本工作原理。让我们开始吧！

立即开始，自动化您的解决方案 reCAPTCHA v2

立即开始演示

验证码如何工作

验证码是一种有效的网站安全防护措施。目标站点上的验证码保护系统通常包括以下几个阶段：

任务生成：验证码生成一个需要解决的任务，例如扭曲文本、图片选择、音频验证或交互式元素（如滑块）。为了增加对机器人的防护难度，文本可能会被扭曲，音频可能会加入噪声干扰。
验证码元素加载：验证码作为页面上的可见元素显示，例如文本框、图片或滑块。一些验证码（如 Google reCAPTCHA）会从服务器加载脚本，以便实时呈现验证码内容。
用户交互：用户通过输入文本、选择图片或移动滑块等方式与验证码进行交互。完成任务后，用户的响应被发送到服务器进行验证。
验证过程：服务器检查用户提交的答案是否正确，并分析其行为模式。现代验证码系统还会评估用户行为，例如请求频率、JavaScript 执行情况、鼠标移动轨迹和文本输入模式等。
验证结果：

验证成功：如果用户提交的答案正确，或者行为模式看起来正常，则允许访问。
验证失败：如果答案错误或行为异常，验证码可能会要求重新尝试，甚至直接阻止访问。

保护系统的检测方法

随着机器人开发技术的进步，简单的文本验证码可能已不足以区分真实用户和自动化系统。现代技术不断发展出更复杂且结合多种方式的网站保护机制。以下是一些常见的检测方法：

HTTP 请求与响应分析

解析请求和响应头信息，例如 User-Agent、Referer、Accept-Language 和 Cookies。缺少标准值可能表明自动化操作。
检查 URL 参数和 POST 请求中的数据，分析是否存在可疑或非标准值。
监测单个 IP 的请求频率，过高的请求速率可能表明是机器人行为。
检测 Cookies 的存在和有效性，以识别会话并防止重复攻击。

TCP/IP 分析

监测 TCP 会话的建立和断开情况，包括连接时间、请求频率和延迟。机器人通常表现出不同于真实用户的异常行为。
分析数据包传输模式，查找重复模式或异常延迟，以识别自动化脚本。

TLS 会话分析

检查证书的真实性，是否存在伪造或可疑证书，异常证书值可能表明绕过保护机制的尝试。
评估加密使用情况及数据解码过程，机器人可能难以正确处理加密数据。

设备指纹识别

浏览器特征分析：收集浏览器版本、插件、字体、JavaScript 设置等信息，以区分真人和机器人。
设备特征检测：分析屏幕分辨率、操作系统设置和设备类型，机器人通常使用虚拟设备或异常配置。
用户行为评估：监测鼠标移动轨迹、打字速度和交互频率，非自然行为可能表明自动化操作。

如何识别任何验证码的名称和类型

用户经常在某些网站上遇到验证码，但可能不知道它是什么类型。要确定验证码的类型，可以使用开发者工具（DevTools）并按照以下步骤操作：

1. 打开开发者工具：按 Ctrl+Shift+I（Mac 上为 Cmd+Option+I），或右键点击页面并选择“检查”或类似选项。
2. 转到“元素”标签：该标签显示页面的 HTML 代码，可以用来定位验证码元素。
3. 查找验证码元素：点击元素选择图标（位于 DevTools 左上角的箭头图标），然后选择页面上的验证码，相关的 HTML 代码将被高亮显示。
4. 检查 HTML 代码和属性：查看高亮显示的元素的 HTML 代码。验证码可能会有独特的标识符或类名，以帮助识别其类型（例如，Google reCAPTCHA 的类名为 class="g-recaptcha"）。
5. 转到“网络”标签并刷新页面（如有需要）：在这里，您可以查看与验证码相关的所有网络请求。查找提供线索的 API 或脚本请求。
6. 在“资源”或“网络”标签中查找脚本：识别加载或初始化验证码的脚本，这可能会提供有关其类型和来源的更多信息。

CapMonster Cloud 支持的验证码类型及其识别方法

对于人类用户来说，解决验证码通常很容易，但对机器人来说却是一个严重的障碍。尽管许多自动化系统用于非恶意目的，如网站测试、安全抓取和自动化日常任务，保护机制仍然会减缓并使其操作变得复杂。验证码绕过需要大量的努力和时间来适应代码。CapMonster Cloud 服务简化了这一过程，为最常见的验证码类型提供了解决方案：

reCAPTCHA v2、v3、Invisible、Enterprise
GeeTest
Cloudflare Turnstile 和挑战
文本验证码
DataDome
TenDI
亚马逊验证码和挑战

为了将验证码解决任务发送到 CapMonster Cloud，必须知道其类型和确切版本。让我们更详细地了解每种验证码类型、其特点以及如何找到其识别数据，以帮助您快速识别任何验证码并通过 CapMonster Cloud 成功解决它！

reCAPTCHA

reCAPTCHA 是由 Google 开发的，通过结合浏览器历史分析、用户行为、IP 地址和其他指标来区分人类与机器人。如果 reCAPTCHA 检测到任何可疑行为，它可能会要求用户确认其“人类身份”。reCAPTCHA 的主要版本包括：

reCAPTCHA v2：用户需要勾选一个标签为“我不是机器人”的框，或完成一个任务，如选择带有特定物体的图片（如摩托车、汽车、交通信号灯等）。也可能提供音频验证码。
reCAPTCHA v3：此版本不需要用户互动。它分析用户在页面上的行为，并为其分配一个分数（1.0 表示可能是一个真实访客，0.0 表示可能是一个机器人）。低分数可能会触发额外的验证。
Invisible reCAPTCHA：这是 v2 的一部分，但没有可见的复选框。与 v3 类似，它在后台运行，只有在检测到可疑行为时才会提示用户互动。
reCAPTCHA Enterprise：用于网站保护的高级版本。

如何区分 reCAPTCHA v2 隐形、reCAPTCHA v3 和 Enterprise

可见的 reCAPTCHA v2 可以通过复选框和任务提示来识别。隐形验证码可以通过以下特征来区分：reCAPTCHA v2 隐形版本具有带有 data-sitekey 和 data-callback 属性的元素。

reCAPTCHA v3 – 在“网络”标签中，您可以看到包含关键字 "render" 的请求。

reCAPTCHA Enterprise（对于版本 2 和 3 相同）可以通过请求中的关键字 “enterprise” 来识别。

GeeTest

GeeTest 提供互动式谜题，例如按照特定顺序选择某些物体、通过滑块移动解决谜题，或简单地点击指定区域。GeeTest 使用自适应技术，以减少对真实用户的干扰，同时增加对自动化系统的难度。

这种类型的验证码有两个版本：v3 和 v4（自适应验证码）。第四版具有更高的灵活性，能够自动调整任务的难度。对于真实用户，验证码保持简单且易于解决，但如果系统怀疑存在自动化行为，难度将相应增加。像许多其他验证码类型一样，它还提供音频模式作为替代完成方式。

GeeTest v3

此版本支持多种验证码模式：智能模式、滑动验证码、图标验证码和空间验证码。

GeeTest v4

与第三版类似，它也有几种主要的完成模式：滑动验证码、图标验证码、IconCrush 验证码、图片验证码、五子棋验证码和 NoCAPTCHA。

NoCAPTCHA 是最简单的模式，用户只需点击“点击验证”按钮。如果在后台检查中确认用户是“真人”，则会显示“验证成功”消息。

v3 和 v4 之间的区别：

您可以通过以下参数使用开发者工具区分 GeeTest 的版本：

v3：

使用两个关键参数进行初始化：gt（GeeTest ID）和 challenge（唯一会话标识符）。
第三版的脚本通常从包含路径 /gt.js 的 URL 加载。
向包含 /validate.php 或 /get.php 地址的服务器发送请求。

在 v4 版本中，脚本可以从包含 v4 路径的 URL 加载；并且使用 captcha_id 代替 gt。

Cloudflare Turnstile 和挑战

Cloudflare 提供了一种基于任务的验证码替代方案。验证可以通过点击“验证你是人类”按钮来完成，或者根据浏览器设置、用户行为和网络数据在后台自动运行。如果访客成功通过验证，系统将处理其请求；否则，请求将被阻止。这种类型的验证码有两种机制：Turnstile 和 Challenge 页面。

Turnstile

Turnstile 小部件集成在需要保护的网站中。Turnstile 小部件的类型包括：

非互动验证：无需用户操作；它通过检查浏览器和设备的信号来识别机器人。
非侵入性互动验证：如果怀疑有自动化行为，用户只需进行最小的互动（例如，勾选一个框）。
隐形浏览器验证：在后台运行，无需用户看到任何可视元素。

挑战

当尝试访问目标网站时，用户会被重定向到一个单独的验证页面，要求他们等待 5 秒钟或勾选“验证你是人类”旁边的框。这种方法可能更具侵入性，因为它要求用户执行额外的操作才能访问网站。

使用挑战页面的验证类型：

管理挑战（推荐）：Cloudflare 会根据请求自动选择适当的验证方法。这有助于避免验证码并减少用户解决验证所花费的时间。
JS-Challenge：无需用户操作，仅在浏览器中进行 JavaScript 处理。通常需要不到五秒钟的时间。
互动验证：要求用户与验证页面进行互动（例如，按下一个按钮）。

使用 DevTools 最容易识别挑战的特征是：首次请求目标站点时，会返回 403 响应代码。

文本验证码（ImageToText）

这种类型的验证码要求用户识别并输入图像中显示的文本进行验证。它可以由字母、数字、完整的单词或特殊字符的组合组成。以前，这种方法是检查用户与机器人的最常见方式，但如今它变得不那么常见，逐渐被更现代、更有效的解决方案所取代。

您可以通过以下特征来识别 ImageToText 验证码的存在：

验证码由一张图像和一个输入框组成，用于输入识别出的文本。图像可以通过 <img> 标签嵌入，src 属性指向包含验证码图像的文件，而输入框可能包含一个类型为文本的 <input> 标签。

要查找加载图像的 <img> 元素，您可以在控制台中使用以下 JavaScript 代码：

document.querySelector('img[src*="captcha"]');

DataDome

像其他类似的高级系统一样，DataDome 采用服务器端和客户端方法，通过分析用户行为、地理位置、网络数据、浏览器指纹以及其他参数，使用多层机器学习算法来检测机器人。DataDome 甚至可以识别自动化浏览器（如 Selenium、Puppeteer、Playwright），并可能使用 JavaScript 混淆来使其代码分析变得更加复杂。

您可以通过从 DataDome 加载 JavaScript 文件来确定网站是否存在 DataDome 保护：

DataDome 包含特定的 cookies（可以通过 document.cookie 或在请求头 Set-Cookie: "datadome=..." 中获取），例如：

"datadomeCookie": "datadome=VYUWrgJ9ap4zmXq8Mgbp...64emvUPeON45z"

腾讯验证码（TenDI）

TenDI 验证码也使用先进的综合方法来验证用户，包括轨迹分析、特征识别和其他安全机制。真实用户可能不会注意到目标网站上的验证，但如果系统怀疑使用了自动化程序，验证码可能会被启动。

腾讯验证码提供几种类型的验证：

滑动验证码：用户只需移动滑块进行简单验证。
图形验证码：要求在图像中按顺序点击形状。
连续验证码：系统自动评估风险，并通过 API 返回验证结果，无需用户响应。这适用于改善用户体验。
音频验证码：提供基于音频的验证，用户输入听到的音频内容。
智能验证：智能识别用户特征，仅对有疑点的用户进行验证。

您可以通过加载脚本 TCaptcha 来识别网站上是否存在腾讯验证，例如：

在请求中，使用的 URL 是： – https://ca.turing.captcha.qcloud.com.

Amazon 验证码和挑战

AWS WAF（Amazon Web 服务）的验证码和挑战是两种用户验证机制，用于保护网站。它们的区别如下：

验证码 提供用户需要完成的任务，例如输入文本（较少使用）、移动滑块、选择图像中的物体，或听取并输入音频中的单词。
挑战通过分析会话参数和请求行为（如请求频率、JavaScript 使用、鼠标行为、Cookies）在后台运行。如果验证成功，用户可以继续在网站上操作。否则，请求可能会被阻止，或者用户可能会看到一个验证码以进行额外验证。当检测到自动化的迹象时，系统可能会增加验证级别。

如何区分挑战和验证码

挑战：后台验证没有可见的界面，但可以在请求中看到与会话分析相关的头部和数据。
验证码：可见的验证元素，如图像选择，以及与验证码服务器的特定请求和响应。

验证码代码包含 GokuProps 脚本，以及指向 challenge.js 和 captcha.js 的链接：

结论

因此，我们已经涵盖了主要的流行验证码类型、它们的一般功能和识别方法。当然，还有许多其他类似的验证码类型，但根据本文提供的信息，您应该能够轻松确定它们的类型并继续使用它们。每种验证码都是独一无二的，并且具有自己的保护方法——从传统的基于文本的选项到现代的自适应系统。技术世界总是在不断发展，跟上保护方法的最新变化是非常重要的。

我们希望本文对您有所帮助，并澄清了验证码的各个方面以及如何绕过它们。我们鼓励您使用开发者工具进行实验，更好地理解这些系统是如何工作的，并使用 CapMonster Cloud 进行有效的验证码解决任务！

注意：我们提醒你，该产品用于在你自己的网站和你有合法访问权的网站上自动化测试。