Ошибка 403 Forbidden: причины и способы устранения

Пожалуйста, ознакомьтесь с правилами использования материалов на данном ресурсе

Причины возникновения ошибки сервера 403
Как устранить ошибку 403 Forbidden при скрапинге
Другие проблемы при веб-скрапинге
- Интеграция CapMonster Cloud
Полезные ссылки

Веб-скрапинг позволяет автоматизировать сбор данных с различных источников, но этот процесс может сопровождаться различными препятствиями. Одной из самых распространённых проблем является ошибка 403 Forbidden, сигнализирующая о блокировку доступа к ресурсу веб сервером. Чтобы успешно проводить веб-скрапинг, важно понимать причины возникновения этой ошибки сервера 403 и знать методы её устранения. В этом материале мы разберём, что представляет собой ошибка 403, почему она возникает, как избежать блокировку, а также рассмотрим другие распространённые сложности при сборе данных и методы их решения.

Начните сейчас и автоматизируйте решение reCAPTCHA v2

Начать сейчас Демо

Причины возникновения ошибки сервера 403

Почему веб сервер может блокировать доступ к данным? Ошибка 403 чаще всего связана с механизмами защиты сайта от несанкционированного использования их ресурсов. Рассмотрим ключевые причины её появления:

Ограничение по IP-адресу. Если с одного IP поступает слишком много запросов, веб сервер может его заблокировать для предотвращения перегрузок и защиты от возможных атак.
Headless-режим. Некоторые сайты способны определять использование безголового браузера (например, Selenium) и блокировать такие запросы. Если вам необходимо работать в этом режиме, настройте браузер так, чтобы он имитировал реальный пользовательский интерфейс.
Отсутствие cookies. Некоторые сайты требуют определённые cookies или активную сессию для предоставления доступа к контенту.
Некорректный User-Agent. Сайты проверяют заголовок User-Agent, указывающий данные о браузере и устройстве. Если он отсутствует или указан неправильно, веб сервер может заблокировать доступ.
Неверные права доступа к файлам. В случае отсутствия индексного файла или некорректных прав доступа, сервер может выдать 403 ошибку.

Как устранить ошибку 403 Forbidden при скрапинге

Чтобы избежать блокировку и успешно собирать данные, применяйте следующие методы:

Использование прокси-серверов. Регулярная смена IP-адресов помогает избежать попадания в чёрные списки.
Ограничение частоты запросов. Введение задержек между запросами снижает вероятность блокировку:

import time
time.sleep(5)  # задержка в 5 секунд

Имитация реального браузера. В Selenium можно использовать настройки, скрывающие признаки автоматизации:

from selenium import webdriver
options = webdriver.ChromeOptions()
options.add_argument("--disable-blink-features=AutomationControlled")
driver = webdriver.Chrome(options=options)
driver.get("https://example.com")

Использование cookies. Для передачи cookies с запросами используйте библиотеку requests:

import requests
session = requests.Session()
response = session.get('https://example.com')
response2 = session.get('https://example.com/another-page')

Правильный User-Agent. Используйте актуальные User-Agent популярных браузеров:

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.6533.122 Safari/537.36"
}

Можно также рандомизировать User-Agent:

import random
user_agents = ["Mozilla/5.0 ...", "Mozilla/5.0 ...", "Mozilla/5.0 ..."]
headers = {"User-Agent": random.choice(user_agents)}
response = requests.get("https://example.com", headers=headers)

Другие проблемы при веб-скрапинге

Помимо ошибки 403, скраперы могут сталкиваться с другими проблемами:

401 Unauthorized. Требуется аутентификация (решение: использование логина и пароля).
500 Internal Server Error. Проблема на стороне веб сервера (решение: повторить запрос позже).
429 Too Many Requests. Превышен лимит запросов (решение: уменьшить частоту, использовать прокси).
Некорректные права доступа к файлам. Если отсутствует индексный файл или неправильно настроены права доступа, веб сервер может вернуть 403 forbidden.
Капча. Решается с помощью автоматических сервисов, например, CapMonster Cloud.

Интеграция CapMonster Cloud:

import asyncio
from capmonstercloudclient import CapMonsterClient, ClientOptions
from capmonstercloudclient.requests import RecaptchaV2ProxylessRequest


async def solve_captcha(api_key, page_url, site_key):
    client_options = ClientOptions(api_key=api_key)
    cap_monster_client = CapMonsterClient(options=client_options)
    recaptcha2request = RecaptchaV2ProxylessRequest(websiteUrl=page_url, websiteKey=site_key)
    responses = await cap_monster_client.solve_captcha(recaptcha2request)
    return responses['gRecaptchaResponse']

if __name__ == "__main__":
    asyncio.run(solve_captcha('YOUR_CAPMONSTER_API_KEY', 'https://example.com', 'SITE_KEY'))

Полезные ссылки

Перед использованием инструментов рекомендуем ознакомиться с их документацией:

Selenium WebDriver
Python-библиотеки time, random и requests
CapMonster Cloud – сайт, документация, API

Веб-скрапинг – мощный инструмент для работы с большими объёмами данных, но ошибки 403 и ограничения могут усложнять процесс. Ошибка 403 forbidden, связанная с некорректными правами доступа, отсутствием индексного файла, неверными заголовками или механизмами защиты веб сервера, может помешать сбору данных. Правильная настройка User-Agent, использование прокси, управление cookies и капчами помогут сделать скрапинг более эффективным и избежать блокировку. Следуя проверенным методам, вы сможете повысить успех своего веб-скрапинга и упростить взаимодействие с ресурсами.

NB: Напоминаем, что продукт используется для автоматизации тестирования на ваших собственных сайтах и на сайтах, к которым у вас есть доступ на законных основаниях.

Ошибка 403 Forbidden: причины и способы устранения

Причины возникновения ошибки сервера 403

Как устранить ошибку 403 Forbidden при скрапинге

Другие проблемы при веб-скрапинге

Интеграция CapMonster Cloud:

Полезные ссылки

Зарабатывайте до 30% от трат ваших пользователей на обход капчи

✅ Заявка отправлена

Заявка на подключение

CapMonster Cloud добавил поддержку нового типа капчи — Temu