Поиск надежного скребка или библиотеки Python для обхода Captcha на ecourts.gov.in

Поиск надежного скребка или библиотеки Python для обхода Captcha на ecourts.gov.in ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Поиск надежного скребка или библиотеки Python для обхода Captcha на ecourts.gov.in

Цитата

Сообщение Anonymous » 03 июл 2025, 12:55

Я пытаюсь перегружать суждения PDF с https://judgments.courts.gov.in, используя простые запросы , но их встроенная математическая капча продолжает ломать мой трубопровод. I’ve rolled my own solution with easyocr to read the math challenge and a small parser to compute the result, but I still see:

[*]OCR mis-reads (e.g. confusing “×” vs “x”)
[*]Timeouts after solving multiple CAPTCHAs in quick succession
[*]Session-expiration errors Это требует, чтобы я сбросил весь сеанс < /code> < /li>
< /ul>

То, что мой код Captcha-Solver выглядит как < /h3>
Ниже приведена основная функция, которую я использую, чтобы получить изображение Captcha, OT с easyoc, затем оценить простое математическое выражение. Это часто ошибочно экспрессирует символы или возвращает необработанные строки: < /p>

Код: Выделить всё

import re
import requests
import easyocr

ROOT = "https://judgments.ecourts.gov.in"
CAPTCHA_URL = ROOT + "/pdfsearch/vendor/securimage/securimage_show.php"

# Initialize the OCR reader only once
reader = easyocr.Reader(["en"], gpu=False)

def solve_captcha(session: requests.Session) -> str:
"""
1. Download the CAPTCHA image.
2. Pass raw bytes into easyocr for text extraction.
3. Parse the returned string as a simple arithmetic expression.
4. Return the computed result as a string.
"""
# Step 1: fetch image
res = session.get(CAPTCHA_URL, verify=False, timeout=30)
img_bytes = res.content

# Step 2: OCR the contents
ocr = reader.readtext(img_bytes)
if not ocr:
raise RuntimeError("OCR returned no text")

expr = ocr[0][1].strip()  # e.g. "12 × 3"

# Step 3: parse "number operator number"
m = re.match(r"(\d+)\s*([+\-×Xx÷/])\s*(\d+)", expr)
if not m:
raise RuntimeError(f"Unexpected format from OCR: {expr}")

a_str, op, b_str = m.groups()
a, b = int(a_str), int(b_str)

# Step 4: evaluate
if op == "+":   return str(a + b)
if op == "-":   return str(a - b)
if op in ("×","X","x","*"): return str(a * b)
if op in ("÷","/"):         return str(a // b)
raise RuntimeError(f"Unknown operator: {op}")
< /code>

 Как я интегрирую его в свой скребок < /h3>
сразу после решения Captcha, я размещаю ответ на их конечную токну: < /p>


Подробнее здесь: [url]https://stackoverflow.com/questions/79688640/seeking-a-robust-python-scraper-or-library-to-bypass-captcha-on-ecourts-gov-in[/url]

1751536521

Anonymous

 Я пытаюсь перегружать суждения PDF с https://judgments.courts.gov.in, используя простые запросы , но их встроенная математическая капча продолжает ломать мой трубопровод. I’ve rolled my own solution with easyocr to read the math challenge and a small parser to compute the result, but I still see:

[*]OCR mis-reads (e.g. confusing “×” vs “x”)
[*]Timeouts after solving multiple CAPTCHAs in quick succession
[*]Session-expiration errors Это требует, чтобы я сбросил весь сеанс < /code> < /li>
< /ul>

 То, что мой код Captcha-Solver выглядит как < /h3>
Ниже приведена основная функция, которую я использую, чтобы получить изображение Captcha, OT с easyoc, затем оценить простое математическое выражение. Это часто ошибочно экспрессирует символы или возвращает необработанные строки: < /p>
[code]import re
import requests
import easyocr

ROOT = "https://judgments.ecourts.gov.in"
CAPTCHA_URL = ROOT + "/pdfsearch/vendor/securimage/securimage_show.php"

# Initialize the OCR reader only once
reader = easyocr.Reader(["en"], gpu=False)

def solve_captcha(session: requests.Session) -> str:
"""
1. Download the CAPTCHA image.
2. Pass raw bytes into easyocr for text extraction.
3. Parse the returned string as a simple arithmetic expression.
4. Return the computed result as a string.
"""
# Step 1: fetch image
res = session.get(CAPTCHA_URL, verify=False, timeout=30)
img_bytes = res.content

# Step 2: OCR the contents
ocr = reader.readtext(img_bytes)
if not ocr:
raise RuntimeError("OCR returned no text")

expr = ocr[0][1].strip()  # e.g. "12 × 3"

# Step 3: parse "number operator number"
m = re.match(r"(\d+)\s*([+\-×Xx÷/])\s*(\d+)", expr)
if not m:
raise RuntimeError(f"Unexpected format from OCR: {expr}")

a_str, op, b_str = m.groups()
a, b = int(a_str), int(b_str)

# Step 4: evaluate
if op == "+":   return str(a + b)
if op == "-":   return str(a - b)
if op in ("×","X","x","*"): return str(a * b)
if op in ("÷","/"):         return str(a // b)
raise RuntimeError(f"Unknown operator: {op}")
< /code>

 Как я интегрирую его в свой скребок < /h3>
сразу после решения Captcha, я размещаю ответ на их конечную токну: < /p>


Подробнее здесь: [url]https://stackoverflow.com/questions/79688640/seeking-a-robust-python-scraper-or-library-to-bypass-captcha-on-ecourts-gov-in[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как автоматически заполнить CAPTCHA изображением с помощью веб-скребка в ASP.NET C#? [закрыто]

Последнее сообщение Anonymous « 08 янв 2025, 11:02
Добавлено в форуме C#

Anonymous » 08 янв 2025, 11:02 » в форуме C#

Я работаю над проектом очистки веб-страниц с использованием ASP.NET C#, и мне нужно автоматически обрабатывать изображения CAPTCHA. В частности, мне нужно извлечь текст из изображений CAPTCHA и заполнить его в форме без ручного вмешательства.
Какие...

0 Ответы

8 Просмотры

Последнее сообщение Anonymous
08 янв 2025, 11:02
Как автоматически заполнить CAPTCHA изображением с помощью веб-скребка в ASP.NET C#? [закрыто]

Последнее сообщение Anonymous « 08 янв 2025, 11:02
Добавлено в форуме Javascript

Anonymous » 08 янв 2025, 11:02 » в форуме Javascript

Я работаю над проектом очистки веб-страниц с использованием ASP.NET C#, и мне нужно автоматически обрабатывать изображения CAPTCHA. В частности, мне нужно извлечь текст из изображений CAPTCHA и заполнить его в форме без ручного вмешательства.
Какие...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
08 янв 2025, 11:02
Селен с использованием IA для обхода Canvas Captcha

Последнее сообщение Anonymous « 13 фев 2025, 23:51
Добавлено в форуме Python

Anonymous » 13 фев 2025, 23:51 » в форуме Python

Я пытаюсь написать сценарий скребки в Интернете, чтобы автоматически создать адрес электронной почты без необходимости делать его вручную. Поскольку у меня есть некоторые знания о соскобке в Интернете, я подумал, что это будет просто, но на самом...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
13 фев 2025, 23:51
Селен с использованием IA для обхода Canvas Captcha

Последнее сообщение Anonymous « 14 фев 2025, 07:18
Добавлено в форуме Python

Anonymous » 14 фев 2025, 07:18 » в форуме Python

Я пытаюсь написать сценарий скребки в Интернете, чтобы автоматически создать адрес электронной почты без необходимости делать его вручную. Поскольку у меня есть некоторые знания о соскобке в Интернете, я подумал, что это будет просто, но на самом...

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
14 фев 2025, 07:18
Селен с использованием IA для обхода Canvas Captcha

Последнее сообщение Anonymous « 14 фев 2025, 18:07
Добавлено в форуме Python

Anonymous » 14 фев 2025, 18:07 » в форуме Python

Я пытаюсь написать сценарий скребки в Интернете, чтобы автоматически создать адрес электронной почты без необходимости делать его вручную. Поскольку у меня есть некоторые знания о соскобке в Интернете, я подумал, что это будет просто, но на самом...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
14 фев 2025, 18:07

Вернуться в «Python»