Regex неправильно извлекает данные CNIC из текста, извлеченного с помощью EasyOCR в Python [закрыто]

Regex неправильно извлекает данные CNIC из текста, извлеченного с помощью EasyOCR в Python [закрыто] ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Regex неправильно извлекает данные CNIC из текста, извлеченного с помощью EasyOCR в Python [закрыто]

Цитата

Сообщение Anonymous » 09 дек 2024, 09:49

Я пытаюсь извлечь личные данные (такие как имя, пол, дата рождения и т. д.) из изображения CNIC (компьютеризированного национального удостоверения личности) с помощью EasyOCR и регулярных выражений в Python.

OCR извлекает текст правильно. Однако, когда я пытаюсь получить соответствующие данные с помощью регулярного выражения, некоторые поля, такие как дата рождения, пол и страна пребывания, извлекаются неправильно.
Проблема: у меня есть изображение CNIC, из которого я использую EasyOCR для извлечения текста. Я использую регулярные выражения для сбора таких полей, как номер CNIC, имя, пол и т. д. Однако для некоторых полей я получаю неправильные или отсутствующие данные.
Вот код;

Я использую EasyOCR для извлечения текста из изображения CNIC:

Код: Выделить всё

import easyocr

txt = easyocr.Reader(['en'])
text = txt.readtext(image_path)
# Join OCR detected text into a single string and clean it up
etext = " ".join([item[1] for item in text])
print("Cleaned Extracted Text:\n", etext)  # Debugging the cleaned text

# Use regular expressions to extract relevant data
cnic_data = {}

# Regular expressions for extracting CNIC number, name, father name, dob  etc.
cnic_number_pattern = r'(\d{5}-\d{7}-\d{1})'
name_pattern = r'Name\s*\s*([A-Za-z\s]+)'
father_name_pattern = r'Father\s*Name\s*[:\-\s]*([A-Za-z\s]+(?:\s+[A-Za-z\s]+)*)'

gender_pattern = r'Gender\s*[:\-\s]*(?:M|F|Male|Female)

dob_pattern = r'Date\s*of\s*Birth\s*[:\-\s]*(\d{2}-\d{2}-\d{4})'                 country_of_stay_pattern = r'Country\s*of\s*Stay\s*[:\-\s]*([A-Za-z\s]+)'

# If a match is found, save it, otherwise mark it as not found

cnic_data['CNIC Number'] = re.search(cnic_number_pattern, etext)
cnic_data['Name'] = re.search(name_pattern, etext)
cnic_data['Father Name'] = re.search(father_name_pattern, etext)
cnic_data['Gender'] = re.search(gender_pattern, etext)
cnic_data['Date of Birth'] = re.search(dob_pattern, etext)
cnic_data['Country of Stay'] = re.search(country_of_stay_pattern, etext)

# Extracting the values from regex matches
cnic_data = {key: (match.group(1) if match else "Not Found") for key, match in cnic_data.items()}

return cnic_data

Ожидаемый результат:
Я ожидаю, что результатом будет словарь с правильно извлеченными данными CNIC, например:
{
«Номер CNIC»: «37403-9637109-9»,
«Имя»: «Мухаммад Талха бин Магфур»,
«Имя отца»: «Магфур» Ахмед",
"Пол": "М",
"Дата рождения": "11.01.1999",
"Страна пребывания": "Пакистан"
}< /p>
Поля пола, даты рождения и страны пребывания извлекаются неправильно (или иногда не извлекаются вообще).
Поля пола, даты рождения и страны пребывания извлекаются неправильно. р>
Что я пробовал:

Я гарантировал, что имена полей в шаблонах регулярных выражений (например, дата рождения,
Код: Выделить всё
```
Gender
```
, Страна пребывания) соответствуют тексту, извлеченному из изображения CNIC. OCR правильно извлекает текст из изображения cnic.
Я пытался настроить шаблоны регулярных выражений, но проблема не устранена.

Я пытался обновить шаблоны регулярных выражений для пола и даты рождения, но мне все еще не удалось их правильно извлечь.
Я вручную проверил извлеченный текст, и кажется, что пол и страна не анализируются правильно из-за их близости.

Может ли кто-нибудь помочь мне разобраться в проблеме или предложить какие-либо улучшения шаблонов регулярных выражений?
вот результат
Очищенный извлеченный текст:
Национальное удостоверение личности ПАКИСТАНА ИСЛАМСКАЯ РЕСПУБЛИКА ПАКИСТАН Имя Мухаммад Талха Бин Магфур Имя отца Магфур Ахмед Пол Страна пребывания M Пакистан Идентификационный номер Дата рождения 37403-9637109-9 11.01.1999 Дата выдачи Дата истечения срока действия 03.02.2024 03.02.2034
Номер CNIC: 37403-9637109-9
Имя: Мухаммед Тальха Бин Магфур Имя отца Магфур Ахмед Пол Страна пребывания M Пакистан Идентификационный номер Дата рождения
Имя отца: Магфур Ахмед Пол Страна пребывания M Пакистан Идентификационный номер Дата рождения
Пол: Не найден
Дата рождения: 11.01. 1999
Страна пребывания: M Пакистан Идентификационный номер Дата рождения
Данные записаны на cnic_data.txt

Подробнее здесь: https://stackoverflow.com/questions/792 ... syocr-in-p

1733726991

Anonymous

Я пытаюсь извлечь личные данные (такие как имя, пол, дата рождения и т. д.) из изображения CNIC (компьютеризированного национального удостоверения личности) с помощью EasyOCR и регулярных выражений в Python.

OCR извлекает текст правильно. Однако, когда я пытаюсь получить соответствующие данные с помощью регулярного выражения, некоторые поля, такие как дата рождения, пол и страна пребывания, извлекаются неправильно.
Проблема: у меня есть изображение CNIC, из которого я использую EasyOCR для извлечения текста. Я использую регулярные выражения для сбора таких полей, как номер CNIC, имя, пол и т. д. Однако для некоторых полей я получаю неправильные или отсутствующие данные.
Вот код;

Я использую EasyOCR для извлечения текста из изображения CNIC:
[code]import easyocr

txt = easyocr.Reader(['en'])
text = txt.readtext(image_path)
# Join OCR detected text into a single string and clean it up
etext = " ".join([item[1] for item in text])
print("Cleaned Extracted Text:\n", etext)  # Debugging the cleaned text

# Use regular expressions to extract relevant data
cnic_data = {}

# Regular expressions for extracting CNIC number, name, father name, dob  etc.
cnic_number_pattern = r'(\d{5}-\d{7}-\d{1})'
name_pattern = r'Name\s*\s*([A-Za-z\s]+)'
father_name_pattern = r'Father\s*Name\s*[:\-\s]*([A-Za-z\s]+(?:\s+[A-Za-z\s]+)*)'

gender_pattern = r'Gender\s*[:\-\s]*(?:M|F|Male|Female)

dob_pattern = r'Date\s*of\s*Birth\s*[:\-\s]*(\d{2}-\d{2}-\d{4})'                 country_of_stay_pattern = r'Country\s*of\s*Stay\s*[:\-\s]*([A-Za-z\s]+)'

# If a match is found, save it, otherwise mark it as not found

cnic_data['CNIC Number'] = re.search(cnic_number_pattern, etext)
cnic_data['Name'] = re.search(name_pattern, etext)
cnic_data['Father Name'] = re.search(father_name_pattern, etext)
cnic_data['Gender'] = re.search(gender_pattern, etext)
cnic_data['Date of Birth'] = re.search(dob_pattern, etext)
cnic_data['Country of Stay'] = re.search(country_of_stay_pattern, etext)

# Extracting the values from regex matches
cnic_data = {key: (match.group(1) if match else "Not Found") for key, match in cnic_data.items()}

return cnic_data

[/code]
Ожидаемый результат:
Я ожидаю, что результатом будет словарь с правильно извлеченными данными CNIC, например:
{
«Номер CNIC»: «37403-9637109-9»,
«Имя»: «Мухаммад Талха бин Магфур»,
«Имя отца»: «Магфур» Ахмед",
"Пол": "М",
"Дата рождения": "11.01.1999",
"Страна пребывания": "Пакистан"
}< /p>
[b]Поля пола, даты рождения[/b] и [b]страны пребывания[/b] извлекаются неправильно (или иногда не извлекаются вообще).
[b]Поля пола, даты рождения[/b] и [b]страны пребывания[/b] извлекаются неправильно. р>
Что я пробовал:
[list]
[*]Я гарантировал, что имена полей в шаблонах регулярных выражений (например, дата рождения,[code]Gender[/code], Страна пребывания) соответствуют тексту, извлеченному из изображения CNIC. OCR правильно извлекает текст из изображения cnic.

[*]Я пытался настроить шаблоны регулярных выражений, но проблема не устранена.

[/list]
Я пытался обновить шаблоны регулярных выражений для пола и даты рождения, но мне все еще не удалось их правильно извлечь.
Я вручную проверил извлеченный текст, и кажется, что пол и страна не анализируются правильно из-за их близости.

Может ли кто-нибудь помочь мне разобраться в проблеме или предложить какие-либо улучшения шаблонов регулярных выражений?
вот результат
Очищенный извлеченный текст:
Национальное удостоверение личности ПАКИСТАНА ИСЛАМСКАЯ РЕСПУБЛИКА ПАКИСТАН Имя Мухаммад Талха Бин Магфур Имя отца Магфур Ахмед Пол Страна пребывания M Пакистан Идентификационный номер Дата рождения 37403-9637109-9 11.01.1999 Дата выдачи Дата истечения срока действия 03.02.2024 03.02.2034
Номер CNIC: 37403-9637109-9
Имя: Мухаммед Тальха Бин Магфур Имя отца Магфур Ахмед Пол Страна пребывания M Пакистан Идентификационный номер Дата рождения
Имя отца: Магфур Ахмед Пол Страна пребывания M Пакистан Идентификационный номер Дата рождения
Пол: Не найден
Дата рождения: 11.01. 1999
Страна пребывания: M Пакистан Идентификационный номер Дата рождения
Данные записаны на cnic_data.txt 

Подробнее здесь: [url]https://stackoverflow.com/questions/79260280/regex-not-extracting-cnic-details-correctly-from-text-extracted-via-easyocr-in-p[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Regex неправильно извлекает данные CNIC из текста, извлеченного с помощью EasyOCR в Python

Последнее сообщение Anonymous « 07 дек 2024, 11:47
Добавлено в форуме Python

Anonymous » 07 дек 2024, 11:47 » в форуме Python

Я пытаюсь извлечь личные данные (такие как имя, пол, дата рождения и т. д.) из изображения CNIC (компьютеризированного национального удостоверения личности) с помощью EasyOCR и регулярных выражений в Python.

OCR извлекает текст правильно. Однако,...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
07 дек 2024, 11:47
Regex неправильно извлекает данные CNIC из текста, извлеченного с помощью EasyOCR в Python

Последнее сообщение Anonymous « 24 дек 2024, 13:53
Добавлено в форуме Python

Anonymous » 24 дек 2024, 13:53 » в форуме Python

Я пытаюсь извлечь личные данные (такие как имя, пол, дата рождения и т. д.) из изображения CNIC (компьютеризированного национального удостоверения личности) с помощью EasyOCR и регулярных выражений в Python.

Я пытаюсь получить соответствующие...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
24 дек 2024, 13:53
Regex неправильно извлекает данные CNIC из текста, извлеченного с помощью EasyOCR в Python

Последнее сообщение Anonymous « 03 янв 2025, 13:28
Добавлено в форуме Python

Anonymous » 03 янв 2025, 13:28 » в форуме Python

Я пытаюсь извлечь личные данные (такие как имя, пол, дата рождения и т. д.) из изображения CNIC (компьютеризированного национального удостоверения личности) с помощью EasyOCR и регулярных выражений в Python.

Я пытаюсь получить соответствующие...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
03 янв 2025, 13:28
Как получить данные из извлеченного PDF-файла для поиска/фильтрации из другого окна [закрыто]

Последнее сообщение Гость « 14 мар 2024, 11:13
Добавлено в форуме JAVA

Гость » 14 мар 2024, 11:13 » в форуме JAVA

Я использую библиотеку Apache PDF Box, а затем, когда я извлекаю PDF-файл, из извлеченного PDF-файла появляется табличное представление, а затем, когда я нажимаю элемент управления f, появляется еще одно окно для глобального поиска, и это я хочу...

0 Ответы

19 Просмотры

Последнее сообщение Гость
14 мар 2024, 11:13
Преобразование извлеченного текста из списка выбора eBay PDF в массив для сортировки

Последнее сообщение Anonymous « 31 май 2025, 10:29
Добавлено в форуме Python

Anonymous » 31 май 2025, 10:29 » в форуме Python

мой друг продает спортивные торговые карты на eBay и спросил, могу ли я помочь ему с проектом. Он хочет, чтобы его список PDF -файл был сортирован с помощью пользовательского SKU, чтобы он мог более эффективно вытащить их из своих ящиков для...

0 Ответы

2 Просмотры

Последнее сообщение Anonymous
31 май 2025, 10:29

Вернуться в «Python»