Как правильно определить типы сущностей для токенов с помощью spaCy с использованием Python? - Цифровое Кемерово

Как правильно определить типы сущностей для токенов с помощью spaCy с использованием Python? ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Как правильно определить типы сущностей для токенов с помощью spaCy с использованием Python?

Цитата

Сообщение Anonymous » 17 дек 2024, 15:09

Я использую spaCy для извлечения и идентификации типов объектов (например, ORG, GPE, DATE и т. д.) из текстового описания. Однако я заметил некоторые неправильные результаты и не знаю, как это исправить.
Вот код, который я использую:

Код: Выделить всё

import spacy

nlp = spacy.load("en_core_web_sm")

def getPayeeName(description):
description = description.replace("-", " ").replace("/", " ").strip()
doc = nlp(description)

for token in doc:
print(f"Token: {token.text}, Entity: {token.ent_type_ if token.ent_type_ else 'None'}")

# Example input
description = "UPI DR 400874707203 BENGALORE 08 JAN 2024 14:38:56 MEDICAL LTD HDFC 50200"
getPayeeName(description)

Токен: UPI, Объект: ORG
Токен: DR, Объект: ORG
Токен: 400874707203 , Объект: нет
Токен: БЕНГАЛОР, Объект: нет
Токен: 08, Объект: ДАТА
Токен: ЯНВАРЬ, Объект: ДАТА
Токен: 2024 г., Объект: ДАТА
Токен: 14:38:56, Объект: Нет
Токен: МЕДИЦИНСКИЙ, Объект: ORG
Токен: LTD, Объект: ORGТокен: HDFC, Объект: ORG
Токен: 50200, Объект: ORG

50200 идентифицируется как ORG, но это всего лишь число.
БЕНГАЛОР — это город, но он не признан GPE или местоположение
(возвращает Нет).
UPI и DR — это аббревиатуры/аббревиатуры, но они неправильно
идентифицированы как ORG.

Я хочу, чтобы распознавание объектов было более точным и надежным.
Как я могу устранить эти проблемы? Существуют ли дополнительные конфигурации SpaCy, пользовательские правила или предварительно обученные модели, которые мне следует использовать для улучшения распознавания объектов?
Примечание. Я также пробовал ChatGPT, но эта проблема все равно не решена.

Подробнее здесь: https://stackoverflow.com/questions/792 ... ing-python

1734437389

Anonymous

Я использую spaCy для извлечения и идентификации типов объектов (например, ORG, GPE, DATE и т. д.) из текстового описания. Однако я заметил некоторые неправильные результаты и не знаю, как это исправить.
Вот код, который я использую:
[code]import spacy

nlp = spacy.load("en_core_web_sm")

def getPayeeName(description):
description = description.replace("-", " ").replace("/", " ").strip()
doc = nlp(description)

for token in doc:
print(f"Token: {token.text}, Entity: {token.ent_type_ if token.ent_type_ else 'None'}")

# Example input
description = "UPI DR 400874707203 BENGALORE 08 JAN 2024 14:38:56 MEDICAL LTD HDFC 50200"
getPayeeName(description)
[/code]
Токен: UPI, Объект: ORG
Токен: DR, Объект: ORG
Токен: 400874707203 , Объект: нет
Токен: БЕНГАЛОР, Объект: нет
Токен: 08, Объект: ДАТА
Токен: ЯНВАРЬ, Объект: ДАТА
Токен: 2024 г., Объект: ДАТА
Токен: 14:38:56, Объект: Нет
Токен: МЕДИЦИНСКИЙ, Объект: ORG
Токен: LTD, Объект: ORGТокен: HDFC, Объект: ORG
Токен: 50200, Объект: ORG
[list]
[*]
50200 идентифицируется как ORG, но это всего лишь число.

[*]БЕНГАЛОР — это город, но он не признан GPE или местоположение
(возвращает Нет).

[*]UPI и DR — это аббревиатуры/аббревиатуры, но они неправильно
идентифицированы как ORG.
[/list]
Я хочу, чтобы распознавание объектов было более точным и надежным.
Как я могу устранить эти проблемы? Существуют ли дополнительные конфигурации SpaCy, пользовательские правила или предварительно обученные модели, которые мне следует использовать для улучшения распознавания объектов?
Примечание. Я также пробовал ChatGPT, но эта проблема все равно не решена.  

Подробнее здесь: [url]https://stackoverflow.com/questions/79287799/how-to-correctly-identify-entity-types-for-tokens-using-spacy-using-python[/url]

Ответить

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Вернуться в «Python»