Разрыв после первой последовательности PER, найденной с помощью Spacy

Разрыв после первой последовательности PER, найденной с помощью Spacy ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Разрыв после первой последовательности PER, найденной с помощью Spacy

Цитата

Сообщение Anonymous » 16 окт 2024, 12:58

Я пытаюсь извлечь только имя первого говорящего из списка текстов с помощью SpaCy. В настоящее время моя функция возвращает все теги «PER», но я хочу уменьшить накладные расходы и получить только первую непрерывную последовательность объектов «PER». Вот пример вывода, который я получаю:

Код: Выделить всё

Detected Names in Text: ['garcía', 'lópez']
Detected Names in Text: ['j. jesus orozco alfaro']
Detected Names in Text: ['josé guadarrama márquez', 'josé guadarrama']
Detected Names in Text: ['pedro sánchez', 'josé manuel albares', 'pablo iglesias']

Но я хочу, чтобы результат был:

Код: Выделить всё

Detected Names in Text: ['garcía']
Detected Names in Text: ['j. jesus orozco alfaro']
Detected Names in Text: ['josé guadarrama márquez']
Detected Names in Text: ['pedro sánchez']

Вот код, который я сейчас использую:

Код: Выделить всё

import spacy
from spacy.matcher import Matcher

nlp = spacy.load("es_core_news_lg")

texts = [
"El Sr. García habló en la sesión. También estuvo presente el Senador López y la Diputada Martínez.",
"PRESIDENCIA DEL C. SENADOR J. JESUS OROZCO ALFARO",
"            -ER C. José Guadarrama Márquez: el contrabando del dia, José Guadarrama Márquez",
"El presidente Pedro Sánchez y el Ministro de Asuntos Exteriores José Manuel Albares se reunieron con el Senador Pablo Iglesias."
]
texts = [text.lower() for text in texts]

matcher = Matcher(nlp.vocab)

patterns = [
[{"LOWER": "el"}, {"LOWER": "c"}],
[{"LOWER": "el"}, {"LOWER": "sr"}],
[{"LOWER": "el"}, {"LOWER": "sra"}]
]

matcher.add("LEGISLATIVE_TITLES", patterns)

# Function to find a sequence of PER entities allowing one MISC
def find_per_sequence(doc, start_idx=0):
per_entities = []
misc_count = 0

for ent in doc[start_idx:].ents:
if ent.label_ == "PER":
per_entities.append(ent.text)
elif ent.label_ == "MISC" and misc_count < 1:
misc_count += 1
per_entities.append(ent.text)
else:
break  # Should stop if any other entity or second MISC is encountered

return per_entities

for text in texts:
doc = nlp(text)

# Find matches
matches = matcher(doc)

# Extract the first match and its position
title_start = None
title_end = None
for match_id, start, end in matches:
title_start = start
title_end = end
break

# If a title was found, start searching for PER entities from that position
if title_start is not None:
names = find_per_sequence(doc, start_idx=title_end)
else:
names = find_per_sequence(doc)

# Output the detected names for each text
print(f"Detected Names in Text: {names}")

Что я ищу:
Я хочу изменить функцию find_per_sequence так, чтобы она возвращала только первую непрерывную последовательность объектов «PER». в тексте, игнорируя любые последующие объекты «PER» после обнаружения объекта другого типа. Предоставленная функция возвращает несколько имен или частей имен, и мне нужен способ гарантировать, что будет включено только имя или последовательность. Как мне этого добиться?

Подробнее здесь: https://stackoverflow.com/questions/789 ... with-spacy

1729072734

Anonymous

Я пытаюсь извлечь только имя первого говорящего из списка текстов с помощью SpaCy. В настоящее время моя функция возвращает все теги «PER», но я хочу уменьшить накладные расходы и получить только первую непрерывную последовательность объектов «PER». Вот пример вывода, который я получаю:
[code]Detected Names in Text: ['garcía', 'lópez']
Detected Names in Text: ['j. jesus orozco alfaro']
Detected Names in Text: ['josé guadarrama márquez', 'josé guadarrama']
Detected Names in Text: ['pedro sánchez', 'josé manuel albares', 'pablo iglesias']
[/code]
Но я хочу, чтобы результат был:
[code]Detected Names in Text: ['garcía']
Detected Names in Text: ['j. jesus orozco alfaro']
Detected Names in Text: ['josé guadarrama márquez']
Detected Names in Text: ['pedro sánchez']
[/code]
Вот код, который я сейчас использую:
[code]import spacy
from spacy.matcher import Matcher

nlp = spacy.load("es_core_news_lg")

texts = [
"El Sr. García habló en la sesión. También estuvo presente el Senador López y la Diputada Martínez.",
"PRESIDENCIA DEL C. SENADOR J. JESUS OROZCO ALFARO",
"            -ER C. José Guadarrama Márquez: el contrabando del dia, José Guadarrama Márquez",
"El presidente Pedro Sánchez y el Ministro de Asuntos Exteriores José Manuel Albares se reunieron con el Senador Pablo Iglesias."
]
texts = [text.lower() for text in texts]

matcher = Matcher(nlp.vocab)

patterns = [
[{"LOWER": "el"}, {"LOWER": "c"}],
[{"LOWER": "el"}, {"LOWER": "sr"}],
[{"LOWER": "el"}, {"LOWER": "sra"}]
]

matcher.add("LEGISLATIVE_TITLES", patterns)

# Function to find a sequence of PER entities allowing one MISC
def find_per_sequence(doc, start_idx=0):
per_entities = []
misc_count = 0

for ent in doc[start_idx:].ents:
if ent.label_ == "PER":
per_entities.append(ent.text)
elif ent.label_ == "MISC" and misc_count < 1:
misc_count += 1
per_entities.append(ent.text)
else:
break  # Should stop if any other entity or second MISC is encountered

return per_entities

for text in texts:
doc = nlp(text)

# Find matches
matches = matcher(doc)

# Extract the first match and its position
title_start = None
title_end = None
for match_id, start, end in matches:
title_start = start
title_end = end
break

# If a title was found, start searching for PER entities from that position
if title_start is not None:
names = find_per_sequence(doc, start_idx=title_end)
else:
names = find_per_sequence(doc)

# Output the detected names for each text
print(f"Detected Names in Text: {names}")
[/code]
Что я ищу:
Я хочу изменить функцию find_per_sequence так, чтобы она возвращала только первую непрерывную последовательность объектов «PER». в тексте, игнорируя любые последующие объекты «PER» после обнаружения объекта другого типа. Предоставленная функция возвращает несколько имен или частей имен, и мне нужен способ гарантировать, что будет включено только имя или последовательность. Как мне этого добиться? 

Подробнее здесь: [url]https://stackoverflow.com/questions/78957322/break-after-first-per-sequence-found-with-spacy[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Spacy nlp = spacy.load("en_core_web_lg")

Последнее сообщение Anonymous « 22 сен 2024, 13:08
Добавлено в форуме Python

Anonymous » 22 сен 2024, 13:08 » в форуме Python

У меня уже загружен SpaCy, но каждый раз, когда я пытаюсь выполнить команду nlp = spacy.load( en_core_web_lg ), я получаю следующую ошибку:

OSError: Can't find model 'en_core_web_lg'. It doesn't seem to be a shortcut link, a Python package or a...

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
22 сен 2024, 13:08
Почему Presidio с Spacy NLP Engine не распознает организации и Pesel, пока Spacy делает?

Последнее сообщение Anonymous « 03 апр 2025, 10:02
Добавлено в форуме Python

Anonymous » 03 апр 2025, 10:02 » в форуме Python

Я использую Spacy с моделью PL_CORE_NEWS_LG для извлечения именованных объектов из польского текста. Он правильно обнаруживает как организации (ORG), так и имена людей (PER):
import spacy

nlp = spacy.load( pl_core_news_lg )
text = Jan Kowalski...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
03 апр 2025, 10:02
Можно ли переносить старые модели Spacy в будущие версии Spacy?

Последнее сообщение Anonymous « 22 июн 2025, 14:27
Добавлено в форуме Python

Anonymous » 22 июн 2025, 14:27 » в форуме Python

Последние версии Spacy имеют лучшую производительность и совместимость для ускорения графического процессора на устройствах Apple, но у меня есть существующий проект, который зависит от Spacy 3.1.4 и некоторых конкретных поведения моделей 3.1.0 (Web...

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
22 июн 2025, 14:27
Обнаружение ошибки несоответствия формы при реализации DDQN с помощью T-Soft Update и PER

Последнее сообщение Anonymous « 13 янв 2025, 17:56
Добавлено в форуме Python

Anonymous » 13 янв 2025, 17:56 » в форуме Python

Я новичок в обучении с подкреплением и машинном обучении. Я реализовал алгоритм Deep Q-Network (DDQN) в учебных целях, но обнаружил ошибку несоответствия формы.
В частности, тензор target_q_values содержит значения Q для всех возможных действий....

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
13 янв 2025, 17:56
Предотвратить разрыв слова на последовательности ++

Последнее сообщение Anonymous « 15 июн 2025, 22:30
Добавлено в форуме CSS

Anonymous » 15 июн 2025, 22:30 » в форуме CSS

Как предотвратить другой текст ++ Формулировка от нарушения:
other text+
+

Использование CSS? Я хотел бы, чтобы текст ++ рассматривался как целое слово, а текст должен сломаться только на белых пространствах.

Подробнее здесь:

0 Ответы

3 Просмотры

Последнее сообщение Anonymous
15 июн 2025, 22:30

Вернуться в «Python»