Можно ли добавить часть речевого тега в особый случай токенизатора spaCy? - Цифровое Кемерово

Можно ли добавить часть речевого тега в особый случай токенизатора spaCy? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Можно ли добавить часть речевого тега в особый случай токенизатора spaCy?

Цитата

Сообщение Anonymous » 27 сен 2024, 04:15

У меня есть список соединений и других особых случаев, которые я хочу, чтобы SpaCy распознавал как токены, например «согласно» и «стиральная машина». Для этого я использовал add_special_case:

Код: Выделить всё

    import spacy
from spacy.attrs import ORTH

nlp = spacy.load("en_core_web_sm")

text = "according to reports the washing machine industry is declining"

special_case_1 = [{ORTH: 'according to'}]
nlp.tokenizer.add_special_case('according to', special_case_1)

special_case_2 = [{ORTH: 'washing machine'}]
nlp.tokenizer.add_special_case('washing machine', special_case_2)

doc = nlp(text)

for token in doc:
print(token, token.pos_)

Кажется, это работает, но тег POS теперь является именем собственным, тогда как он должен быть предлогом (ADP) для «согласно» и СУЩЕСТВИТЕЛЬНЫМ для «стиральной машины»:

Код: Выделить всё

    according to PROPN
reports VERB
the DET
washing machine PROPN
industry NOUN
is AUX
declining VERB

Кто-нибудь знает, есть ли способ назначить тег POS для особого случая? (В документации я ничего не нашел). Или, может быть, есть лучший способ токенизировать соединения?
Решение
Решение заключалось в использовании AttributeRuler в spaCy. https://spacy.io/usage/linguistic-featu ... Exceptions

Код: Выделить всё

    import spacy
from spacy.attrs import ORTH

nlp = spacy.load("en_core_web_sm")

text = "according to reports the washing machine is more
popular than air conditioning because of an unknown reason"

compounds = ['according to', 'because of', 'washing machine',
'air conditioning']

for comp in compounds:
special_case = [{ORTH: comp}]
nlp.tokenizer.add_special_case(comp, special_case)

Это дало четырем соединениям следующие теги:

Код: Выделить всё

    according to PROPN NNP
washing machine PROPN NNP
air conditioning VERB VBG
because of VERB VBZ

Затем я использовал AttributeRuler:

Код: Выделить всё

    ruler = nlp.get_pipe("attribute_ruler")

prepositions = ['according to', 'because of']
nouns = ['washing machine', 'air conditioning']

for prep in prepositions:
preposition_patterns = [[{"LOWER": prep}]]
preposition_attrs = {"TAG": "IN", "POS": "ADP"}
ruler.add(patterns=preposition_patterns,
attrs=preposition_attrs)

for noun in nouns:
noun_patterns = [[{"LOWER": noun}]]
noun_attrs = {"TAG": "NN", "POS": "NOUN"}
ruler.add(patterns=noun_patterns, attrs=noun_attrs)

На этот раз результат был таким, каким я хотел:

Код: Выделить всё

doc = nlp(text)

for token in doc:
print(token, token.tag_, token.pos_)

Полный вывод:

Код: Выделить всё

according to IN ADP
reports VBZ VERB
the DT DET
washing machine NN NOUN
is VBZ AUX
more RBR ADV
popular JJ ADJ
than IN ADP
air conditioning NN NOUN
because of IN ADP
an DT DET
unknown JJ ADJ
reason NN NOUN

Мне еще нужно поработать над токенизацией леммы сложного существительного (включая форму множественного числа). В моем случае список составных слов достаточно мал, чтобы вручную добавить форму множественного числа каждого составного существительного в список составных существительных, но это, вероятно, не лучшее решение.

Подробнее здесь: https://stackoverflow.com/questions/714 ... ecial-case

Реклама

1727399705

Anonymous

У меня есть список соединений и других особых случаев, которые я хочу, чтобы SpaCy распознавал как токены, например «согласно» и «стиральная машина». Для этого я использовал add_special_case:
[code]    import spacy
from spacy.attrs import ORTH

nlp = spacy.load("en_core_web_sm")

text = "according to reports the washing machine industry is declining"

special_case_1 = [{ORTH: 'according to'}]
nlp.tokenizer.add_special_case('according to', special_case_1)

special_case_2 = [{ORTH: 'washing machine'}]
nlp.tokenizer.add_special_case('washing machine', special_case_2)

doc = nlp(text)

for token in doc:
print(token, token.pos_)
[/code]
Кажется, это работает, но тег POS теперь является именем собственным, тогда как он должен быть предлогом (ADP) для «согласно» и СУЩЕСТВИТЕЛЬНЫМ для «стиральной машины»:
[code]    according to PROPN
reports VERB
the DET
washing machine PROPN
industry NOUN
is AUX
declining VERB
[/code]
Кто-нибудь знает, есть ли способ назначить тег POS для особого случая? (В документации я ничего не нашел). Или, может быть, есть лучший способ токенизировать соединения?
[b]Решение[/b]
Решение заключалось в использовании AttributeRuler в spaCy. https://spacy.io/usage/linguistic-features#mappings-Exceptions
[code]    import spacy
from spacy.attrs import ORTH

nlp = spacy.load("en_core_web_sm")

text = "according to reports the washing machine is more
popular than air conditioning because of an unknown reason"

compounds = ['according to', 'because of', 'washing machine',
'air conditioning']

for comp in compounds:
special_case = [{ORTH: comp}]
nlp.tokenizer.add_special_case(comp, special_case)
[/code]
Это дало четырем соединениям следующие теги:
[code]    according to PROPN NNP
washing machine PROPN NNP
air conditioning VERB VBG
because of VERB VBZ
[/code]
Затем я использовал AttributeRuler:
[code]    ruler = nlp.get_pipe("attribute_ruler")

prepositions = ['according to', 'because of']
nouns = ['washing machine', 'air conditioning']

for prep in prepositions:
preposition_patterns = [[{"LOWER": prep}]]
preposition_attrs = {"TAG": "IN", "POS": "ADP"}
ruler.add(patterns=preposition_patterns,
attrs=preposition_attrs)

for noun in nouns:
noun_patterns = [[{"LOWER": noun}]]
noun_attrs = {"TAG": "NN", "POS": "NOUN"}
ruler.add(patterns=noun_patterns, attrs=noun_attrs)
[/code]
На этот раз результат был таким, каким я хотел:
[code]doc = nlp(text)

for token in doc:
print(token, token.tag_, token.pos_)
[/code]
Полный вывод:
[code]according to IN ADP
reports VBZ VERB
the DT DET
washing machine NN NOUN
is VBZ AUX
more RBR ADV
popular JJ ADJ
than IN ADP
air conditioning NN NOUN
because of IN ADP
an DT DET
unknown JJ ADJ
reason NN NOUN
[/code]
Мне еще нужно поработать над токенизацией леммы сложного существительного (включая форму множественного числа). В моем случае список составных слов достаточно мал, чтобы вручную добавить форму множественного числа каждого составного существительного в список составных существительных, но это, вероятно, не лучшее решение. 

Подробнее здесь: [url]https://stackoverflow.com/questions/71418957/is-it-possible-to-to-add-a-part-of-speech-tag-to-a-spacy-tokenizer-special-case[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как создать кривую хвостовую часть речевого пузыря с помощью CSS?

Последнее сообщение Anonymous « 11 окт 2024, 07:44
Добавлено в форуме CSS

Anonymous » 11 окт 2024, 07:44 » в форуме CSS

Я создаю речевой пузырь с помощью CSS, и я зашел так далеко.

.says{
width: 200px;
padding: 20px;
margin-right: 20px;
background: #BF7EF2;
color: #fff;
box-shadow: -3px 3px 5px #C1B9C8;
position: relative;
border-radius: 5px;
}

.says:before{...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
11 окт 2024, 07:44
Можно ли переносить старые модели Spacy в будущие версии Spacy?

Последнее сообщение Anonymous « 22 июн 2025, 14:27
Добавлено в форуме Python

Anonymous » 22 июн 2025, 14:27 » в форуме Python

Последние версии Spacy имеют лучшую производительность и совместимость для ускорения графического процессора на устройствах Apple, но у меня есть существующий проект, который зависит от Spacy 3.1.4 и некоторых конкретных поведения моделей 3.1.0 (Web...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
22 июн 2025, 14:27
Spacy nlp = spacy.load("en_core_web_lg")

Последнее сообщение Anonymous « 22 сен 2024, 13:08
Добавлено в форуме Python

Anonymous » 22 сен 2024, 13:08 » в форуме Python

У меня уже загружен SpaCy, но каждый раз, когда я пытаюсь выполнить команду nlp = spacy.load( en_core_web_lg ), я получаю следующую ошибку:

OSError: Can't find model 'en_core_web_lg'. It doesn't seem to be a shortcut link, a Python package or a...

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
22 сен 2024, 13:08
Почему Presidio с Spacy NLP Engine не распознает организации и Pesel, пока Spacy делает?

Последнее сообщение Anonymous « 03 апр 2025, 10:02
Добавлено в форуме Python

Anonymous » 03 апр 2025, 10:02 » в форуме Python

Я использую Spacy с моделью PL_CORE_NEWS_LG для извлечения именованных объектов из польского текста. Он правильно обнаруживает как организации (ORG), так и имена людей (PER):
import spacy

nlp = spacy.load( pl_core_news_lg )
text = Jan Kowalski...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
03 апр 2025, 10:02
Как удалить накладную STT -коробку из API речевого режизализатора в Android Studio?

Последнее сообщение Anonymous « 06 сен 2025, 11:09
Добавлено в форуме Android

Anonymous » 06 сен 2025, 11:09 » в форуме Android

При создании приложения STT в Android Studio (JetPack Compose) я столкнулся с этим в распознаванице речи, когда запускаю приложение:
stt в приложении
Я хочу удалить это, чтобы пользовательский интерфейс выглядел более чистым. Есть ли способ сделать...

0 Ответы

0 Просмотры

Последнее сообщение Anonymous
06 сен 2025, 11:09

Вернуться в «Python»

Programmiererforum