Получить индексы исходного текста от nltk word_tokenize

Получить индексы исходного текста от nltk word_tokenize ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Получить индексы исходного текста от nltk word_tokenize

Цитата

Сообщение Anonymous » 27 янв 2025, 13:18

Я маркирую текст с помощью nltk.word_tokenize, и мне также хотелось бы получить индекс в исходном необработанном тексте для первого символа каждого токена, т. е.

import nltk
x = 'hello world'
tokens = nltk.word_tokenize(x)
>>> ['hello', 'world']
< /code>

Как я могу также получить массив [0, 7] < /code>, соответствующий необработанным индексам токенов?

Подробнее здесь: https://stackoverflow.com/questions/316 ... d-tokenize

1737973096

Anonymous

Я маркирую текст с помощью nltk.word_tokenize, и мне также хотелось бы получить индекс в исходном необработанном тексте для первого символа каждого токена, т. е.

import nltk
x = 'hello world'
tokens = nltk.word_tokenize(x)
>>> ['hello', 'world']
< /code>

Как я могу также получить массив [0, 7] < /code>, соответствующий необработанным индексам токенов?  

Подробнее здесь: [url]https://stackoverflow.com/questions/31668493/get-indices-of-original-text-from-nltk-word-tokenize[/url]