Получить индексы исходного текста от nltk word_tokenizePython

Программы на Python
Ответить
Anonymous
 Получить индексы исходного текста от nltk word_tokenize

Сообщение Anonymous »

Я маркирую текст с помощью nltk.word_tokenize, и мне также хотелось бы получить индекс в исходном необработанном тексте для первого символа каждого токена, т. е.

import nltk
x = 'hello world'
tokens = nltk.word_tokenize(x)
>>> ['hello', 'world']
< /code>

Как я могу также получить массив [0, 7] < /code>, соответствующий необработанным индексам токенов?

Подробнее здесь: https://stackoverflow.com/questions/316 ... d-tokenize
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»