Почему nltk word_tokenize не работает даже после выполнения nltk.download и всех пакетов установлены правильно? - Цифровое Кемерово

Почему nltk word_tokenize не работает даже после выполнения nltk.download и всех пакетов установлены правильно? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Почему nltk word_tokenize не работает даже после выполнения nltk.download и всех пакетов установлены правильно?

Цитата

Сообщение Anonymous » 11 ноя 2024, 22:04

Я использую 64-разрядную версию Python 3.7. nltk версии 3.4.5.

Когда я пытаюсь преобразовать text6 в nltk.book в токены с помощью word_tokenize, я получаю сообщение об ошибке.
import nltk
from nltk.tokenize import word_tokenize
from nltk.book import *
tokens=word_tokenize(text6)

код выполняется в режиме ожидания 3.7

Ниже приведена ошибка при выполнении последнего оператора. >

Traceback (most recent call last):
File "
", line 1, in
tokens=word_tokenize(text6)
File "C:\Users\admin\AppData\Local\Programs\Python\Python37\lib\site-packages\nltk\tokenize\__init__.py", line 144, in word_tokenize
sentences = [text] if preserve_line else sent_tokenize(text, language)
File "C:\Users\admin\AppData\Local\Programs\Python\Python37\lib\site-packages\nltk\tokenize\__init__.py", line 106, in sent_tokenize
return tokenizer.tokenize(text)
File "C:\Users\admin\AppData\Local\Programs\Python\Python37\lib\site-packages\nltk\tokenize\punkt.py", line 1277, in tokenize
return list(self.sentences_from_text(text, realign_boundaries))
File "C:\Users\admin\AppData\Local\Programs\Python\Python37\lib\site-packages\nltk\tokenize\punkt.py", line 1331, in sentences_from_text
return [text[s:e] for s, e in self.span_tokenize(text, realign_boundaries)]
File "C:\Users\admin\AppData\Local\Programs\Python\Python37\lib\site-packages\nltk\tokenize\punkt.py", line 1331, in
return [text[s:e] for s, e in self.span_tokenize(text, realign_boundaries)]
File "C:\Users\admin\AppData\Local\Programs\Python\Python37\lib\site-packages\nltk\tokenize\punkt.py", line 1321, in span_tokenize
for sl in slices:
File "C:\Users\admin\AppData\Local\Programs\Python\Python37\lib\site-packages\nltk\tokenize\punkt.py", line 1362, in _realign_boundaries
for sl1, sl2 in _pair_iter(slices):
File "C:\Users\admin\AppData\Local\Programs\Python\Python37\lib\site-packages\nltk\tokenize\punkt.py", line 318, in _pair_iter
prev = next(it)
File "C:\Users\admin\AppData\Local\Programs\Python\Python37\lib\site-packages\nltk\tokenize\punkt.py", line 1335, in _slices_from_text
for match in self._lang_vars.period_context_re().finditer(text):
TypeError: expected string or bytes-like object

Пожалуйста, помогите. Заранее спасибо.

Во время устранения неполадок я создал образец объекта nltk.text.Text и попытался токенизировать его с помощью nltk.word_tokenize. Тем не менее я получаю ту же ошибку. См. снимок экрана ниже.

Но при вызове nltk.word_tokenize() для строки он работает.

>>> tt="Python is a programming language"
>>> tokens2=nltk.word_tokenize(tt) #Not throwing error
>>> type(tt)

>>> type(text6)

>>>

Подробнее здесь: https://stackoverflow.com/questions/610 ... -and-all-t

Реклама

1731351875

Anonymous

Я использую 64-разрядную версию Python 3.7. nltk версии 3.4.5.

Когда я пытаюсь преобразовать text6 в nltk.book в токены с помощью word_tokenize, я получаю сообщение об ошибке.
import nltk
from nltk.tokenize import word_tokenize
from nltk.book import *
tokens=word_tokenize(text6)


код выполняется в режиме ожидания 3.7

Ниже приведена ошибка при выполнении последнего оператора. >

    Traceback (most recent call last):
File "
", line 1, in 
tokens=word_tokenize(text6)
File "C:\Users\admin\AppData\Local\Programs\Python\Python37\lib\site-packages\nltk\tokenize\__init__.py", line 144, in word_tokenize
sentences = [text] if preserve_line else sent_tokenize(text, language)
File "C:\Users\admin\AppData\Local\Programs\Python\Python37\lib\site-packages\nltk\tokenize\__init__.py", line 106, in sent_tokenize
return tokenizer.tokenize(text)
File "C:\Users\admin\AppData\Local\Programs\Python\Python37\lib\site-packages\nltk\tokenize\punkt.py", line 1277, in tokenize
return list(self.sentences_from_text(text, realign_boundaries))
File "C:\Users\admin\AppData\Local\Programs\Python\Python37\lib\site-packages\nltk\tokenize\punkt.py", line 1331, in sentences_from_text
return [text[s:e] for s, e in self.span_tokenize(text, realign_boundaries)]
File "C:\Users\admin\AppData\Local\Programs\Python\Python37\lib\site-packages\nltk\tokenize\punkt.py", line 1331, in 
return [text[s:e] for s, e in self.span_tokenize(text, realign_boundaries)]
File "C:\Users\admin\AppData\Local\Programs\Python\Python37\lib\site-packages\nltk\tokenize\punkt.py", line 1321, in span_tokenize
for sl in slices:
File "C:\Users\admin\AppData\Local\Programs\Python\Python37\lib\site-packages\nltk\tokenize\punkt.py", line 1362, in _realign_boundaries
for sl1, sl2 in _pair_iter(slices):
File "C:\Users\admin\AppData\Local\Programs\Python\Python37\lib\site-packages\nltk\tokenize\punkt.py", line 318, in _pair_iter
prev = next(it)
File "C:\Users\admin\AppData\Local\Programs\Python\Python37\lib\site-packages\nltk\tokenize\punkt.py", line 1335, in _slices_from_text
for match in self._lang_vars.period_context_re().finditer(text):
TypeError: expected string or bytes-like object


Пожалуйста, помогите. Заранее спасибо.

Во время устранения неполадок я создал образец объекта nltk.text.Text и попытался токенизировать его с помощью nltk.word_tokenize. Тем не менее я получаю ту же ошибку. См. снимок экрана ниже.
[img]https://i.sstatic.net/AXhDV.png[/img]


Но при вызове nltk.word_tokenize() для строки он работает.

>>> tt="Python is a programming language"
>>> tokens2=nltk.word_tokenize(tt) #Not throwing error
>>> type(tt)

>>> type(text6)

>>>
 

Подробнее здесь: [url]https://stackoverflow.com/questions/61041217/why-nltk-word-tokenize-is-not-working-even-after-doing-a-nltk-download-and-all-t[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Почему nltk word_tokenize не работает даже после того, как выполняет nltk.download, и все пакеты установлены правильно?

Последнее сообщение Anonymous « 13 июл 2025, 09:04
Добавлено в форуме Python

Anonymous » 13 июл 2025, 09:04 » в форуме Python

Я использую Python 3.7 64 бит. NLTK версия 3.4.5.

Когда я пытаюсь преобразовать текст6 в nltk.book в токены с использованием word_tokenize, я получаю ошибку.

import nltk
from nltk.tokenize import word_tokenize
from nltk.book import *...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
13 июл 2025, 09:04
Как исправить ошибку nltk.download [Ошибка Win 10054] при попытке запустить код #nltk.download('stopwords')) на корпорат

Последнее сообщение Гость « 20 сен 2023, 21:55
Добавлено в форуме Python

Гость » 20 сен 2023, 21:55 » в форуме Python

Я пытаюсь использовать nltk, и мне нужно загрузить данные nltk.download(). Я пробовал несколько вещей на своем рабочем компьютере, но не уверен, дело ли в нашем брандмауэре или что-то еще происходит. Я делаю это в Jupyter Notebook.

Я попробовал...

0 Ответы

83 Просмотры

Последнее сообщение Гость
20 сен 2023, 21:55
Ресурсный пункт не найден. Чтобы получить ресурс, воспользуйтесь загрузчиком NLTK: >>> import nltk >>> nltk.download('pu

Последнее сообщение Anonymous « 09 окт 2024, 19:12
Добавлено в форуме Python

Anonymous » 09 окт 2024, 19:12 » в форуме Python

У меня установлен NLTK, и возникает ошибка.
Ресурсный пункт не найден.
Воспользуйтесь загрузчиком NLTK, чтобы получить ресурс:
импортировать nltknltk.download('punkt')
Для получения дополнительной информации см.:
Попытка загрузить...

0 Ответы

39 Просмотры

Последнее сообщение Anonymous
09 окт 2024, 19:12
Ресурсный пункт не найден. Чтобы получить ресурс, воспользуйтесь загрузчиком NLTK: >>> import nltk >>> nltk.download('pu

Последнее сообщение Anonymous « 09 окт 2024, 20:39
Добавлено в форуме Python

Anonymous » 09 окт 2024, 20:39 » в форуме Python

У меня установлен NLTK, и он выдает ошибку:
Resource punkt not found.
Please use the NLTK Downloader to obtain the resource:

import nltk
nltk.download('punkt')
For more information see:

Attempted to load tokenizers/punkt/PY3/english.pickle...

0 Ответы

35 Просмотры

Последнее сообщение Anonymous
09 окт 2024, 20:39
Ресурсный пункт не найден. Чтобы получить ресурс, воспользуйтесь загрузчиком NLTK: >>> import nltk >>> nltk.download('pu

Последнее сообщение Anonymous « 09 янв 2025, 12:32
Добавлено в форуме Python

Anonymous » 09 янв 2025, 12:32 » в форуме Python

У меня установлен NLTK, и он выдает ошибку:
Resource punkt not found.
Please use the NLTK Downloader to obtain the resource:

import nltk
nltk.download('punkt')
For more information see:

Attempted to load tokenizers/punkt/PY3/english.pickle...

0 Ответы

33 Просмотры

Последнее сообщение Anonymous
09 янв 2025, 12:32

Вернуться в «Python»

Programmiererforum