Я собираюсь использовать nltk.tokenize.word_tokenize в кластере, где моя учетная запись сильно ограничена квотой пространства. Дома я скачал все ресурсы nltk с помощью nltk.download(), но, как я выяснил, это занимает ~2,5 ГБ.
Мне это кажется немного излишним. Не могли бы вы подсказать, каковы минимальные (или почти минимальные) зависимости для nltk.tokenize.word_tokenize? До сих пор я видел nltk.download('punkt'), но не уверен, достаточно ли этого и каков его размер. Что именно мне нужно запустить, чтобы все заработало?
Подробнее здесь: https://stackoverflow.com/questions/371 ... enize-work
Что скачать, чтобы nltk.tokenize.word_tokenize заработал? ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение