В чем разница между MWE Tokenizer и countvectorizer+ngram?Python

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 В чем разница между MWE Tokenizer и countvectorizer+ngram?

Сообщение Anonymous »

Просматривая документацию по ngrams и различным векторизаторам, я наткнулся на токенизатор многословных выражений (MWETokenizer), который находит фразы в тексте и преобразует их в один токен.

Код: Выделить всё

from nltk.tokenize import MWETokenizer

sents = "in a nutshell"

mwe_tok = MWETokenizer()
mwe_tok.add_mwe(sents)
output = mwe_tok.tokenize(sents.split(" "))
результатом будет строка из трех слов, объединенных знаком "_".

Код: Выделить всё

["in", "a", "nutshell"] -> ["in_a_nutshell"]
здесь можно использовать векторизатор документов для определения частоты слов. Я заметил, что это можно сделать аналогичным образом, если установить значение ngram больше 1.

Код: Выделить всё

from nltk import ngrams

sents = "in a nutshell"
grams = ngrams(sents.split(), 3)
результатом будет кортеж из трех слов

Код: Выделить всё

["in", "a", "nutshell"] -> ("in", "a", "nutshell")
Код ngram, расположенный в CountVectorizer

Код: Выделить всё

count_vectorizer = CountVectorizer(ngram_range=(1, 3))
Каковы преимущества использования MWE по сравнению с установкой диапазона ngram? имеет ли это значение или эти двое выполняют одну и ту же функцию по-разному?
это скорее вопрос методологии и попытки понять, почему одна задача выполняется лучше другой или одна задача лучше, чем другой.

Подробнее здесь: https://stackoverflow.com/questions/786 ... rizerngram
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение
  • Pythion CountVectorizer: словарная ошибка
    Anonymous » » в форуме Python
    0 Ответы
    24 Просмотры
    Последнее сообщение Anonymous
  • Прогнозное распределение из модели kenlm ngram: как перебирать весь словарь?
    Гость » » в форуме C++
    0 Ответы
    39 Просмотры
    Последнее сообщение Гость
  • Список NGRAM Python с частотами
    Anonymous » » в форуме Python
    0 Ответы
    8 Просмотры
    Последнее сообщение Anonymous
  • Использование самостоятельного параметра в функции в Python для написания метода модели NGRAM для решения проблемы токен
    Anonymous » » в форуме Python
    0 Ответы
    2 Просмотры
    Последнее сообщение Anonymous
  • MySQL Полнотекстовый поиск с NGRAM PARSER не приоритет точным совпадениям слов
    Anonymous » » в форуме MySql
    0 Ответы
    28 Просмотры
    Последнее сообщение Anonymous

Вернуться в «Python»