В чем разница между MWE Tokenizer и countvectorizer+ngram? - Цифровое Кемерово

В чем разница между MWE Tokenizer и countvectorizer+ngram? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

В чем разница между MWE Tokenizer и countvectorizer+ngram?

Цитата

Сообщение Anonymous » 03 июл 2024, 05:01

Просматривая документацию по ngrams и различным векторизаторам, я наткнулся на токенизатор многословных выражений (MWETokenizer), который находит фразы в тексте и преобразует их в один токен.

Код: Выделить всё

from nltk.tokenize import MWETokenizer

sents = "in a nutshell"

mwe_tok = MWETokenizer()
mwe_tok.add_mwe(sents)
output = mwe_tok.tokenize(sents.split(" "))

результатом будет строка из трех слов, объединенных знаком "_".

Код: Выделить всё

["in", "a", "nutshell"] -> ["in_a_nutshell"]

здесь можно использовать векторизатор документов для определения частоты слов. Я заметил, что это можно сделать аналогичным образом, если установить значение ngram больше 1.

Код: Выделить всё

from nltk import ngrams

sents = "in a nutshell"
grams = ngrams(sents.split(), 3)

результатом будет кортеж из трех слов

Код: Выделить всё

["in", "a", "nutshell"] -> ("in", "a", "nutshell")

Код ngram, расположенный в CountVectorizer

Код: Выделить всё

count_vectorizer = CountVectorizer(ngram_range=(1, 3))

Каковы преимущества использования MWE по сравнению с установкой диапазона ngram? имеет ли это значение или эти двое выполняют одну и ту же функцию по-разному?
это скорее вопрос методологии и попытки понять, почему одна задача выполняется лучше другой или одна задача лучше, чем другой.

Подробнее здесь: https://stackoverflow.com/questions/786 ... rizerngram

Реклама

1719972097

Anonymous

Просматривая документацию по ngrams и различным векторизаторам, я наткнулся на токенизатор многословных выражений (MWETokenizer), который находит фразы в тексте и преобразует их в один токен.
[code]from nltk.tokenize import MWETokenizer

sents = "in a nutshell"

mwe_tok = MWETokenizer()
mwe_tok.add_mwe(sents)
output = mwe_tok.tokenize(sents.split(" "))
[/code]
результатом будет строка из трех слов, объединенных знаком "_".
[code]["in", "a", "nutshell"] -> ["in_a_nutshell"]
[/code]
здесь можно использовать векторизатор документов для определения частоты слов. Я заметил, что это можно сделать аналогичным образом, если установить значение ngram больше 1.
[code]from nltk import ngrams

sents = "in a nutshell"
grams = ngrams(sents.split(), 3)
[/code]
результатом будет кортеж из трех слов
[code]["in", "a", "nutshell"] -> ("in", "a", "nutshell")
[/code]
Код ngram, расположенный в CountVectorizer
[code]count_vectorizer = CountVectorizer(ngram_range=(1, 3))
[/code]
Каковы преимущества использования MWE по сравнению с установкой диапазона ngram? имеет ли это значение или эти двое выполняют одну и ту же функцию по-разному?
это скорее вопрос методологии и попытки понять, почему одна задача выполняется лучше другой или одна задача лучше, чем другой. 

Подробнее здесь: [url]https://stackoverflow.com/questions/78699803/what-is-the-difference-between-mwe-tokenizer-and-countvectorizerngram[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Pythion CountVectorizer: словарная ошибка

Последнее сообщение Anonymous « 26 сен 2024, 16:51
Добавлено в форуме Python

Anonymous » 26 сен 2024, 16:51 » в форуме Python

Я работаю над руководством по адресу

К сожалению Мне не удается пройти мимо Vectorizer.fit(X_train). Поисковики по блогам для InvalidParameterError указывают, что причина кроется в stop_words. Однако я не знаю решения. Я попробовал использовать...

0 Ответы

24 Просмотры

Последнее сообщение Anonymous
26 сен 2024, 16:51
Прогнозное распределение из модели kenlm ngram: как перебирать весь словарь?

Последнее сообщение Гость « 13 окт 2023, 17:45
Добавлено в форуме C++

Гость » 13 окт 2023, 17:45 » в форуме C++

Я пытаюсь получить прогнозируемое распределение возможных следующих слов в предложении с учетом предыдущих слов из модели ngram через kenlm. Я придумал, как сделать что-то близкое к этому, адаптировав Query() из ngram_query.hh, как показано ниже, но...

0 Ответы

39 Просмотры

Последнее сообщение Гость
13 окт 2023, 17:45
Список NGRAM Python с частотами

Последнее сообщение Anonymous « 11 фев 2025, 09:11
Добавлено в форуме Python

Anonymous » 11 фев 2025, 09:11 » в форуме Python

Мне нужно получить наиболее популярные NGRAM из текста. Длина ngrams должна быть от 1 до 5 слов.

Я знаю, как получить биграмы и триграммы. Например:

bigram_measures = nltk.collocations.BigramAssocMeasures()
finder =...

0 Ответы

8 Просмотры

Последнее сообщение Anonymous
11 фев 2025, 09:11
Использование самостоятельного параметра в функции в Python для написания метода модели NGRAM для решения проблемы токен

Последнее сообщение Anonymous « 27 июн 2025, 23:01
Добавлено в форуме Python

Anonymous » 27 июн 2025, 23:01 » в форуме Python

Я применяю программирование Python, чтобы написать метод для вызова модели NGRAM для выполнения токенизатина, чтобы отделить контент с помощью WebScrapped от финансового веб-сайта на несколько слов, называемых токенами, либо это может быть...

0 Ответы

2 Просмотры

Последнее сообщение Anonymous
27 июн 2025, 23:01
MySQL Полнотекстовый поиск с NGRAM PARSER не приоритет точным совпадениям слов

Последнее сообщение Anonymous « 20 авг 2025, 16:16
Добавлено в форуме MySql

Anonymous » 20 авг 2025, 16:16 » в форуме MySql

Я включил полнотекстовый индекс в моей таблице MySQL с анализатором NGRAM, как показано ниже:
SHOW VARIABLES LIKE 'ngram_token_size'; -- Default set to 2

ALTER TABLE MyTable ADD FULLTEXT INDEX FT_MyTable (value) WITH PARSER ngram;
OPTIMIZE TABLE...

0 Ответы

28 Просмотры

Последнее сообщение Anonymous
20 авг 2025, 16:16

Вернуться в «Python»

Programmiererforum