Список NGRAM Python с частотами - Цифровое Кемерово

Список NGRAM Python с частотами ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Цитата

Сообщение Anonymous » 11 фев 2025, 09:11

Мне нужно получить наиболее популярные NGRAM из текста. Длина ngrams должна быть от 1 до 5 слов. 

Я знаю, как получить биграмы и триграммы. Например: 

bigram_measures = nltk.collocations.BigramAssocMeasures()
finder = nltk.collocations.BigramCollocationFinder.from_words(words)
finder.apply_freq_filter(3)
finder.apply_word_filter(filter_stops)
matches1 = finder.nbest(bigram_measures.pmi, 20)
< /code>

Однако я обнаружил, что Scikit-learn может получать NGRAM с различной длиной. Например, я могу получить NGRAM с длиной от 1 до 5. 

v = CountVectorizer(analyzer=WordNGramAnalyzer(min_n=1, max_n=5))
< /code>

Но Wordngramanalyzer теперь устарел. Мой вопрос: Как я могу получить лучшие избирательными избирателями из моего текста, с длиной избирательств от 1 до 5. Также мне нужно получить Freqlist от этих колокатов/ngrams.

Могу ли я сделать это с NLTK /Scikit? Мне нужно получить комбинации NGRAM с различной длиной из одного текста? 

Например, используя NLTK Bigrams и триграммы, где многие ситуации, в которых мои триграммы включают мои битграммы или мои триграммы, являются частью более крупных 4-граммовых. Например:

bitgrams: hello my
trigrams: Привет, мое имя
Я знаю, как исключить биграмы из триграмм, но мне нужны лучшие решения. 

Подробнее здесь: https://stackoverflow.com/questions/117 ... requencies

1739254283

Anonymous

 Мне нужно получить наиболее популярные NGRAM из текста. Длина ngrams должна быть от 1 до 5 слов. < /p>

Я знаю, как получить биграмы и триграммы. Например: < /p>

bigram_measures = nltk.collocations.BigramAssocMeasures()
finder = nltk.collocations.BigramCollocationFinder.from_words(words)
finder.apply_freq_filter(3)
finder.apply_word_filter(filter_stops)
matches1 = finder.nbest(bigram_measures.pmi, 20)
< /code>

Однако я обнаружил, что Scikit-learn может получать NGRAM с различной длиной. Например, я могу получить NGRAM с длиной от 1 до 5. < /P>

v = CountVectorizer(analyzer=WordNGramAnalyzer(min_n=1, max_n=5))
< /code>

Но Wordngramanalyzer теперь устарел. Мой вопрос:  Как я могу получить лучшие избирательными избирателями из моего текста, с длиной избирательств от 1 до 5. Также мне нужно получить Freqlist от этих колокатов/ngrams.  

Могу ли я сделать это с NLTK /Scikit? Мне нужно получить комбинации NGRAM с различной длиной из одного текста? < /p>

Например, используя NLTK Bigrams и триграммы, где многие ситуации, в которых мои триграммы включают мои битграммы или мои триграммы, являются частью более крупных 4-граммовых. Например: 

bitgrams: [b] hello my [/b]
trigrams: [b] Привет, мое имя [/b] 
Я знаю, как исключить биграмы из триграмм, но мне нужны лучшие решения. < /p> 

Подробнее здесь: [url]https://stackoverflow.com/questions/11763613/python-list-of-ngrams-with-frequencies[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Чего ожидать при использовании CombineLatestStream с дросселем для потоков с разными частотами?

Последнее сообщение Anonymous « 31 янв 2025, 19:56
Добавлено в форуме Android

Anonymous » 31 янв 2025, 19:56 » в форуме Android

Я пытаюсь объединить 3 потока

Поток акселерометра от Sensors_plus
Поток ориентации от Flutter_Rotation_sensor
Поток местоположения от геолокатора

im Использование CombineLateSteream от RxDart для объединения этих потоков и то, что я...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
31 янв 2025, 19:56
Использование самостоятельного параметра в функции в Python для написания метода модели NGRAM для решения проблемы токен

Последнее сообщение Anonymous « 27 июн 2025, 23:01
Добавлено в форуме Python

Anonymous » 27 июн 2025, 23:01 » в форуме Python

Я применяю программирование Python, чтобы написать метод для вызова модели NGRAM для выполнения токенизатина, чтобы отделить контент с помощью WebScrapped от финансового веб-сайта на несколько слов, называемых токенами, либо это может быть...

0 Ответы

3 Просмотры

Последнее сообщение Anonymous
27 июн 2025, 23:01
Прогнозное распределение из модели kenlm ngram: как перебирать весь словарь?

Последнее сообщение Гость « 13 окт 2023, 17:45
Добавлено в форуме C++

Гость » 13 окт 2023, 17:45 » в форуме C++

Я пытаюсь получить прогнозируемое распределение возможных следующих слов в предложении с учетом предыдущих слов из модели ngram через kenlm. Я придумал, как сделать что-то близкое к этому, адаптировав Query() из ngram_query.hh, как показано ниже, но...

0 Ответы

40 Просмотры

Последнее сообщение Гость
13 окт 2023, 17:45
В чем разница между MWE Tokenizer и countvectorizer+ngram?

Последнее сообщение Anonymous « 03 июл 2024, 05:01
Добавлено в форуме Python

Anonymous » 03 июл 2024, 05:01 » в форуме Python

Просматривая документацию по ngrams и различным векторизаторам, я наткнулся на токенизатор многословных выражений (MWETokenizer), который находит фразы в тексте и преобразует их в один токен.
from nltk.tokenize import MWETokenizer

sents = in a...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
03 июл 2024, 05:01
MySQL Полнотекстовый поиск с NGRAM PARSER не приоритет точным совпадениям слов

Последнее сообщение Anonymous « 20 авг 2025, 16:16
Добавлено в форуме MySql

Anonymous » 20 авг 2025, 16:16 » в форуме MySql

Я включил полнотекстовый индекс в моей таблице MySQL с анализатором NGRAM, как показано ниже:
SHOW VARIABLES LIKE 'ngram_token_size'; -- Default set to 2

ALTER TABLE MyTable ADD FULLTEXT INDEX FT_MyTable (value) WITH PARSER ngram;
OPTIMIZE TABLE...

0 Ответы

44 Просмотры

Последнее сообщение Anonymous
20 авг 2025, 16:16

Вернуться в «Python»