LDA недоумение с расщеплением тестирования поезда приводит к абсурдным результатам (лучшая модель = 1 тема)

LDA недоумение с расщеплением тестирования поезда приводит к абсурдным результатам (лучшая модель = 1 тема) ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

LDA недоумение с расщеплением тестирования поезда приводит к абсурдным результатам (лучшая модель = 1 тема)

Цитата

Сообщение Anonymous » 15 апр 2025, 03:02

Я работаю с LDA над португальским новостным корпусом (~ 800 тыс. Документов в среднем 28 слов каждый после очистки данных), и я пытаюсь оценить качество темы, используя недоумение. Темы. Использование log_perplexity (corpus_test) может вводить в заблуждение, потому что он не выводит должного вывода распределений с тематическими документами (θ) для невидимых документов. Итак, я переключился на: < /p>
bound = lda_model.bound(corpus_test)
token_total = sum(cnt for doc in corpus_test for _, cnt in doc)
perplexity = np.exp(-bound / token_total)
< /code>
Но я все еще получаю одинаковое странное поведение: модели с большим количеством тем, последовательно имеют более высокую недоумение в данных тестирования, даже если их обучение сбитостью ниже, а их когерентные оценки лучше. Решение)? Спасибо! < /P>
Код: < /p>
df = dataframe.iloc[:100_000].copy()

train_and_test = []
for number_of_topics in [5, 25, 45, 65, 85]:

print(f'\033[1m{number_of_topics} topics.\033[0m')

KF = KFold(n_splits=5, shuffle=True, random_state=42)

iteration = 1
for train_indices, test_indices in KF.split(df):
print(f'K{iteration}...')
print('Preparing the corpora.')

train_df = df.iloc[train_indices].copy()
train_texts = train_df.corpus.apply(str.split).tolist()
train_dictionary = corpora.Dictionary(train_texts)
train_corpus = [train_dictionary.doc2bow(text) for text in train_texts]

test_df = df.iloc[test_indices].copy()
test_texts = test_df.corpus.apply(str.split).tolist()
test_corpus = [train_dictionary.doc2bow(text) for text in test_texts]

print('Running the LDA model!')
lda_model = LdaMulticore(corpus=train_corpus, id2word=train_dictionary,
num_topics=number_of_topics,
workers=mp.cpu_count(), passes=10)

bound = lda_model.bound(test_corpus)
tokens = sum(cnt for doc in test_corpus for _, cnt in doc)
perplexity = np.exp(-bound / tokens)
print(perplexity, '\n')

train_and_test.append([number_of_topics, iteration, perplexity])
iteration += 1

Подробнее здесь: https://stackoverflow.com/questions/795 ... odel-1-top

1744675333

Anonymous

 Я работаю с LDA над португальским новостным корпусом (~ 800 тыс. Документов в среднем 28 слов каждый после очистки данных), и я пытаюсь оценить качество темы, используя недоумение. Темы. Использование log_perplexity (corpus_test) может вводить в заблуждение, потому что он не выводит должного вывода распределений с тематическими документами (θ) для невидимых документов. Итак, я переключился на: < /p>
bound = lda_model.bound(corpus_test)
token_total = sum(cnt for doc in corpus_test for _, cnt in doc)
perplexity = np.exp(-bound / token_total)
< /code>
Но я все еще получаю одинаковое странное поведение: модели с большим количеством тем, последовательно имеют более высокую недоумение в данных тестирования, даже если их обучение сбитостью ниже, а их когерентные оценки лучше. Решение)? Спасибо! < /P>
Код: < /p>
df = dataframe.iloc[:100_000].copy()

train_and_test = []
for number_of_topics in [5, 25, 45, 65, 85]:

print(f'\033[1m{number_of_topics} topics.\033[0m')

KF = KFold(n_splits=5, shuffle=True, random_state=42)

iteration = 1
for train_indices, test_indices in KF.split(df):
print(f'K{iteration}...')
print('Preparing the corpora.')

train_df = df.iloc[train_indices].copy()
train_texts = train_df.corpus.apply(str.split).tolist()
train_dictionary = corpora.Dictionary(train_texts)
train_corpus = [train_dictionary.doc2bow(text) for text in train_texts]

test_df = df.iloc[test_indices].copy()
test_texts = test_df.corpus.apply(str.split).tolist()
test_corpus = [train_dictionary.doc2bow(text) for text in test_texts]

print('Running the LDA model!')
lda_model = LdaMulticore(corpus=train_corpus, id2word=train_dictionary,
num_topics=number_of_topics,
workers=mp.cpu_count(), passes=10)

bound = lda_model.bound(test_corpus)
tokens = sum(cnt for doc in test_corpus for _, cnt in doc)
perplexity = np.exp(-bound / tokens)
print(perplexity, '\n')

train_and_test.append([number_of_topics, iteration, perplexity])
iteration += 1
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79574195/lda-perplexity-with-train-test-split-leads-to-absurd-results-best-model-1-top[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Недоумение по поводу производительности Leetcode 11: почему мой ответ такой медленный по сравнению с этим? [закрыто]

Последнее сообщение Anonymous « 27 сен 2023, 06:05
Добавлено в форуме C++

Anonymous » 27 сен 2023, 06:05 » в форуме C++

Вот ссылка на вопрос. И мое решение, и самое быстрое решение основаны на одном и том же алгоритме.

Вот мое решение, умеренное, но без ошибок:

Класс Решение { публика: int maxArea(const std::vector &height) { uint32_t cur_v = 0; uint32_t тмп;...

0 Ответы

97 Просмотры

Последнее сообщение Anonymous
27 сен 2023, 06:05
Размер видео вызывает недоумение, когда я использую Android MediaRecorder для записи веб-видео с помощью VP8.

Последнее сообщение Anonymous « 09 май 2024, 18:39
Добавлено в форуме Android

Anonymous » 09 май 2024, 18:39 » в форуме Android

Я использую Android MediaRecorder для записи видео, размер видео нормальный при использовании H264 и H265, но ненормальный при переходе на WebM с VP8, например 480P, h264 — 480 x 720, а vp8 — 720 x 480, затем видео меняет ориентацию.
Кто подскажет,...

0 Ответы

105 Просмотры

Последнее сообщение Anonymous
09 май 2024, 18:39
Работа с расщеплением карт в Блэкджеке без изменения списка во время итерации

Последнее сообщение Anonymous « 11 фев 2025, 12:12
Добавлено в форуме Python

Anonymous » 11 фев 2025, 12:12 » в форуме Python

Я изучаю Python и работаю над самосовершенствованным проектом карточной игры - Blackjack. Согласно правилам, если у игрока есть начальная рука, где точки на каждой карте одинаковы, игрок может разделить руку на две части; Одна карта рассматривается...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
11 фев 2025, 12:12
Партнерская программа Stripe с расщеплением платежей [закрыто]

Последнее сообщение Anonymous « 27 май 2025, 21:45
Добавлено в форуме Javascript

Anonymous » 27 май 2025, 21:45 » в форуме Javascript

🎯 Цель:
Создайте многоуровневую партнерскую сеть для продукта SaaS на основе подписки с использованием полосы для обработки платежей, с отдельными панелями панелей, настраиваемыми комиссиями и расщеплением платежей для оптимизации налогов. (SAAS)....

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
27 май 2025, 21:45
Запустите Kafkalistner (тема 1) после другого Кафкалистнера (уплотненная тема 2) Завершено чтение сообщений

Последнее сообщение Anonymous « 17 июл 2025, 12:51
Добавлено в форуме JAVA

Anonymous » 17 июл 2025, 12:51 » в форуме JAVA

У меня есть сценарий, в котором я должен прочитать все сообщения из уплотненной темы (тема 2) с начала. Я должен сохранить все эти сообщения в памяти, которые будут действовать как поиск/кэш.

Подробнее здесь:

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
17 июл 2025, 12:51

Вернуться в «Python»