Перекрестная проверка и проверка поездным тестом дают совершенно разные результаты по проблеме классификации текста.

Перекрестная проверка и проверка поездным тестом дают совершенно разные результаты по проблеме классификации текста. ⇐ Python

1 сообщение • Страница 1 из 1

Гость

Перекрестная проверка и проверка поездным тестом дают совершенно разные результаты по проблеме классификации текста.

Цитата

Сообщение Гость » 30 апр 2024, 08:25

Итак, я пытаюсь оценить модели классификации, используя только свой набор данных о поездах. Я пробовал использовать перекрестную проверку и разделение набора данных поездов на наборы данных тестирования поездов, но эти два подхода дают мне очень разные результаты.

Мое ограничение заключается в использовании SVM, Perceptron, линейной регрессии и Наивного-Байеса для моих проблема классификации, мера должна быть мерой микро f1, и мне нужно получить оценку микро f1 выше 0,70 на тестовом наборе данных, которого у меня нет (это означает, что я не смогу опробовать свое решение, пока оно не будет полностью завершено).
Строфа — это группа строк в стихотворении.
Это лишь часть предоставленного мне набора обучающих данных:< /p>

Код: Выделить всё

[
{
"stanza": "Ne znam sta misli devojka ta kako je mogla biti tako zla necu da cujem za njega i nju moju bivsu drugaricu",
"genre": "pop"
},
{
"stanza": "Mala sala ali dobar klub stojim, gledam naslonjen na stub u sali lom gore s plafona kaplje voda pravo na mikrofon u sali lom a mene gadja svaki ton",
"genre": "rock"
},
{
"stanza": "Sinoc zvezda s neba pade jedna ljubav s njom nestade nesta zvezde divnog sjaja nesta toplih zagrljaja",
"genre": "folk"
}
]

Во всем наборе данных у меня только три класса: поп, рок и фолк.
Мне нужно обучить модель с использованием обучающего набора данных, чтобы я мог прогнозировать жанр, основанный на строфе из тестового набора данных. В наборе обучающих данных у меня есть 1600 записей для каждого класса.
Вот как я выполнил перекрестную проверку:

Код: Выделить всё

import pandas as pd
from sklearn.svm import SVC
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import cross_validate

df = pd.read_json("data/train.json")

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(df["stanza"])
estimator = SVC()

scores = cross_validate(estimator=estimator,
X=X,
y=df["genre"],
scoring="f1_micro",
return_train_score=True,
cv=30)

Среднее значение test_score в баллах составляет около 0,54. Изменение cv не помогает.
Вот как я выполнил проверку поезд-тестом:

Код: Выделить всё

import pandas as pd
from sklearn.svm import SVC
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics import f1_score, classification_report

# Idea is to get random 100 samples from each class (each class has 1600 entries) and make them test dataset and rest to use as training dataset
test = df.groupby('genre').apply(lambda x: x.sample(100)).reset_index(drop=True)
train = df.drop(test.index)

vectorizer = CountVectorizer()
X_train = vectorizer.fit_transform(train["stanza"])
X_test = vectorizer.transform(test["stanza"])

svc = SVC()
svc.fit(X_train, train["genre"])
predictions = svc.predict(X_test)

score = f1_score(test["genre"], predictions, average="micro")
report = classification_report(test["genre"], predictions)

Оценка варьируется в районе 0,90. Я также предоставлю отчет о классификации, если это что-то значит.

Код: Выделить всё

              precision    recall  f1-score   support

folk       0.93      0.94      0.94       100
pop       0.92      0.85      0.89       100
rock       0.89      0.95      0.92       100

accuracy                           0.91       300
macro avg       0.91      0.91      0.91       300
weighted avg       0.91      0.91      0.91       300

Вот и все. Я не совсем уверен, все ли делаю так, как надо.
PS
Это решение использует базовые модели без предварительной обработки. В моем исходном решении я удаляю стоп-слова. Поскольку он написан на сербском языке, я не могу выполнять стемминг или лемматизацию, поэтому, если у вас есть какие-нибудь советы относительно того, что я могу использовать для предварительной обработки данных, чтобы они работали лучше, я буду благодарен. Я также пробовал использовать все модели из моего первого абзаца (хотя и не настраивал гиперпараметры) и векторизацию TF-IDF, но все это дает одинаковые результаты.

Подробнее здесь: https://stackoverflow.com/questions/784 ... ts-on-text

1714454710

Гость

Итак, я пытаюсь оценить модели классификации, используя только свой набор данных о поездах. Я пробовал использовать перекрестную проверку и разделение набора данных поездов на наборы данных тестирования поездов, но эти два подхода дают мне очень разные результаты.

Мое ограничение заключается в использовании SVM, Perceptron, линейной регрессии и Наивного-Байеса для моих проблема классификации, мера должна быть мерой микро f1, и мне нужно получить оценку микро f1 выше 0,70 на тестовом наборе данных, которого у меня нет (это означает, что я не смогу опробовать свое решение, пока оно не будет полностью завершено).
Строфа — это группа строк в стихотворении.
Это лишь часть предоставленного мне набора обучающих данных:< /p>
[code][
{
"stanza": "Ne znam sta misli devojka ta kako je mogla biti tako zla necu da cujem za njega i nju moju bivsu drugaricu",
"genre": "pop"
},
{
"stanza": "Mala sala ali dobar klub stojim, gledam naslonjen na stub u sali lom gore s plafona kaplje voda pravo na mikrofon u sali lom a mene gadja svaki ton",
"genre": "rock"
},
{
"stanza": "Sinoc zvezda s neba pade jedna ljubav s njom nestade nesta zvezde divnog sjaja nesta toplih zagrljaja",
"genre": "folk"
}
]
[/code]
Во всем наборе данных у меня только три класса: поп, рок и фолк.
Мне нужно обучить модель с использованием обучающего набора данных, чтобы я мог прогнозировать жанр, основанный на строфе из тестового набора данных. В наборе обучающих данных у меня есть 1600 записей для каждого класса.
Вот как я выполнил перекрестную проверку:
[code]import pandas as pd
from sklearn.svm import SVC
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import cross_validate

df = pd.read_json("data/train.json")

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(df["stanza"])
estimator = SVC()

scores = cross_validate(estimator=estimator,
X=X,
y=df["genre"],
scoring="f1_micro",
return_train_score=True,
cv=30)
[/code]
Среднее значение test_score в баллах составляет около [b]0,54[/b]. Изменение cv не помогает.
Вот как я выполнил проверку поезд-тестом:
[code]import pandas as pd
from sklearn.svm import SVC
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics import f1_score, classification_report

# Idea is to get random 100 samples from each class (each class has 1600 entries) and make them test dataset and rest to use as training dataset
test = df.groupby('genre').apply(lambda x: x.sample(100)).reset_index(drop=True)
train = df.drop(test.index)

vectorizer = CountVectorizer()
X_train = vectorizer.fit_transform(train["stanza"])
X_test = vectorizer.transform(test["stanza"])

svc = SVC()
svc.fit(X_train, train["genre"])
predictions = svc.predict(X_test)

score = f1_score(test["genre"], predictions, average="micro")
report = classification_report(test["genre"], predictions)
[/code]
Оценка варьируется в районе [b]0,90[/b]. Я также предоставлю отчет о классификации, если это что-то значит.
[code]              precision    recall  f1-score   support

folk       0.93      0.94      0.94       100
pop       0.92      0.85      0.89       100
rock       0.89      0.95      0.92       100

accuracy                           0.91       300
macro avg       0.91      0.91      0.91       300
weighted avg       0.91      0.91      0.91       300
[/code]
Вот и все. Я не совсем уверен, все ли делаю так, как надо.
PS
Это решение использует базовые модели без предварительной обработки. В моем исходном решении я удаляю стоп-слова. Поскольку он написан на сербском языке, я не могу выполнять стемминг или лемматизацию, поэтому, если у вас есть какие-нибудь советы относительно того, что я могу использовать для предварительной обработки данных, чтобы они работали лучше, я буду благодарен. Я также пробовал использовать все модели из моего первого абзаца (хотя и не настраивал гиперпараметры) и векторизацию TF-IDF, но все это дает одинаковые результаты. 

Подробнее здесь: [url]https://stackoverflow.com/questions/78406371/cross-validation-and-train-test-validation-giving-much-different-results-on-text[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Почему две разные модели логистической регрессии дают совершенно разные результаты на одних и тех же исходных данных?

Последнее сообщение Anonymous « 08 дек 2024, 18:41
Добавлено в форуме Python

Anonymous » 08 дек 2024, 18:41 » в форуме Python

Я искал похожие вопросы, но ни один из ответов не соответствует моей конкретной ситуации.
Я работаю с данными НФЛ, прогнозируя результаты игр. Мои исходные данные (используемые для обоих процессов ниже) состоят из примерно 3800 строк по 20 отдельных...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
08 дек 2024, 18:41
Почему две разные модели логистической регрессии дают совершенно разные результаты на одних и тех же исходных данных? [з

Последнее сообщение Anonymous « 08 дек 2024, 21:02
Добавлено в форуме Python

Anonymous » 08 дек 2024, 21:02 » в форуме Python

Я работаю с данными НФЛ и прогнозирую исходы игр. Мои исходные данные (используемые для обоих процессов ниже) состоят из примерно 3800 строк по 20 отдельных характеристик (по десять для каждой команды, плюс дата, идентификатор игры, команда хозяев и...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
08 дек 2024, 21:02
Почему даже эпохи не дают соответствующих результатов в проблеме бинарной классификации

Последнее сообщение Anonymous « 09 мар 2025, 22:38
Добавлено в форуме Python

Anonymous » 09 мар 2025, 22:38 » в форуме Python

Я хотел выполнить классификацию изображений, используя CNN, и теперь я получаю ненормальные результаты, потому что даже нет эпох, не работает, как ожидалось, даже если я изменю не эпохи
import os
import numpy as np
import pandas as pd
import...

0 Ответы

19 Просмотры

Последнее сообщение Anonymous
09 мар 2025, 22:38
Почему даже эпохи не дают соответствующих результатов в проблеме бинарной классификации

Последнее сообщение Anonymous « 10 мар 2025, 15:47
Добавлено в форуме Python

Anonymous » 10 мар 2025, 15:47 » в форуме Python

Я хотел выполнить классификацию изображений, используя CNN, и теперь я получаю ненормальные результаты, потому что даже нет эпох, не работает, как ожидалось, даже если я изменю не эпохи
import os
import numpy as np
import pandas as pd
import...

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
10 мар 2025, 15:47
Перекрестная проверка K-Fold дает противоречивые результаты после первой складки в обучении модели PyTorch

Последнее сообщение Anonymous « 14 ноя 2024, 08:31
Добавлено в форуме Python

Anonymous » 14 ноя 2024, 08:31 » в форуме Python

Я тренирую модель глубокого обучения с помощью PyTorch для классификации на уровне патчей, где я объединяю прогнозы патчей для определения статуса заражения на уровне пациента. Я использую 10-кратную перекрестную проверку с GroupKFold, чтобы...

0 Ответы

30 Просмотры

Последнее сообщение Anonymous
14 ноя 2024, 08:31

Вернуться в «Python»