Python: загрузка набора обучающих данных kmeans и его использование для прогнозирования нового набора данных

Python: загрузка набора обучающих данных kmeans и его использование для прогнозирования нового набора данных ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Python: загрузка набора обучающих данных kmeans и его использование для прогнозирования нового набора данных

Цитата

Сообщение Anonymous » 17 окт 2024, 23:08

У меня есть огромный объем данных, на которых я хотел бы провести классификацию kmean. Набор данных настолько велик, что я не могу загрузить файлы в память.

Моя идея состоит в том, чтобы запустить классификацию для некоторой части набора данных, например, для обучающего набора данных, а затем по частям применить классификацию к остальной части набора данных.

Код: Выделить всё

import pandas as pd
import pickle
from sklearn.cluster import KMeans

frames = [pd.read_hdf(fin) for fin in ifiles]
data = pd.concat(frames, ignore_index=True, axis=0)
data.dropna(inplace=True)

k = 12
x  = pd.concat(data['A'], data['B'], data['C'], axis=1, keys=['A','B','C'])
model = KMeans(n_clusters=k, random_state=0, n_jobs = -2)
model.fit(x)

pickle.dump(model, open(filename, 'wb'))

x выглядит так:

Код: Выделить всё

array([[-2.26732099,  0.24895614,  2.34840191],
[-2.26732099,  0.22270912,  1.88942378],
[-1.99246557,  0.04154312,  2.63458941],
...,
[-4.29596287,  1.97036309, -0.22767511],
[-4.26055474,  1.72347591, -0.18185197],
[-4.15980382,  1.73176239, -0.30781225]])

Модель выглядит так:

Код: Выделить всё

KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300,
n_clusters=12, n_init=10, n_jobs=-2, precompute_distances='auto',
random_state=0, tol=0.0001, verbose=0)

Диаграмма двух параметров модели с цветовой кодировкой модели выглядит следующим образом:

Теперь я хочу загрузить модель и использовать ее для прогнозирования. В качестве тестового примера я загрузил те же данные (здесь не показаны) и пытаюсь спрогнозировать новый набор данных.

Код: Выделить всё

modelnew = pickle.load(open('test.pkl', 'rb'))
modelnew.predict(x)

Результат:

Эти данные явно не кластеризуются. Что мне не хватает? Нужно ли мне каким-то образом исправить параметры модели?

Я попытался привести пример теста и набора данных поезда. Здесь тоже все идет не так. Мне явно чего-то не хватает:

Код: Выделить всё

## Splitting data in a test and train data set
sample_train, sample_test = train_test_split(x, test_size=0.50)

k = 12 ## Setting number of clusters
model = KMeans(n_clusters=k, random_state=0, n_jobs = -2) ## Kmeans model
train = model.fit(sample_train) ## Fitting the training data
model.predict(sample_test) # Predicting the test data

centroids =  model.cluster_centers_
labels = model.labels_

## Figures
cmap_model = np.array(['red', 'lime', 'black', 'green', 'orange', 'blue', 'gray', 'magenta', 'cyan', 'purple', 'pink', 'lightblue', 'brown', 'yellow'])
plt.figure()
plt.scatter(sample_train[:,0], sample_train[:,1], c=cmap_model[train.labels_], s=10, edgecolors='none')
plt.scatter(centroids[:, 0], centroids[:, 1], c=cmap_model,  marker = "x", s=150, linewidths = 5, zorder = 10)

plt.figure()
plt.scatter(sample_test[:,0], sample_test[:,1], c=cmap_model[labels], s=10, edgecolors='none')
plt.scatter(centroids[:, 0], centroids[:, 1], c=cmap_model,  marker = "x", s=150, linewidths = 5, zorder = 10)
plt.show()

Данные поезда:

< /p>

Данные теста:

Подробнее здесь: https://stackoverflow.com/questions/430 ... ew-dataset

1729195690

Anonymous

У меня есть огромный объем данных, на которых я хотел бы провести классификацию kmean. Набор данных настолько велик, что я не могу загрузить файлы в память. 

Моя идея состоит в том, чтобы запустить классификацию для некоторой части набора данных, например, для обучающего набора данных, а затем по частям применить классификацию к остальной части набора данных. 

[code]import pandas as pd
import pickle
from sklearn.cluster import KMeans

frames = [pd.read_hdf(fin) for fin in ifiles]
data = pd.concat(frames, ignore_index=True, axis=0)
data.dropna(inplace=True)

k = 12
x  = pd.concat(data['A'], data['B'], data['C'], axis=1, keys=['A','B','C'])
model = KMeans(n_clusters=k, random_state=0, n_jobs = -2)
model.fit(x)

pickle.dump(model, open(filename, 'wb'))
[/code]

x выглядит так: 

[code]array([[-2.26732099,  0.24895614,  2.34840191],
[-2.26732099,  0.22270912,  1.88942378],
[-1.99246557,  0.04154312,  2.63458941],
...,
[-4.29596287,  1.97036309, -0.22767511],
[-4.26055474,  1.72347591, -0.18185197],
[-4.15980382,  1.73176239, -0.30781225]])
[/code]

Модель выглядит так:

[code]KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300,
n_clusters=12, n_init=10, n_jobs=-2, precompute_distances='auto',
random_state=0, tol=0.0001, verbose=0)
[/code]

Диаграмма двух параметров модели с цветовой кодировкой модели выглядит следующим образом:
[img]https ://i.sstatic.net/bQqS1.png[/img]


Теперь я хочу загрузить модель и использовать ее для прогнозирования. В качестве тестового примера я загрузил те же данные (здесь не показаны) и пытаюсь спрогнозировать новый набор данных.

[code]modelnew = pickle.load(open('test.pkl', 'rb'))
modelnew.predict(x)
[/code]

Результат:
[img]https://i.sstatic.net/gEanC.png[/img]


Эти данные явно не кластеризуются. Что мне не хватает? Нужно ли мне каким-то образом исправить параметры модели?

Я попытался привести пример теста и набора данных поезда. Здесь тоже все идет не так. Мне явно чего-то не хватает:

[code]## Splitting data in a test and train data set
sample_train, sample_test = train_test_split(x, test_size=0.50)

k = 12 ## Setting number of clusters
model = KMeans(n_clusters=k, random_state=0, n_jobs = -2) ## Kmeans model
train = model.fit(sample_train) ## Fitting the training data
model.predict(sample_test) # Predicting the test data

centroids =  model.cluster_centers_
labels = model.labels_

## Figures
cmap_model = np.array(['red', 'lime', 'black', 'green', 'orange', 'blue', 'gray', 'magenta', 'cyan', 'purple', 'pink', 'lightblue', 'brown', 'yellow'])
plt.figure()
plt.scatter(sample_train[:,0], sample_train[:,1], c=cmap_model[train.labels_], s=10, edgecolors='none')
plt.scatter(centroids[:, 0], centroids[:, 1], c=cmap_model,  marker = "x", s=150, linewidths = 5, zorder = 10)

plt.figure()
plt.scatter(sample_test[:,0], sample_test[:,1], c=cmap_model[labels], s=10, edgecolors='none')
plt.scatter(centroids[:, 0], centroids[:, 1], c=cmap_model,  marker = "x", s=150, linewidths = 5, zorder = 10)
plt.show()
[/code]

Данные поезда:
[img]https://i.sstatic.net/ImStY.png[/img]
< /p>

Данные теста:
[img]https://i.sstatic.net/hZpKS.png[/img]
 

Подробнее здесь: [url]https://stackoverflow.com/questions/43049270/python-loading-a-kmeans-training-dataset-and-using-it-to-predict-a-new-dataset[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Python: загрузка учебного набора Kmeans и использования его для прогнозирования нового набора данных

Последнее сообщение Anonymous « 17 фев 2025, 12:00
Добавлено в форуме Python

Anonymous » 17 фев 2025, 12:00 » в форуме Python

У меня огромное количество данных, на которые я хотел бы запустить классификацию KMEAN. Набор данных настолько большой, что я не могу загрузить файлы в память.

Моя идея состоит в том, чтобы запустить классификацию в какой -то части набора данных,...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
17 фев 2025, 12:00
Python: загрузка учебного набора Kmeans и использования его для прогнозирования нового набора данных

Последнее сообщение Anonymous « 19 июн 2025, 19:04
Добавлено в форуме Python

Anonymous » 19 июн 2025, 19:04 » в форуме Python

У меня огромное количество данных, на которые я хотел бы запустить классификацию KMEAN. Набор данных настолько большой, что я не могу загрузить файлы в память.

Моя идея состоит в том, чтобы запустить классификацию в какой -то части набора данных,...

0 Ответы

2 Просмотры

Последнее сообщение Anonymous
19 июн 2025, 19:04
Сохраните на диск набор обучающих данных и набор проверочных данных отдельно в PyTorch.

Последнее сообщение Anonymous « 21 окт 2024, 10:47
Добавлено в форуме Python

Anonymous » 21 окт 2024, 10:47 » в форуме Python

Я хочу сохранить набор данных поезда, набор тестовых данных и набор данных проверки в трех отдельных папках.
Сделать это для обучения и тестирования легко
# Get training and testing data
all_training_data = getattr(datasets, config )(
root=...

0 Ответы

27 Просмотры

Последнее сообщение Anonymous
21 окт 2024, 10:47
Сохраните на диск набор обучающих данных и набор проверочных данных отдельно в PyTorch.

Последнее сообщение Anonymous « 24 окт 2024, 22:12
Добавлено в форуме Python

Anonymous » 24 окт 2024, 22:12 » в форуме Python

Я хочу сохранить набор данных поезда, набор тестовых данных и набор данных проверки в трех отдельных папках.
Сделать это для обучения и тестирования легко
# Get training and testing data
all_training_data = getattr(datasets, config )(
root=...

0 Ответы

34 Просмотры

Последнее сообщение Anonymous
24 окт 2024, 22:12
Как импутировать тестовые данные с вмененными значениями обучающих данных с помощью GridSearchCV и sklearn Pipeline

Последнее сообщение Anonymous « 08 окт 2024, 20:39
Добавлено в форуме Python

Anonymous » 08 окт 2024, 20:39 » в форуме Python

Я пытаюсь улучшить свои заявки на участие в конкурсе цен на жилье Kaggle, который можно найти здесь. Я работаю с данными штата Айова, доступными здесь.
Я пытаюсь обучить и протестировать свою модель с помощью конвейера sklearn, перекрестной проверки...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
08 окт 2024, 20:39

Вернуться в «Python»