У меня есть огромный объем данных, на которых я хотел бы провести классификацию kmean. Набор данных настолько велик, что я не могу загрузить файлы в память.
Моя идея состоит в том, чтобы запустить классификацию для некоторой части набора данных, например, для обучающего набора данных, а затем по частям применить классификацию к остальной части набора данных.
import pandas as pd
import pickle
from sklearn.cluster import KMeans
frames = [pd.read_hdf(fin) for fin in ifiles]
data = pd.concat(frames, ignore_index=True, axis=0)
data.dropna(inplace=True)
k = 12
x = pd.concat(data['A'], data['B'], data['C'], axis=1, keys=['A','B','C'])
model = KMeans(n_clusters=k, random_state=0, n_jobs = -2)
model.fit(x)
pickle.dump(model, open(filename, 'wb'))
Диаграмма двух параметров модели с цветовой кодировкой модели выглядит следующим образом:
Теперь я хочу загрузить модель и использовать ее для прогнозирования. В качестве тестового примера я загрузил те же данные (здесь не показаны) и пытаюсь спрогнозировать новый набор данных.
У меня есть огромный объем данных, на которых я хотел бы провести классификацию kmean. Набор данных настолько велик, что я не могу загрузить файлы в память.
Моя идея состоит в том, чтобы запустить классификацию для некоторой части набора данных, например, для обучающего набора данных, а затем по частям применить классификацию к остальной части набора данных.
[code]import pandas as pd import pickle from sklearn.cluster import KMeans
frames = [pd.read_hdf(fin) for fin in ifiles] data = pd.concat(frames, ignore_index=True, axis=0) data.dropna(inplace=True)
k = 12 x = pd.concat(data['A'], data['B'], data['C'], axis=1, keys=['A','B','C']) model = KMeans(n_clusters=k, random_state=0, n_jobs = -2) model.fit(x)
Диаграмма двух параметров модели с цветовой кодировкой модели выглядит следующим образом: [img]https ://i.sstatic.net/bQqS1.png[/img]
Теперь я хочу загрузить модель и использовать ее для прогнозирования. В качестве тестового примера я загрузил те же данные (здесь не показаны) и пытаюсь спрогнозировать новый набор данных.
Эти данные явно не кластеризуются. Что мне не хватает? Нужно ли мне каким-то образом исправить параметры модели?
Я попытался привести пример теста и набора данных поезда. Здесь тоже все идет не так. Мне явно чего-то не хватает:
[code]## Splitting data in a test and train data set sample_train, sample_test = train_test_split(x, test_size=0.50)
k = 12 ## Setting number of clusters model = KMeans(n_clusters=k, random_state=0, n_jobs = -2) ## Kmeans model train = model.fit(sample_train) ## Fitting the training data model.predict(sample_test) # Predicting the test data
У меня огромное количество данных, на которые я хотел бы запустить классификацию KMEAN. Набор данных настолько большой, что я не могу загрузить файлы в память.
Моя идея состоит в том, чтобы запустить классификацию в какой -то части набора данных,...
У меня огромное количество данных, на которые я хотел бы запустить классификацию KMEAN. Набор данных настолько большой, что я не могу загрузить файлы в память.
Моя идея состоит в том, чтобы запустить классификацию в какой -то части набора данных,...
Я хочу сохранить набор данных поезда, набор тестовых данных и набор данных проверки в трех отдельных папках.
Сделать это для обучения и тестирования легко
# Get training and testing data
all_training_data = getattr(datasets, config )(
root=...
Я хочу сохранить набор данных поезда, набор тестовых данных и набор данных проверки в трех отдельных папках.
Сделать это для обучения и тестирования легко
# Get training and testing data
all_training_data = getattr(datasets, config )(
root=...
Я пытаюсь улучшить свои заявки на участие в конкурсе цен на жилье Kaggle, который можно найти здесь. Я работаю с данными штата Айова, доступными здесь.
Я пытаюсь обучить и протестировать свою модель с помощью конвейера sklearn, перекрестной проверки...