Y имеет только четыре значения или меньше, в то время как мой предварительно предварительно представлен DataFrame более

Y имеет только четыре значения или меньше, в то время как мой предварительно предварительно представлен DataFrame более ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Y имеет только четыре значения или меньше, в то время как мой предварительно предварительно представлен DataFrame более

Цитата

Сообщение Anonymous » 25 янв 2025, 17:51

Мой набор данных предназначен для прогнозирования количества кухонь определенного района Сеула на основе количества домохозяйств, состоящих из одного человека.
Проблема: количество строк в необработанных данных составляет более 100 000. Но мне нужно проанализировать два ограниченных района с двумя истинными значениями в каждом.
Я использовал обучение без учителя (кластеризация KMeans), начальную загрузку и намеренно задал шум, чтобы соответствовать модели. Но, похоже, это не работает. Может ли кто-нибудь подсказать мне, как с этим справиться?
Мой инструктор хочет, чтобы я построил регрессионную модель.
Но кажется, что это невозможно, как и сказал ChatGPT 20 раз.Код (y с произвольным шумом, 97,8% r2_score для каждых двух кластеров, но отклонен):

Код: Выделить всё

import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings("ignore")
\# loading data rest_data_path = '서울시 휴게음식점 인허가 정보.csv'
one_person_data_path = '1인가구(연령별).csv'
rest_data = pd.read_csv(rest_data_path, encoding='utf-8')
one_person_data = pd.read_csv(one_person_data_path, encoding='utf-8')

# preprocessing data
one_person_data = one_person_data.rename(columns={'자치구별(2)': '자치구'})
one_person_data_cleaned = one_person_data[one_person_data['자치구'] != '자치구별(2)']
one_person_data_cleaned['2023_합계'] = one_person_data_cleaned.loc[:, '2023':'2023.15'].apply(
pd.to_numeric, errors='coerce').sum(axis=1)
one_person_summary = one_person_data_cleaned[['자치구', '2023_합계']]

rest_data_cleaned = rest_data.rename(columns={'지번주소': '주소'})
rest_data_cleaned['자치구'] = rest_data_cleaned['주소'].str.split(' ').str[1]

merged_data = pd.merge(rest_data_cleaned, one_person_summary, on='자치구', how='left')

# add noise
np.random.seed(42)
noise = np.random.normal(0, 0.05 * merged_data['2023_합계'].std(), size=merged_data.shape[0])
merged_data['y'] = merged_data['2023_합계'] + noise

# save data
result_continuous = merged_data[['자치구', '주소', '2023_합계', 'y']].dropna()

# output
result_continuous'
< /code>
 output < /strong> < /p>

   자치구                 주소           2023_합계           y

\5 Кванакгу, Сеул 1562-17 Пончхондон, Кванакгу, Сеул 159036.0 158422.996610

\6 Кванакгу, Сеул 1562-17 Пончхондон, Кванакгу, особый город 142454.0 146588.600626

\18 Кванак-гу, Сеул 1538-14 Силлим-дон, Кванак-гу, Сеул 159036.0 156658.665625

\19 Кванак-гу 1538-14 Силлим-дон, Кванакгу, Сеул 142454.0 138756.390843

\46 Кванак-гу 1519-22 Силлим-дон, Кванак-гу, Сеул 159036.0 157829.983096

\... ... ... ... . ..
\142131 Апартаменты Donga Cheongsol, 808 Чанг-дон, Добонг-гу, Сеул, Добонг-гу Комната 209, торговый корпус 46250.0 43593.821116

\142138 Кванак-гу, Сеул 1458-4 Силлим-дон, Кванак-гу, Сеул Сентервилль 13th 159036.0 157758.991278

\142139 Кванак- гу, Сеул Кванак-гу Силлим-дон 1458-4 Centerville 13th 142454.0 140637.617424

\142142 Кванак-гу Сеул 928-1 Пончхон-дон, здание Кванак-гу Ухён 159036.0 158889.888720

\142143 Гванак- гу Здание Ухён, 928-1 Пончхондон, Кванакгу, Сеул 142454.0 142926.767535

\14162 строки × 4 столбца\

from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import StandardScaler

columns_to_encode = ['자치구']

columns_to_exclude = ['2023_합계']

encoder = OneHotEncoder(sparse_output=False) # drop='first'로 다중공선성 방지
encoded_columns = encoder.fit_transform(result_continuous[columns_to_encode])
encoded_column_names = encoder.get_feature_names_out(columns_to_encode)

encoded_df = pd.DataFrame(encoded_columns, columns=encoded_column_names, index=result_continuous.index)

processed_data = result_continuous.drop(columns=columns_to_encode + columns_to_exclude)
final_data = pd.concat([processed_data, encoded_df], axis=1)
final_data['주소_hash'] = result_continuous['주소'].apply(hash)
final_data = final_data.drop(columns=['주소']) # 원래 주소 열 제거
y = np.log1p(final_data[['y']])
final_data.drop(['y'], axis=1, inplace=True)
scaler = StandardScaler()
final_data_scaled = scaler.fit_transform(final_data)
final_data_scaled, y
< /code>
output < /strong> < /p>

(array([[ 0.72281968, -0.72281968, 1.14388039],
[ 0.72281968, -0.72281968, 1.14388039],
[ 0.72281968, -0.72281968, -0.74799056],
...,
[ 0.72281968, -0.72281968, 0.60622321],
[ 0.72281968, -0.72281968, 0.14385426],
[ 0.72281968, -0.72281968, 0.14385426]]),`
y
5 11.973030
6 11.895392
18 11.961831
19 11.840482
46 11.969280
... ...
142131 10.682694
142138 11.968830
142139 11.853949
142142 11.975973
142143 11.870095

[14162 rows x 1 columns]

Подробнее здесь: https://stackoverflow.com/questions/793 ... ore-than-4

1737816692

Anonymous

Мой набор данных предназначен для прогнозирования количества кухонь определенного района Сеула на основе количества домохозяйств, состоящих из одного человека.
Проблема: количество строк в необработанных данных составляет более 100 000. Но мне нужно проанализировать два ограниченных района с двумя истинными значениями в каждом.
Я использовал обучение без учителя (кластеризация KMeans), начальную загрузку и намеренно задал шум, чтобы соответствовать модели. Но, похоже, это не работает. Может ли кто-нибудь подсказать мне, как с этим справиться?
Мой инструктор хочет, чтобы я построил регрессионную модель.
Но кажется, что это невозможно, как и сказал ChatGPT 20 раз.Код (y с произвольным шумом, 97,8% r2_score для каждых двух кластеров, но отклонен):
[code]import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings("ignore")
\# loading data rest_data_path = '서울시 휴게음식점 인허가 정보.csv'
one_person_data_path = '1인가구(연령별).csv'
rest_data = pd.read_csv(rest_data_path, encoding='utf-8')
one_person_data = pd.read_csv(one_person_data_path, encoding='utf-8')

# preprocessing data
one_person_data = one_person_data.rename(columns={'자치구별(2)': '자치구'})
one_person_data_cleaned = one_person_data[one_person_data['자치구'] != '자치구별(2)']
one_person_data_cleaned['2023_합계'] = one_person_data_cleaned.loc[:, '2023':'2023.15'].apply(
pd.to_numeric, errors='coerce').sum(axis=1)
one_person_summary = one_person_data_cleaned[['자치구', '2023_합계']]

rest_data_cleaned = rest_data.rename(columns={'지번주소': '주소'})
rest_data_cleaned['자치구'] = rest_data_cleaned['주소'].str.split(' ').str[1]

merged_data = pd.merge(rest_data_cleaned, one_person_summary, on='자치구', how='left')

# add noise
np.random.seed(42)
noise = np.random.normal(0, 0.05 * merged_data['2023_합계'].std(), size=merged_data.shape[0])
merged_data['y'] = merged_data['2023_합계'] + noise

# save data
result_continuous = merged_data[['자치구', '주소', '2023_합계', 'y']].dropna()

# output
result_continuous'
< /code>
 output < /strong> < /p>

   자치구                 주소           2023_합계           y
[/code]


\5 Кванакгу, Сеул 1562-17 Пончхондон, Кванакгу, Сеул 159036.0 158422.996610

\6 Кванакгу, Сеул 1562-17 Пончхондон, Кванакгу, особый город 142454.0 146588.600626

\18 Кванак-гу, Сеул 1538-14 Силлим-дон, Кванак-гу, Сеул 159036.0 156658.665625

\19 Кванак-гу 1538-14 Силлим-дон, Кванакгу, Сеул 142454.0 138756.390843

\46 Кванак-гу 1519-22 Силлим-дон, Кванак-гу, Сеул 159036.0 157829.983096

\... ... ... ... . ..
\142131 Апартаменты Donga Cheongsol, 808 Чанг-дон, Добонг-гу, Сеул, Добонг-гу Комната 209, торговый корпус 46250.0 43593.821116

\142138 Кванак-гу, Сеул 1458-4 Силлим-дон, Кванак-гу, Сеул Сентервилль 13th 159036.0 157758.991278

\142139 Кванак- гу, Сеул Кванак-гу Силлим-дон 1458-4 Centerville 13th 142454.0 140637.617424

\142142 Кванак-гу Сеул 928-1 Пончхон-дон, здание Кванак-гу Ухён 159036.0 158889.888720

\142143 Гванак- гу Здание Ухён, 928-1 Пончхондон, Кванакгу, Сеул 142454.0 142926.767535

\14162 строки × 4 столбца\

from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import StandardScaler

columns_to_encode = ['자치구']

columns_to_exclude = ['2023_합계']

encoder = OneHotEncoder(sparse_output=False)  # drop='first'로 다중공선성 방지
encoded_columns = encoder.fit_transform(result_continuous[columns_to_encode])
encoded_column_names = encoder.get_feature_names_out(columns_to_encode)

encoded_df = pd.DataFrame(encoded_columns, columns=encoded_column_names, index=result_continuous.index)

processed_data = result_continuous.drop(columns=columns_to_encode + columns_to_exclude)
final_data = pd.concat([processed_data, encoded_df], axis=1)
final_data['주소_hash'] = result_continuous['주소'].apply(hash)
final_data = final_data.drop(columns=['주소'])  # 원래 주소 열 제거
y = np.log1p(final_data[['y']])
final_data.drop(['y'], axis=1, inplace=True)
scaler = StandardScaler()
final_data_scaled = scaler.fit_transform(final_data)
final_data_scaled, y
< /code>
 output < /strong> < /p>

(array([[ 0.72281968, -0.72281968,  1.14388039],
[ 0.72281968, -0.72281968,  1.14388039],
[ 0.72281968, -0.72281968, -0.74799056],
...,
[ 0.72281968, -0.72281968,  0.60622321],
[ 0.72281968, -0.72281968,  0.14385426],
[ 0.72281968, -0.72281968,  0.14385426]]),`
y
5       11.973030
6       11.895392
18      11.961831
19      11.840482
46      11.969280
...            ...
142131  10.682694
142138  11.968830
142139  11.853949
142142  11.975973
142143  11.870095

[14162 rows x 1 columns] 

Подробнее здесь: [url]https://stackoverflow.com/questions/79386587/y-has-only-four-values-or-less-while-my-preprocessed-dataframe-has-more-than-4[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Улучшение вычислительного времени и использования памяти расчета большой матрицы, которая имеет четыре петли

Последнее сообщение Anonymous « 14 фев 2025, 19:56
Добавлено в форуме Python

Anonymous » 14 фев 2025, 19:56 » в форуме Python

Я хочу рассчитать матрицу g , что ее элементы являются скалярными и рассчитываются как:

Я хочу рассчитать эту матрицу для большой n> 10000, d> 30. Мой код ниже, но он имеет огромные накладные расходы, и это все еще занимает очень много времени....

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
14 фев 2025, 19:56
Как удалить верхние и правые метки на моем участке matplot.lib в Юпитере, который имеет четыре меток долготы и широты

Последнее сообщение Anonymous « 19 июл 2025, 21:23
Добавлено в форуме Python

Anonymous » 19 июл 2025, 21:23 » в форуме Python

gl.xlabels_top = False
gl.xlabels_bottom = True
gl.ylabels_left = True
gl.xlines = False
gl.ylines = False

выше - это код, который я использую сейчас, но изменение True или false ничего не делает. Сюжет производится с Matplot.Lib в ноутбуке...

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
19 июл 2025, 21:23
Как удалить верхние и правые метки на моем участке matplot.lib в Юпитере, который имеет четыре меток долготы и широты

Последнее сообщение Anonymous « 20 июл 2025, 20:53
Добавлено в форуме Python

Anonymous » 20 июл 2025, 20:53 » в форуме Python

gl.xlabels_top = False
gl.xlabels_bottom = True
gl.ylabels_left = True
gl.xlines = False
gl.ylines = False

выше - это код, который я использую сейчас, но изменение True или false ничего не делает. Сюжет производится с Matplot.Lib в ноутбуке...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
20 июл 2025, 20:53
Как неориентированный граф представлен в коде ниже?

Последнее сообщение Anonymous « 11 апр 2024, 05:00
Добавлено в форуме C++

Anonymous » 11 апр 2024, 05:00 » в форуме C++

vector график = {{1, 2}, {0, 3, 4}, {0, 5, 6}, {1}, {1}, {2}, {2}};
Можете ли вы объяснить приведенный выше код C++? Я не понимаю, как граф представлен в векторе. Все онлайн-видео показывают различное представление графа, например, использование...

0 Ответы

24 Просмотры

Последнее сообщение Anonymous
11 апр 2024, 05:00
Как использовать внедрение зависимостей с последней версией AutoCAD API 2025, где был представлен .NET 8?

Последнее сообщение Anonymous « 01 июл 2024, 23:56
Добавлено в форуме C#

Anonymous » 01 июл 2024, 23:56 » в форуме C#

Новый AutoCAD 2025 поставляется с .NET 8, который по сути представляет собой .NET Core, поэтому я предполагаю, что внедрение зависимостей не составит труда и для надстроек autocad, но...
Я не знаю Я не нашел ни слова об этом во всем Интернете, но...

0 Ответы

22 Просмотры

Последнее сообщение Anonymous
01 июл 2024, 23:56

Вернуться в «Python»