DataCamp: нужна помощь в устранении неполадок кода Python для задач очистки данных [закрыто]

DataCamp: нужна помощь в устранении неполадок кода Python для задач очистки данных [закрыто] ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

DataCamp: нужна помощь в устранении неполадок кода Python для задач очистки данных [закрыто]

Цитата

Сообщение Anonymous » 13 ноя 2024, 19:22

(ФОТО ПРИЛОЖЕНЫ) Я работаю над четырьмя задачами Python по очистке и проверке набора данных в DataCamp. Я изо всех сил пытаюсь понять, почему мой код не дает ожидаемых результатов. Я беспокоюсь, что могу упустить какую-то деталь, но не знаю, какую именно.
Может ли кто-нибудь взглянуть на мой код и сообщить мне, если он обнаружит какие-либо проблемы? Буду безумно благодарен! Ниже приведен код и краткое объяснение того, что должна выполнять каждая задача.
ЗАДАЧА 1
Напишите запрос для возврата данных, соответствующих этому описанию. Вы должны соответствовать всем именам столбцов и критериям описания.
Создайте очищенную версию фрейма данных.
Вам следует начать с данных в файле «production_data.csv».
Ваш вывод должен быть dataframe с именем clean_data.
Все имена и значения столбцов должны соответствовать таблице ниже.
Критерии имени столбца
batch_id Дискретный. Идентификатор каждой партии. Отсутствующие значения невозможны.
production_date Дата. Дата производства партии.
raw_material_supplier Категориальный. Поставщик сырья. (1='national_supplier', 2='international_supplier').
Отсутствующие значения следует заменить на «national_supplier».
pigment_type Номинальный. Тип используемого пигмента. ['type_a', 'type_b', 'type_c'].
Отсутствующие значения следует заменить на «другие».
pigment_quantity Непрерывное. Количество добавленного пигмента (в килограммах) (Диапазон: 1–100).
Отсутствующие значения следует заменить медианными.
mixing_time Непрерывно. Продолжительность процесса смешивания (в минутах).
Отсутствующие значения следует заменить средними.
mixing_speed Категориальный. Скорость процесса смешивания представлена в виде категорий: «Низкая», «Средняя», «Высокая».
Отсутствующие значения следует заменить на «Не указано».
product_quality_score Непрерывно. Общий показатель качества конечного продукта (оценка по шкале от 1 до 10).
Отсутствующие значения следует заменить средними.
КОД:
импортировать pandas как pd
импортировать numpy как np
clean_data = pd.read_csv('production_data.csv')
missing_values = ['-', 'missing', 'n/a', 'N/A', 'NA', None]
clean_data[' Batch_id'] = clean_data['batch_id'].fillna('unknown').astype(str)
clean_data['production_date'] = pd.to_datetime(clean_data['production_date'] , error='coerce')
clean_data['production_date'] = clean_data['production_date'].fillna(pd.to_datetime("2023-01-01"))
clean_data['raw_material_supplier'] = clean_data['raw_material_supplier'].replace({1: 'national_supplier', 2: 'international_supplier'})
clean_data ['raw_material_supplier'] = clean_data['raw_material_supplier'].replace(missing_values, 'national_supplier').str.lower().str.strip()
clean_data.loc[~clean_data ['raw_material_supplier'].isin(['national_supplier', 'international_supplier']), 'raw_material_supplier'] = 'national_supplier'
clean_data['pigment_type'] = clean_data['pigment_type' ].replace(missing_values, 'other').str.lower().str.strip()
clean_data.loc[~clean_data['pigment_type'].isin(['type_a ', 'type_b', 'type_c']), 'pigment_type'] = 'other'
clean_data['mixing_speed'] = clean_data['mixing_speed'].replace(missing_values, ' Не указано').str.capitalize().str.strip()
clean_data.loc[~clean_data['mixing_speed'].isin(['Низкая', 'Средняя', 'Высокий', 'Не указано']), 'mixing_speed'] = 'Не указано'
clean_data['pigment_quantity'] = pd.to_numeric(clean_data['pigment_quantity'], ошибки ='coerce')
clean_data['pigment_quantity'] = clean_data['pigment_quantity'].fillna(clean_data['pigment_quantity'].median()).clip(lower=1, Upper=100)
clean_data['mixing_time'] = pd.to_numeric(clean_data['mixing_time'], error='coerce')
clean_data['mixing_time'] = clean_data['mixing_time'].fillna(clean_data['mixing_time'].mean())
clean_data['product_quality_score'] = pd.to_numeric(clean_data ['product_quality_score'], error='coerce')
clean_data['product_quality_score'] = clean_data['product_quality_score'].fillna(clean_data['product_quality_score'].mean()) .clip(lower=1, Upper=10)
clean_data
ЗАДАЧА 2
Вы хотите понять, как тип поставщика и количество материалов влияют на конечные атрибуты продукта.
Рассчитайте средний показатель Product_quality_score и пигмент_количество, сгруппированные по raw_material_supplier.
Вам следует начать с данных в файле ' Production_data.csv'.
Ваш результат должен представлять собой фрейм данных с именемагрегированные_данные.
Он должен включать три столбца: raw_material_supplier, avg_product_quality_score и avg_pigment_quantity.
Ваши ответы должны быть округлены до двух десятичных знаков. .
КОД:
импортировать pandas как pd
data = pd.read_csv('production_data.csv ')
aggregated_data = data.groupby('raw_material_supplier').agg({
'product_quality_score': 'mean',
'pigment_quantity': 'mean'
}).round(2)
aggregated_data.columns = ['avg_product_quality_score ', 'avg_pigment_quantity']
aggregated_data.reset_index(inplace=True)
aggregated_data
ЗАДАЧА 3
Определить все значения Product_quality_score для партий с параметром raw_material_supplier, равным 2, и пигментом_quantity, превышающим 35 кг. Используйте исходную таблицу производственных данных, а не выходные данные задачи 2.
Вам следует начать с данных в файле «production_data.csv».
Вашими выходными данными должен быть фрейм данных с именем пигмент_данные.
Он должен включать три столбца: raw_material_supplier, пигмент_количество и Product_quality_score.
Ваши ответы должны быть округлены до трех десятичных знаков.
КОД:импортировать панды как pd
original_data = pd.read_csv('production_data.csv')
pigment_data = original_data[(original_data['raw_material_supplier'] == 2) &
(original_data['pigment_quantity'] > 35)
][['raw_material_supplier', 'pigment_quantity', 'product_quality_score']]
pigment_data = пигмент_data.round({'pigment_quantity': 2, 'product_quality_score': 2})
pigment_data.reset_index(drop=True, inplace=True)
pigment_data
ЗАДАЧА 4
Чтобы в дальнейшем приступить к дальнейшему анализу, необходимо проанализировать, как различные факторы влияют на качество продукции. Начните с расчета среднего и стандартного отклонения для следующих столбцов: пигмент_количество и продукт_качество_оценка.
Эти статистические данные помогут понять основную тенденцию и изменчивость данных, связанных с качеством продукции.
Затем рассчитайте коэффициент корреляции Пирсона между следующими переменными: пигмент_количество и продукт_качество_оценка.
Эти коэффициенты корреляции дадут представление о силе и направлении взаимосвязей между факторами и общим качеством продукта.
Вы следует начинать с данных в файле 'production_data.csv'.
Рассчитайте среднее и стандартное отклонение для столбцов пигмент_количество и продукт_качество_score как: product_quality_score_mean, Product_quality_score_sd, пигмент_количество_среднее, пигмент_количество_sd.
Рассчитайте коэффициент корреляции Пирсона между пигмент_количество и продукт_качество_score как: corr_coef
Ваш результат должен представлять собой фрейм данных с именем product_quality.
Он должен включать столбцы: product_quality_score_mean, Product_quality_score_sd, пигмент_количество_среднее, пигмент_количество_sd, corr_coef.
Убедитесь, что ваши ответы округлены. до 2 знаков после запятой.
КОД:
импортировать pandas как pd
data = pd.read_csv( 'production_data.csv')
product_quality_score_mean = data['product_quality_score'].mean().round(2)
product_quality_score_sd = data[' Product_quality_score'].std().round(2)
pigment_quantity_mean = data['pigment_quantity'].mean().round(2)
pigment_quantity_sd = data['pigment_quantity'].std().round(2)
corr_coef = data[['pigment_quantity', 'product_quality_score']].corr().iloc[ 0, 1].round(2)
product_quality = pd.DataFrame({
'product_quality_score_mean': [product_quality_score_mean],
'product_quality_score_sd': [product_quality_score_sd],
'pigment_quantity_mean': [pigment_quantity_mean],
'pigment_quantity_sd': [ пигмент_квантити_сд],
'corr_coef': [corr_coef]
})
product_quality
Я немного растерян и расстроен, я был бы признателен за спасение моего сломленного духа. Большое спасибо и поздравления, Ама.

Подробнее здесь: https://stackoverflow.com/questions/791 ... ning-tasks

1731514945

Anonymous

(ФОТО ПРИЛОЖЕНЫ) Я работаю над четырьмя задачами Python по очистке и проверке набора данных в DataCamp. Я изо всех сил пытаюсь понять, почему мой код не дает ожидаемых результатов. Я беспокоюсь, что могу упустить какую-то деталь, но не знаю, какую именно.
Может ли кто-нибудь взглянуть на мой код и сообщить мне, если он обнаружит какие-либо проблемы? Буду безумно благодарен! Ниже приведен код и краткое объяснение того, что должна выполнять каждая задача.
[b]ЗАДАЧА 1[/b]
Напишите запрос для возврата данных, соответствующих этому описанию. Вы должны соответствовать всем именам столбцов и критериям описания.
Создайте очищенную версию фрейма данных.
Вам следует начать с данных в файле «production_data.csv».
Ваш вывод должен быть dataframe с именем clean_data.
Все имена и значения столбцов должны соответствовать таблице ниже.
Критерии имени столбца
batch_id Дискретный. Идентификатор каждой партии. Отсутствующие значения невозможны.
production_date Дата. Дата производства партии.
raw_material_supplier Категориальный. Поставщик сырья. (1='national_supplier', 2='international_supplier').
Отсутствующие значения следует заменить на «national_supplier».
pigment_type Номинальный. Тип используемого пигмента. ['type_a', 'type_b', 'type_c'].
Отсутствующие значения следует заменить на «другие».
pigment_quantity Непрерывное. Количество добавленного пигмента (в килограммах) (Диапазон: 1–100).
Отсутствующие значения следует заменить медианными.
mixing_time Непрерывно. Продолжительность процесса смешивания (в минутах).
Отсутствующие значения следует заменить средними.
mixing_speed Категориальный. Скорость процесса смешивания представлена в виде категорий: «Низкая», «Средняя», «Высокая».
Отсутствующие значения следует заменить на «Не указано».
product_quality_score Непрерывно. Общий показатель качества конечного продукта (оценка по шкале от 1 до 10).
Отсутствующие значения следует заменить средними.
[b]КОД[/b]:
импортировать pandas как pd
импортировать numpy как np
clean_data = pd.read_csv('production_data.csv')
missing_values = ['-', 'missing', 'n/a', 'N/A', 'NA', None]
clean_data[' Batch_id'] = clean_data['batch_id'].fillna('unknown').astype(str)
clean_data['production_date'] = pd.to_datetime(clean_data['production_date'] , error='coerce')
clean_data['production_date'] = clean_data['production_date'].fillna(pd.to_datetime("2023-01-01"))
clean_data['raw_material_supplier'] = clean_data['raw_material_supplier'].replace({1: 'national_supplier', 2: 'international_supplier'})
clean_data ['raw_material_supplier'] = clean_data['raw_material_supplier'].replace(missing_values, 'national_supplier').str.lower().str.strip()
clean_data.loc[~clean_data ['raw_material_supplier'].isin(['national_supplier', 'international_supplier']), 'raw_material_supplier'] = 'national_supplier'
clean_data['pigment_type'] = clean_data['pigment_type' ].replace(missing_values, 'other').str.lower().str.strip()
clean_data.loc[~clean_data['pigment_type'].isin(['type_a ', 'type_b', 'type_c']), 'pigment_type'] = 'other'
clean_data['mixing_speed'] = clean_data['mixing_speed'].replace(missing_values, ' Не указано').str.capitalize().str.strip()
clean_data.loc[~clean_data['mixing_speed'].isin(['Низкая', 'Средняя', 'Высокий', 'Не указано']), 'mixing_speed'] = 'Не указано'
clean_data['pigment_quantity'] = pd.to_numeric(clean_data['pigment_quantity'], ошибки ='coerce')
clean_data['pigment_quantity'] = clean_data['pigment_quantity'].fillna(clean_data['pigment_quantity'].median()).clip(lower=1, Upper=100)
clean_data['mixing_time'] = pd.to_numeric(clean_data['mixing_time'], error='coerce')
clean_data['mixing_time'] = clean_data['mixing_time'].fillna(clean_data['mixing_time'].mean())
clean_data['product_quality_score'] = pd.to_numeric(clean_data ['product_quality_score'], error='coerce')
clean_data['product_quality_score'] = clean_data['product_quality_score'].fillna(clean_data['product_quality_score'].mean()) .clip(lower=1, Upper=10)
clean_data
[b]ЗАДАЧА 2[/b]
Вы хотите понять, как тип поставщика и количество материалов влияют на конечные атрибуты продукта.
Рассчитайте средний показатель Product_quality_score и пигмент_количество, сгруппированные по raw_material_supplier.
Вам следует начать с данных в файле ' Production_data.csv'.
Ваш результат должен представлять собой фрейм данных с именемагрегированные_данные.
Он должен включать три столбца: raw_material_supplier, avg_product_quality_score и avg_pigment_quantity.
Ваши ответы должны быть округлены до двух десятичных знаков.  .
[b]КОД[/b]:
импортировать pandas как pd
data = pd.read_csv('production_data.csv ')
aggregated_data = data.groupby('raw_material_supplier').agg({
'product_quality_score': 'mean',
'pigment_quantity': 'mean'
}).round(2)
aggregated_data.columns = ['avg_product_quality_score ', 'avg_pigment_quantity']
aggregated_data.reset_index(inplace=True)
aggregated_data
[b]ЗАДАЧА 3[/b]
Определить все значения Product_quality_score для партий с параметром raw_material_supplier, равным 2, и пигментом_quantity, превышающим 35 кг. Используйте исходную таблицу производственных данных, а не выходные данные задачи 2.
Вам следует начать с данных в файле «production_data.csv».
Вашими выходными данными должен быть фрейм данных с именем пигмент_данные.
Он должен включать три столбца: raw_material_supplier, пигмент_количество и Product_quality_score.
Ваши ответы должны быть округлены до трех десятичных знаков.
[b]КОД:[/b]импортировать панды как pd
original_data = pd.read_csv('production_data.csv')
pigment_data = original_data[(original_data['raw_material_supplier'] == 2) &
(original_data['pigment_quantity'] > 35)
][['raw_material_supplier', 'pigment_quantity', 'product_quality_score']]
pigment_data = пигмент_data.round({'pigment_quantity': 2, 'product_quality_score': 2})
pigment_data.reset_index(drop=True, inplace=True)
pigment_data
[b]ЗАДАЧА 4
Чтобы в дальнейшем приступить к дальнейшему анализу, необходимо проанализировать, как различные факторы влияют на качество продукции. Начните с расчета среднего и стандартного отклонения для следующих столбцов: пигмент_количество и продукт_качество_оценка.
Эти статистические данные помогут понять основную тенденцию и изменчивость данных, связанных с качеством продукции.
Затем рассчитайте коэффициент корреляции Пирсона между следующими переменными: пигмент_количество и продукт_качество_оценка.
Эти коэффициенты корреляции дадут представление о силе и направлении взаимосвязей между факторами и общим качеством продукта.
Вы следует начинать с данных в файле 'production_data.csv'.
Рассчитайте среднее и стандартное отклонение для столбцов пигмент_количество и продукт_качество_score как: product_quality_score_mean, Product_quality_score_sd, пигмент_количество_среднее, пигмент_количество_sd.
Рассчитайте коэффициент корреляции Пирсона между пигмент_количество и продукт_качество_score как: corr_coef
Ваш результат должен представлять собой фрейм данных с именем product_quality.
Он должен включать столбцы: product_quality_score_mean, Product_quality_score_sd, пигмент_количество_среднее, пигмент_количество_sd, corr_coef.
Убедитесь, что ваши ответы округлены. до 2 знаков после запятой.
КОД:[/b]
импортировать pandas как pd
data = pd.read_csv( 'production_data.csv')
product_quality_score_mean = data['product_quality_score'].mean().round(2)
product_quality_score_sd = data[' Product_quality_score'].std().round(2)
pigment_quantity_mean = data['pigment_quantity'].mean().round(2)
pigment_quantity_sd = data['pigment_quantity'].std().round(2)
corr_coef = data[['pigment_quantity', 'product_quality_score']].corr().iloc[ 0, 1].round(2)
product_quality = pd.DataFrame({
'product_quality_score_mean': [product_quality_score_mean],
'product_quality_score_sd': [product_quality_score_sd],
'pigment_quantity_mean': [pigment_quantity_mean],
'pigment_quantity_sd': [ пигмент_квантити_сд],
'corr_coef': [corr_coef]
})
product_quality
Я немного растерян и расстроен, я был бы признателен за спасение моего сломленного духа. Большое спасибо и поздравления, Ама. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79184603/datacamp-need-help-troubleshooting-python-code-for-data-cleaning-tasks[/url]