Проблемы с форматированием сложного файла Excel в фрейм данных pandas для анализа данных.

Проблемы с форматированием сложного файла Excel в фрейм данных pandas для анализа данных. ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Проблемы с форматированием сложного файла Excel в фрейм данных pandas для анализа данных.

Цитата

Сообщение Anonymous » 25 сен 2024, 16:49

Я пытаюсь обработать файл с помощью pandas, чтобы найти корреляцию между переменными и конкретным результатом, который я получаю, но он отформатирован таким образом, что это усложняет мне задачу. Я застрял несколько дней, и буду признателен за любую помощь.
Краткое объяснение проблемы :
Я создаю продукт, и мне получить окончательный результат после 6 итераций одной и той же процедуры.
Я назову БОЛЬШУЮ ПАРТИЮ ансамблем из 6 итераций, и я назову каждую итерацию «партией».
Я собираю данные в течение каждая итерация касается нескольких параметров.
Когда все 6 итераций выполнены, я объединяю их все, чтобы получить конечный продукт, затем тестирую продукт, и этот тест дает мне процент от 0 % до 100 %.
(Мой продукт хорош, если мой процент в конечном тесте составляет от 45 % до 65 %.)
Я пытаюсь проанализировать свои данные, чтобы увидеть корреляцию между всеми параметрами. и конечный результат, чтобы понять, какие параметры мне следует настроить и, если возможно, в каком направлении получить результат от 45 % до 65 %.
Краткий обзор того, как форматируются мои данные :< /h1>
(Это упрощенный образец с поддельными данными)
Изображение файла Excel с выделенными частями
Проблема, с которой я столкнулся:
Я не могу даже пройти этап правильного форматирования данных с помощью панд, чтобы провести какой-либо анализ. Я даже не уверен, как мне его отформатировать.
Что я пробовал:
Я опубликую свою лучшую попытку без все неудачные попытки, но я даже не уверен, что пойду куда-нибудь. Я пытался создать столбец для каждой большой партии для ввода результатов и создать мультииндекс для перегруппировки данных по «Большому шагу»/Параметры/Большая партия/партия, но последняя часть вызывает у меня проблемы, а первая частично я даже не уверен, как буду правильно его использовать впоследствии.
Любые советы приветствуются.
Код ниже:

Код: Выделить всё

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

url = "path\simplified fake data.xlsx"

df = pd.read_excel(url, sheet_name='Feuille2', header=None)
# Extract and transpose the first two rows
first_two_rows = df.iloc[:1]
transposed_headers = first_two_rows.T
# Drop the first two rows
df = df.iloc[1:]

df.loc[2,0] = "General"
df.loc[1,0] = "test"
new_row = ["General", "Final test", "45% - 65%"] + [np.nan] * (df.shape[1] - 3)
df.loc[3] = new_row

def add_column_every_n(df, n, new_col_name, new_col_value):
num_cols = df.shape[1]
cpt = 0
for i in range(n+3, num_cols  +int(num_cols/n), n + 1):
df.insert(i, new_col_name + str(i), new_col_value)
df.iloc[2,i] = first_two_row.iloc[0,i-n-cpt]
df.iloc[1,i] = "Lot"
cpt = cpt + 1
return df

df = add_column_every_n(df, 6, 'NewCol', pd.NA)

df.head()

результат df.head()

Код: Выделить всё

# Forward fill the remaining NaNs
df[0] = df[0].ffill()
df.iloc[0,:] = df.iloc[0,:].ffill()
df.head()

результат df.head()

Код: Выделить всё

df = df.T

new_headers = df.iloc[:2].values.tolist()

# Drop the first two rows from the dataframe
df = df.iloc[2:]

# Combine the first two rows to form multi-level headers
df.columns = pd.MultiIndex.from_arrays(new_headers)
df.head()

результат df.head()
Чего я хочу в конечном итоге :
Честно говоря, я даже не уверен, что в конечном итоге я хочу, чтобы это был правильный способ получить данные, пригодные для анализа. Так что, если у вас есть предложения получше, я внимательно слушаю.
Вот как, по моему мнению, это должно выглядеть:
Мое представление о том, как, по моему мнению, это должно выглядеть (возможно, я ошибаюсь)< /p>
Любые советы о том, как обращаться с таким набором данных, даже о том, как мне следует его форматировать в конце, чтобы иметь возможность использовать pandas/другие библиотеки для его анализа, будут оценены.
Я старался изо всех сил, следил за уроками на YouTube, курсами на Coursera, но они никогда не объясняли, как решать такие сложные проблемы, поэтому я чувствую себя потерянным

Подробнее здесь: https://stackoverflow.com/questions/790 ... ata-analys

1727272175

Anonymous

Я пытаюсь обработать файл с помощью pandas, чтобы найти корреляцию между переменными и конкретным результатом, который я получаю, но он отформатирован таким образом, что это усложняет мне задачу. Я застрял несколько дней, и буду признателен за любую помощь.
Краткое объяснение проблемы :
Я создаю продукт, и мне получить окончательный результат после 6 итераций одной и той же процедуры.
Я назову БОЛЬШУЮ ПАРТИЮ ансамблем из 6 итераций, и я назову каждую итерацию «партией».
Я собираю данные в течение каждая итерация касается нескольких параметров.
Когда все 6 итераций выполнены, я объединяю их все, чтобы получить конечный продукт, затем тестирую продукт, и этот тест дает мне процент от 0 % до 100 %.
(Мой продукт хорош, если мой процент в конечном тесте составляет от 45 % до 65 %.)
Я пытаюсь проанализировать свои данные, чтобы увидеть корреляцию между всеми параметрами. и конечный результат, чтобы понять, какие параметры мне следует настроить и, если возможно, в каком направлении получить результат от 45 % до 65 %.
Краткий обзор того, как форматируются мои данные :< /h1>
(Это упрощенный образец с поддельными данными)
Изображение файла Excel с выделенными частями
 Проблема, с которой я столкнулся:
Я не могу даже пройти этап правильного форматирования данных с помощью панд, чтобы провести какой-либо анализ. Я даже не уверен, как мне его отформатировать.
Что я пробовал:
Я опубликую свою лучшую попытку без все неудачные попытки, но я даже не уверен, что пойду куда-нибудь. Я пытался создать столбец для каждой большой партии для ввода результатов и создать мультииндекс для перегруппировки данных по «Большому шагу»/Параметры/Большая партия/партия, но последняя часть вызывает у меня проблемы, а первая частично я даже не уверен, как буду правильно его использовать впоследствии.
Любые советы приветствуются.
Код ниже:
[code]import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

url = "path\simplified fake data.xlsx"

df = pd.read_excel(url, sheet_name='Feuille2', header=None)
# Extract and transpose the first two rows
first_two_rows = df.iloc[:1]
transposed_headers = first_two_rows.T
# Drop the first two rows
df = df.iloc[1:]

df.loc[2,0] = "General"
df.loc[1,0] = "test"
new_row = ["General", "Final test", "45% - 65%"] + [np.nan] * (df.shape[1] - 3)
df.loc[3] = new_row

def add_column_every_n(df, n, new_col_name, new_col_value):
num_cols = df.shape[1]
cpt = 0
for i in range(n+3, num_cols  +int(num_cols/n), n + 1):
df.insert(i, new_col_name + str(i), new_col_value)
df.iloc[2,i] = first_two_row.iloc[0,i-n-cpt]
df.iloc[1,i] = "Lot"
cpt = cpt + 1
return df

df = add_column_every_n(df, 6, 'NewCol', pd.NA)

df.head()

[/code]
результат df.head()
[code]# Forward fill the remaining NaNs
df[0] = df[0].ffill()
df.iloc[0,:] = df.iloc[0,:].ffill()
df.head()
[/code]
результат df.head()
[code]df = df.T

new_headers = df.iloc[:2].values.tolist()

# Drop the first two rows from the dataframe
df = df.iloc[2:]

# Combine the first two rows to form multi-level headers
df.columns = pd.MultiIndex.from_arrays(new_headers)
df.head()

[/code]
результат df.head()
Чего я хочу в конечном итоге :
Честно говоря, я даже не уверен, что в конечном итоге я хочу, чтобы это был правильный способ получить данные, пригодные для анализа. Так что, если у вас есть предложения получше, я внимательно слушаю.
Вот как, по моему мнению, это должно выглядеть:
Мое представление о том, как, по моему мнению, это должно выглядеть (возможно, я ошибаюсь)< /p>
Любые советы о том, как обращаться с таким набором данных, даже о том, как мне следует его форматировать в конце, чтобы иметь возможность использовать pandas/другие библиотеки для его анализа, будут оценены.
Я старался изо всех сил, следил за уроками на YouTube, курсами на Coursera, но они никогда не объясняли, как решать такие сложные проблемы, поэтому я чувствую себя потерянным :( 

Подробнее здесь: [url]https://stackoverflow.com/questions/79023121/troubles-formatting-a-complex-excel-file-into-a-pandas-dataframe-for-data-analys[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Проблемы с форматированием сложного файла Excel в фрейм данных pandas для анализа данных.

Последнее сообщение Anonymous « 03 янв 2025, 23:39
Добавлено в форуме Python

Anonymous » 03 янв 2025, 23:39 » в форуме Python

Я пытаюсь обработать файл с помощью Pandas, чтобы найти корреляцию между переменными и конкретным результатом, который я получаю, но он отформатирован таким образом, что мне это затруднительно.
Быстро объяснение проблемы
Я производю продукт и...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
03 янв 2025, 23:39
Проблемы с форматированием сложного файла Excel в фрейм данных pandas для анализа данных.

Последнее сообщение Anonymous « 04 янв 2025, 00:42
Добавлено в форуме Python

Anonymous » 04 янв 2025, 00:42 » в форуме Python

Я пытаюсь обработать файл с помощью Pandas, чтобы найти корреляцию между переменными и конкретным результатом, который я получаю, но он отформатирован таким образом, что мне это затруднительно.
Краткое объяснение проблемы
Я производю продукт и...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
04 янв 2025, 00:42
Как преобразовать фрейм данных PySpark Pandas в фрейм данных PySpark?

Последнее сообщение Anonymous « 09 дек 2024, 10:23
Добавлено в форуме Python

Anonymous » 09 дек 2024, 10:23 » в форуме Python

У меня есть набор данных, хранящийся в pyspark.pandas.frame.DataFrame, который я хочу преобразовать в pyspark.sql.DataFrame, прежде чем сохранять его в дельта-файл. Как это сделать правильно?
PS: Причина в том, что я хочу обеспечить соблюдение схемы...

0 Ответы

34 Просмотры

Последнее сообщение Anonymous
09 дек 2024, 10:23
Невозможно изменить фрейм данных Pandas, прочитанный из файла Excel.

Последнее сообщение Anonymous « 29 окт 2024, 11:37
Добавлено в форуме Python

Anonymous » 29 окт 2024, 11:37 » в форуме Python

У меня есть функция, которую можно применить к DataFrame следующим образом:
import pandas as pd
from math import comb
from itertools import combinations

def find_match_total(row, total_col, sum_cols):
size = len(row)
data = row.loc .to_dict()...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
29 окт 2024, 11:37
Pandas загружает старую версию файла Excel в фрейм данных

Последнее сообщение Anonymous « 23 янв 2025, 23:04
Добавлено в форуме Python

Anonymous » 23 янв 2025, 23:04 » в форуме Python

В моем модуле есть:

excel_location = r'C:\path\to\excelfile.xlsx'
test = pandas.io.excel.read_excel(excel_location)
print(test)

Я редактировал файл Excel в этом месте (открыл, сохранил, закрыл), но Pandas продолжает печатать данные из старой...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
23 янв 2025, 23:04

Вернуться в «Python»