Непоследовательный анализ заголовков Excel в кадре данных pandas

Непоследовательный анализ заголовков Excel в кадре данных pandas ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Непоследовательный анализ заголовков Excel в кадре данных pandas

Цитата

Сообщение Anonymous » 18 окт 2024, 11:29

Рассмотрим следующую таблицу в Excel:

Код: Выделить всё

                    h1  h1_1    h1_2    h1_3
h2  h2_1    h2_2    h2_3
h3  h3_1    h3_2    h3_3

h4  h4_1    h4_2    h4_3
h5  h5_1    h5_2    h5_2
i1  i2      i3      h6  h6_1    h6_2    h6_2
i1_2    i1_3    foo
i2_2    i2_3    foo
i3_2    i3_3    foo                 1

Эта таблица имеет 7 строк заголовков и 4 индексных столбца. Более того, индексы и заголовки имеют имена, а имя заголовка h6 перекрывается с именем индекса i4.
Я анализирую это с помощью pandas следующим образом:

Код: Выделить всё

import pandas as pd
df_scratch = pd.read_excel('scratch2.xlsx', index_col=[0,1,2,3], header=[0,1,2,3,4,5,6])

Однако тогда кажется, что первая строка пропущена:

Код: Выделить всё

df_scratch
h1  h1_1    h1_2    h1_3
h2  h2_1    h2_2    h2_3
h3  h3_1    h3_2    h3_3
Unnamed: 4_level_3  Unnamed: 5_level_3  Unnamed: 6_level_3
h4  h4_1    h4_2    h4_3
h5  h5_1    h5_2    h5_2
h6  h6_1    h6_2    h6_2
i2_1    i3_1    foo
NaN     i2_2    i3_2    foo     NaN     NaN     NaN
i2_3    i3_3    foo     NaN     NaN     1.0

Для подтверждения df_scratch.loc[pd.IndexSlice[:,'i1_2',:]] возвращает KeyError: 'i1_2', а df_scratch.loc [pd.IndexSlice[:,'i2_2',:]] возвращает:

Код: Выделить всё

        h1  h1_1    h1_2    h1_3
h2  h2_1    h2_2    h2_3
h3  h3_1    h3_2    h3_3
Unnamed: 4_level_3  Unnamed: 5_level_3  Unnamed: 6_level_3
h4  h4_1    h4_2    h4_3
h5  h5_1    h5_2    h5_2
h6  h6_1    h6_2    h6_2
i1_3    foo
NaN     i2_3    foo     NaN     NaN     NaN

Если я анализирую на одну строку заголовка меньше, то последняя строка заголовка интерпретируется как данные:

Код: Выделить всё

import pandas as pd
df_scratch = pd.read_excel('scratch2.xlsx', index_col=[0,1,2,3], header=[0,1,2,3,4,5])

h1  h1_1    h1_2    h1_3
h2  h2_1    h2_2    h2_3
h3  h3_1    h3_2    h3_3
Unnamed: 4_level_3  Unnamed: 5_level_3  Unnamed: 6_level_3
h4  h4_1    h4_2    h4_3
h5  h5_1    h5_2    h5_2
i1  i2  i3  h6  h6_1    h6_2    h6_2
i1_2    i1_3    foo     NaN     NaN     NaN
i2_2    i2_3    foo     NaN     NaN     NaN
i3_2    i3_3    foo     NaN     NaN     1

Можно ли сразу прочитать правильный макет, или мне нужно сначала прочитать файл Excel без каких-либо заголовков/индексов и добавить их после прочтения?

Подробнее здесь: https://stackoverflow.com/questions/791 ... -dataframe

1729240144

Anonymous

Рассмотрим следующую таблицу в Excel:
[code]                    h1  h1_1    h1_2    h1_3
h2  h2_1    h2_2    h2_3
h3  h3_1    h3_2    h3_3

h4  h4_1    h4_2    h4_3
h5  h5_1    h5_2    h5_2
i1  i2      i3      h6  h6_1    h6_2    h6_2
i1_2    i1_3    foo
i2_2    i2_3    foo
i3_2    i3_3    foo                 1
[/code]
Эта таблица имеет 7 строк заголовков и 4 индексных столбца. Более того, индексы и заголовки имеют имена, а имя заголовка h6 перекрывается с именем индекса i4.
Я анализирую это с помощью pandas следующим образом:
[code]import pandas as pd
df_scratch = pd.read_excel('scratch2.xlsx', index_col=[0,1,2,3], header=[0,1,2,3,4,5,6])
[/code]
Однако тогда кажется, что первая строка пропущена:
[code]df_scratch
h1  h1_1    h1_2    h1_3
h2  h2_1    h2_2    h2_3
h3  h3_1    h3_2    h3_3
Unnamed: 4_level_3  Unnamed: 5_level_3  Unnamed: 6_level_3
h4  h4_1    h4_2    h4_3
h5  h5_1    h5_2    h5_2
h6  h6_1    h6_2    h6_2
i2_1    i3_1    foo
NaN     i2_2    i3_2    foo     NaN     NaN     NaN
i2_3    i3_3    foo     NaN     NaN     1.0
[/code]
Для подтверждения df_scratch.loc[pd.IndexSlice[:,'i1_2',:]] возвращает KeyError: 'i1_2', а df_scratch.loc [pd.IndexSlice[:,'i2_2',:]] возвращает:
[code]        h1  h1_1    h1_2    h1_3
h2  h2_1    h2_2    h2_3
h3  h3_1    h3_2    h3_3
Unnamed: 4_level_3  Unnamed: 5_level_3  Unnamed: 6_level_3
h4  h4_1    h4_2    h4_3
h5  h5_1    h5_2    h5_2
h6  h6_1    h6_2    h6_2
i1_3    foo
NaN     i2_3    foo     NaN     NaN     NaN
[/code]
Если я анализирую на одну строку заголовка меньше, то последняя строка заголовка интерпретируется как данные:
[code]import pandas as pd
df_scratch = pd.read_excel('scratch2.xlsx', index_col=[0,1,2,3], header=[0,1,2,3,4,5])

h1  h1_1    h1_2    h1_3
h2  h2_1    h2_2    h2_3
h3  h3_1    h3_2    h3_3
Unnamed: 4_level_3  Unnamed: 5_level_3  Unnamed: 6_level_3
h4  h4_1    h4_2    h4_3
h5  h5_1    h5_2    h5_2
i1  i2  i3  h6  h6_1    h6_2    h6_2
i1_2    i1_3    foo     NaN     NaN     NaN
i2_2    i2_3    foo     NaN     NaN     NaN
i3_2    i3_3    foo     NaN     NaN     1
[/code]
Можно ли сразу прочитать правильный макет, или мне нужно сначала прочитать файл Excel без каких-либо заголовков/индексов и добавить их после прочтения? 

Подробнее здесь: [url]https://stackoverflow.com/questions/79101236/inconsistent-parsing-of-excel-headers-in-pandas-dataframe[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Функция для поиска всех имен, присутствующих и отсутствующих в кадре данных проверки, в другом кадре данных в Pandas.

Последнее сообщение Anonymous « 21 окт 2024, 23:17
Добавлено в форуме Python

Anonymous » 21 окт 2024, 23:17 » в форуме Python

У меня есть фрейм данных, который содержит следующую структуру:

А мне нужно проверить, присутствуют ли строки из столбца Имя из столбцов МНЕМОНИКА 1, 2, 3 и так далее, по контрольному списку, имеющему следующий формат:
p>

Что мне нужно...

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
21 окт 2024, 23:17
Функция для поиска всех имен, присутствующих и отсутствующих в кадре данных проверки, в другом кадре данных в Pandas.

Последнее сообщение Anonymous « 22 окт 2024, 03:48
Добавлено в форуме Python

Anonymous » 22 окт 2024, 03:48 » в форуме Python

У меня есть фрейм данных, который содержит следующую структуру:

А мне нужно проверить, присутствуют ли строки из столбца Имя из столбцов МНЕМОНИКА 1, 2, 3 и так далее, по контрольному списку, имеющему следующий формат:
p>

Что мне нужно...

0 Ответы

23 Просмотры

Последнее сообщение Anonymous
22 окт 2024, 03:48
Непоследовательный размер данных API при разделении 4-летнего набора данных на различные моменты времени (Thingsboord)

Последнее сообщение Anonymous « 11 мар 2025, 13:15
Добавлено в форуме Python

Anonymous » 11 мар 2025, 13:15 » в форуме Python

Я работаю с 4-летним набором данных, который я разделял на меньшие интервалы времени (кусочки), чтобы отправить запросы API на Tiksboard. Я экспериментировал с различными размерами куски - 3 часа, 6 часов, 12 часов и 24 часа. Поскольку общий период...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
11 мар 2025, 13:15
Усреднение значений в другом кадре данных до даты в первом кадре данных

Последнее сообщение Anonymous « 06 ноя 2023, 17:55
Добавлено в форуме Python

Anonymous » 06 ноя 2023, 17:55 » в форуме Python

Я признаю, что это довольно конкретный пример. У меня есть два фрейма данных: в первом есть дата и группа:

Группа дат 11.06.2023 А 11.05.2023 Б 11.04.2023 А 11.03.2023 А 11.02.2023 Б Во втором есть даты, группы и значения:

Значение группы дат...

0 Ответы

124 Просмотры

Последнее сообщение Anonymous
06 ноя 2023, 17:55
Найдите во всем втором кадре данных столбец A строк в первом кадре данных и заполните столбец B значением столбца A во в

Последнее сообщение Anonymous « 04 июл 2024, 23:40
Добавлено в форуме Python

Anonymous » 04 июл 2024, 23:40 » в форуме Python

Я вижу много похожих вопросов, но не совсем моя ситуация.
У меня есть два фрейма данных, каждый из которых содержит много-много столбцов. Очень упрощенное воспроизведение:
df1:
serial_num name
0 39jr93j Phyl
1 Gil
2 21pr12n Ann

df2:
serial_num...

0 Ответы

54 Просмотры

Последнее сообщение Anonymous
04 июл 2024, 23:40

Вернуться в «Python»