Эффективная группировка DataFrame для уплотнения строк на основе нескольких критериев

Эффективная группировка DataFrame для уплотнения строк на основе нескольких критериев ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Эффективная группировка DataFrame для уплотнения строк на основе нескольких критериев

Цитата

Сообщение Anonymous » 14 мар 2024, 10:35

Я хочу сгруппировать строки на основе столбцов «Хромосома», «Начало» и «Конец», а затем объединить соответствующие столбцы «Начало1», «Конец1», «main_category» в списки. Затем я хочу сделать то же самое, но с столбцами Chromosome, Start1, End1. По сути, не должно быть дубликатов в столбцах «Chromosome», «Start» и «End» ИЛИ столбцах «Chromosome», «Start1», «End1», «main_category». Вот пример ввода/вывода:
Вот часть моего набора данных:

Код: Выделить всё

Chromosome  Start   End     Start1  End1    main_category
chr1    2584125 2584533 2584094 2584437 Enhancer
chr1    2584125 2584533 2584200 2584401 Promoter
chr1    3069168 3069296 3066400 3074201 Promoter
chr1    3069168 3069296 3069019 3069238 Promoter
chr1    3069168 3069296 3069272 3069608 Enhancer
chr1    3186125 3186474 3186069 3186414 Enhancer
chr1    3244087 3244137 3244018 3244334 Enhancer
chr1    3244555 3244666 3244660 3244666 Promoter
chr1    3244755 3244966 3244660 3244666 Promoter

Код: Выделить всё

Chromosome  Start   End     Start1             End1             main_category
chr1    2584125 2584533 [2584094,2584200] [2584437,2584401] [Enhancer,Promoter]
chr1    3069168 3069296 [3066400,3069019,3069272][3074201,3069238,3069608][Promoter,Promoter,Enhancer]
chr1    3186125 3186474 3186069 3186414 Enhancer
chr1    3244087 3244137 3244018 3244334 Enhancer
chr1    [3244555,3244755] [3244666,3244966] 3244660 3244666 Promoter

Я попробовал этот код, но он не работает. Он заполняет набор данных NaN и значительно расширяет набор данных:

Код: Выделить всё

condensed_df = df.groupby(['Chromosome', 'Start', 'End']).agg(
{
'main_category': lambda x: ', '.join(map(str, x)),
'Start1': lambda x: ', '.join(map(str, x)),
'End1': lambda x: ', '.join(map(str, x))
}

Источник: https://stackoverflow.com/questions/781 ... e-criteria

1710401719

Anonymous


Я хочу сгруппировать строки на основе столбцов «Хромосома», «Начало» и «Конец», а затем объединить соответствующие столбцы «Начало1», «Конец1», «main_category» в списки. Затем я хочу сделать то же самое, но с столбцами Chromosome, Start1, End1. По сути, не должно быть дубликатов в столбцах «Chromosome», «Start» и «End» ИЛИ столбцах «Chromosome», «Start1», «End1», «main_category». Вот пример ввода/вывода:
Вот часть моего набора данных:
[code]Chromosome  Start   End     Start1  End1    main_category
chr1    2584125 2584533 2584094 2584437 Enhancer
chr1    2584125 2584533 2584200 2584401 Promoter
chr1    3069168 3069296 3066400 3074201 Promoter
chr1    3069168 3069296 3069019 3069238 Promoter
chr1    3069168 3069296 3069272 3069608 Enhancer
chr1    3186125 3186474 3186069 3186414 Enhancer
chr1    3244087 3244137 3244018 3244334 Enhancer
chr1    3244555 3244666 3244660 3244666 Promoter
chr1    3244755 3244966 3244660 3244666 Promoter

[/code]
[code]Chromosome  Start   End     Start1             End1             main_category
chr1    2584125 2584533 [2584094,2584200] [2584437,2584401] [Enhancer,Promoter]
chr1    3069168 3069296 [3066400,3069019,3069272][3074201,3069238,3069608][Promoter,Promoter,Enhancer]
chr1    3186125 3186474 3186069 3186414 Enhancer
chr1    3244087 3244137 3244018 3244334 Enhancer
chr1    [3244555,3244755] [3244666,3244966] 3244660 3244666 Promoter
[/code]
Я попробовал этот код, но он не работает. Он заполняет набор данных NaN и значительно расширяет набор данных:
[code]condensed_df = df.groupby(['Chromosome', 'Start', 'End']).agg(
{
'main_category': lambda x: ', '.join(map(str, x)),
'Start1': lambda x: ', '.join(map(str, x)),
'End1': lambda x: ', '.join(map(str, x))
}
[/code] 

Источник: [url]https://stackoverflow.com/questions/78157232/efficient-dataframe-grouping-for-condensing-rows-based-on-multiple-criteria[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Обновление ячейки DataFrame на основе критериев строк

Последнее сообщение Anonymous « 22 апр 2025, 00:00
Добавлено в форуме Python

Anonymous » 22 апр 2025, 00:00 » в форуме Python

Допустим, у меня есть следующий DataFrame:
+----+------------------------------------------------+-------------+----------+----------+
| | String | Substring | Result 1 | Result 2 |...

0 Ответы

19 Просмотры

Последнее сообщение Anonymous
22 апр 2025, 00:00
Обновление ячейки DataFrame на основе критериев строк

Последнее сообщение Anonymous « 22 апр 2025, 02:07
Добавлено в форуме Python

Anonymous » 22 апр 2025, 02:07 » в форуме Python

Допустим, у меня есть следующий DataFrame:
+----+------------------------------------------------+-------------+----------+----------+
| | String | Substring | Result 1 | Result 2 |...

0 Ответы

17 Просмотры

Последнее сообщение Anonymous
22 апр 2025, 02:07
Есть ли разумный способ объединить два DataFrame на основе критериев подстроки?

Последнее сообщение Anonymous « 23 сен 2024, 23:43
Добавлено в форуме Python

Anonymous » 23 сен 2024, 23:43 » в форуме Python

В настоящее время я работаю с некоторыми номерами телефонов DataFrames, и мне нужно объединить их по критериям подстроки, и это должно быть левое слияние (то есть иметь все комбинации в случае, если совпадений более 1). >
Например, эти 2 DataFrame:...

0 Ответы

24 Просмотры

Последнее сообщение Anonymous
23 сен 2024, 23:43
Выбор данных из DataFrame Pandas на основе критериев, хранящихся в DICT

Последнее сообщение Anonymous « 22 фев 2025, 08:57
Добавлено в форуме Python

Anonymous » 22 фев 2025, 08:57 » в форуме Python

У меня есть Pandas DataFrame, который содержит большое количество переменных. Это может быть упрощено как:

tempDF = pd.DataFrame({ 'var1': ,
'var2': ,
'var3': ,
'var4': })

Если я хотел выбрать подмножество DataFrame (например, var2 = 'b' и var4...

0 Ответы

8 Просмотры

Последнее сообщение Anonymous
22 фев 2025, 08:57
Как получить один Dataframe вместо нескольких Dataframe при преобразовании списка словарей в Dataframe

Последнее сообщение Гость « 06 дек 2023, 13:43
Добавлено в форуме Python

Гость » 06 дек 2023, 13:43 » в форуме Python

Я пробовал много методов, чтобы получить один фрейм данных вместо нескольких фреймов данных

при преобразовании списка отдельных словарей в фрейм данных создается количество отдельных фреймов данных

вот примеры вывода списка отдельных словарей...

0 Ответы

155 Просмотры

Последнее сообщение Гость
06 дек 2023, 13:43

Вернуться в «Python»