Как сгруппировать фреймы данных, чтобы получить подмножество, представляющее полный диапазон большего набора

Как сгруппировать фреймы данных, чтобы получить подмножество, представляющее полный диапазон большего набора ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Как сгруппировать фреймы данных, чтобы получить подмножество, представляющее полный диапазон большего набора

Цитата

Сообщение Anonymous » 02 ноя 2024, 05:04

Это два примера имеющихся у меня фреймов данных:

< thead>

дней
p1
p2
< th>p3

42.1
3.4
4.5

15
2,2
3,6
2,8

39
2,5
2,10.4

и это:< /p>

дней
p1
p2
p3

4
2.1
< td>3,4
4,5

18
8,2
2,2
5,8

22
6,4
3,6
1,4
< /tr>

29
2,4
4,1
2.3

У меня их около 1 миллиона фреймы данных (те же столбцы, разная длина), и я хочу вывести около 50 000 подмножеств, которые справедливо представляют все существующие различные фреймы данных. По сути, кадры данных должны быть действительным представлением, поэтому обучение модели ML на полном 1 миллионе или подмножестве из 50 тысяч должно дать модели ML почти такое же поведение.
Количество дней важно поскольку два фрейма данных с одинаковыми значениями параметра (p), но с совершенно разными столбцами дней, не равны
Идея моего подхода состоит в том, чтобы сгруппировать фреймы данных вместе по переменной для каждого уровня. Затем возьмите по одному кадру данных из каждой группы на нижнем уровне.
Уровень группы 1 (GL1): сгруппируйте кадры данных по количеству строк.
Уровень группы 2 (GL2): для каждого кадра данных в GL1 сгруппируйте кадры данных, имеющие одинаковый столбец дней, с помощью анализа кластеризации (кластеризация DBSCAN?)
Уровень группы 3 (GL3): для каждого кадра данных в GL2 группируйте фреймы данных вместе со схожими значениями параметров с помощью анализа кластеризации (кластеризация DBSCAN?)
Возьмите 1 фрейм данных из каждой группы GL3, чтобы представить эту группу фреймов данных.
Возможно, он не сможет получить полные максимальные и минимальные значения для каждого параметра, но кажется, что этот метод будет весьма всеобъемлющим. Это хорошая идея или у вас есть идеи получше?

Подробнее здесь: https://stackoverflow.com/questions/791 ... -of-the-la

1730513060

Anonymous

Это два примера имеющихся у меня фреймов данных:

< thead>

дней
p1
p2
< th>p3




42.1
3.4
4.5


15
2,2
3,6
2,8


39
2,5
2,10.4



и это:< /p>



 дней
p1
p2
p3



4
2.1
< td>3,4
4,5


18
8,2
2,2
5,8


22
6,4
3,6
1,4
< /tr>

29
2,4
4,1
2.3



У меня их около 1 миллиона фреймы данных (те же столбцы, разная длина), и я хочу вывести около 50 000 подмножеств, которые справедливо представляют все существующие различные фреймы данных. По сути, кадры данных должны быть действительным представлением, поэтому обучение модели ML на полном 1 миллионе или подмножестве из 50 тысяч должно дать модели ML почти такое же поведение.
Количество дней важно поскольку два фрейма данных с одинаковыми значениями параметра (p), но с совершенно разными столбцами дней, не равны
Идея моего подхода состоит в том, чтобы сгруппировать фреймы данных вместе по переменной для каждого уровня. Затем возьмите по одному кадру данных из каждой группы на нижнем уровне.
Уровень группы 1 (GL1): сгруппируйте кадры данных по количеству строк.
Уровень группы 2 (GL2): для каждого кадра данных в GL1 сгруппируйте кадры данных, имеющие одинаковый столбец дней, с помощью анализа кластеризации (кластеризация DBSCAN?)
Уровень группы 3 (GL3): для каждого кадра данных в GL2 группируйте фреймы данных вместе со схожими значениями параметров с помощью анализа кластеризации (кластеризация DBSCAN?)
Возьмите 1 фрейм данных из каждой группы GL3, чтобы представить эту группу фреймов данных.
Возможно, он не сможет получить полные максимальные и минимальные значения для каждого параметра, но кажется, что этот метод будет весьма всеобъемлющим. Это хорошая идея или у вас есть идеи получше? 

Подробнее здесь: [url]https://stackoverflow.com/questions/79145581/how-to-group-dataframes-to-get-a-subset-that-represents-the-full-range-of-the-la[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как сгруппировать фреймы данных, чтобы получить подмножество, представляющее полный диапазон большего набора

Последнее сообщение Anonymous « 31 окт 2024, 20:01
Добавлено в форуме Python

Anonymous » 31 окт 2024, 20:01 » в форуме Python

Это два примера имеющихся у меня фреймов данных:

дней
p1
p2
p3

42.1
3.4
4.5

15
2,2
3,6
2,8

39
2,5
2,10.4

и это:

дней
p1
p2
p3

4
2.1
3,4
4,5

18
8,2
2,2
5,8

22
6,4
3,6
1,4

29
2,4
4,1
2.3

У меня их около 1 миллиона...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
31 окт 2024, 20:01
Mysql Как преобразовать поле int, представляющее дату

Последнее сообщение Anonymous « 05 фев 2025, 04:16
Добавлено в форуме MySql

Anonymous » 05 фев 2025, 04:16 » в форуме MySql

Я унаследовал базу данных MySQL

поле в таблице с типом данных int, содержит дату.

Какая функция можно использовать для преобразования int в дату

я читаю посты, но ни одно из решения не работает с моими данными.

Пример:

int value 701919...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
05 фев 2025, 04:16
Подмножество из набора данных NetCDF4 – Как

Последнее сообщение Anonymous « 15 июл 2024, 23:07
Добавлено в форуме Python

Anonymous » 15 июл 2024, 23:07 » в форуме Python

У меня есть набор данных netCDF4 в Python с тремя переменными (высота, широта, длина).
Мне нужны все значения широты и долготы, когда высота равна 1.Я понимаю, что это что-то вроде создания нового набора данных, когда высота равна 1, но я не могу...

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
15 июл 2024, 23:07
Как загрузить подмножество набора данных из AWS CLI? Либо сценарий bash, либо решение Python будут очень признательны.

Последнее сообщение Anonymous « 01 дек 2024, 12:41
Добавлено в форуме Python

Anonymous » 01 дек 2024, 12:41 » в форуме Python

#!/bin/bash
while IFS= read -r line
do
aws s3 cp --no-sign-request s3://.../$line E:/Papua_New_Guinea/ --region us-east-1 --no-sign-request
done

Подробнее здесь:

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
01 дек 2024, 12:41
Выберите уникальное случайное подмножество из набора уникальных значений.

Последнее сообщение Anonymous « 08 янв 2025, 09:33
Добавлено в форуме C++

Anonymous » 08 янв 2025, 09:33 » в форуме C++

С++. Visual Studio 2010.

У меня есть std::vector V из N уникальных элементов ( тяжелые структуры). Как можно эффективно выбрать из него M случайных уникальных элементов?

Например. V содержит 10 элементов: { 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 }, и я...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
08 янв 2025, 09:33

Вернуться в «Python»