Как сгруппировать фреймы данных, чтобы получить подмножество, представляющее полный диапазон большего набораPython

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Как сгруппировать фреймы данных, чтобы получить подмножество, представляющее полный диапазон большего набора

Сообщение Anonymous »

Это два примера имеющихся у меня фреймов данных:

< thead>

дней
p1
p2
< th>p3




42.1
3.4
4.5


15
2,2
3,6
2,8


39
2,5
2,10.4



и это:< /p>



дней
p1
p2
p3



4
2.1
< td>3,4
4,5


18
8,2
2,2
5,8


22
6,4
3,6
1,4
< /tr>

29
2,4
4,1
2.3



У меня их около 1 миллиона фреймы данных (те же столбцы, разная длина), и я хочу вывести около 50 000 подмножеств, которые справедливо представляют все существующие различные фреймы данных. По сути, кадры данных должны быть действительным представлением, поэтому обучение модели ML на полном 1 миллионе или подмножестве из 50 тысяч должно дать модели ML почти такое же поведение.
Количество дней важно поскольку два фрейма данных с одинаковыми значениями параметра (p), но с совершенно разными столбцами дней, не равны
Идея моего подхода состоит в том, чтобы сгруппировать фреймы данных вместе по переменной для каждого уровня. Затем возьмите по одному кадру данных из каждой группы на нижнем уровне.
Уровень группы 1 (GL1): сгруппируйте кадры данных по количеству строк.
Уровень группы 2 (GL2): для каждого кадра данных в GL1 сгруппируйте кадры данных, имеющие одинаковый столбец дней, с помощью анализа кластеризации (кластеризация DBSCAN?)
Уровень группы 3 (GL3): для каждого кадра данных в GL2 группируйте фреймы данных вместе со схожими значениями параметров с помощью анализа кластеризации (кластеризация DBSCAN?)
Возьмите 1 фрейм данных из каждой группы GL3, чтобы представить эту группу фреймов данных.
Возможно, он не сможет получить полные максимальные и минимальные значения для каждого параметра, но кажется, что этот метод будет весьма всеобъемлющим. Это хорошая идея или у вас есть идеи получше?

Подробнее здесь: https://stackoverflow.com/questions/791 ... -of-the-la
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»