Это два примера имеющихся у меня фреймов данных:
< thead>
дней
p1
p2
< th>p3
42.1
3.4
4.5
15
2,2
3,6
2,8
39
2,5
2,10.4
и это:< /p>
дней
p1
p2
p3
4
2.1
< td>3,4
4,5
18
8,2
2,2
5,8
22
6,4
3,6
1,4
< /tr>
29
2,4
4,1
2.3
У меня их около 1 миллиона фреймы данных (те же столбцы, разная длина), и я хочу вывести около 50 000 подмножеств, которые справедливо представляют все существующие различные фреймы данных. По сути, кадры данных должны быть действительным представлением, поэтому обучение модели ML на полном 1 миллионе или подмножестве из 50 тысяч должно дать модели ML почти такое же поведение.
Количество дней важно поскольку два фрейма данных с одинаковыми значениями параметра (p), но с совершенно разными столбцами дней, не равны
Идея моего подхода состоит в том, чтобы сгруппировать фреймы данных вместе по переменной для каждого уровня. Затем возьмите по одному кадру данных из каждой группы на нижнем уровне.
Уровень группы 1 (GL1): сгруппируйте кадры данных по количеству строк.
Уровень группы 2 (GL2): для каждого кадра данных в GL1 сгруппируйте кадры данных, имеющие одинаковый столбец дней, с помощью анализа кластеризации (кластеризация DBSCAN?)
Уровень группы 3 (GL3): для каждого кадра данных в GL2 группируйте фреймы данных вместе со схожими значениями параметров с помощью анализа кластеризации (кластеризация DBSCAN?)
Возьмите 1 фрейм данных из каждой группы GL3, чтобы представить эту группу фреймов данных.
Возможно, он не сможет получить полные максимальные и минимальные значения для каждого параметра, но кажется, что этот метод будет весьма всеобъемлющим. Это хорошая идея или у вас есть идеи получше?
Подробнее здесь: https://stackoverflow.com/questions/791 ... -of-the-la
Как сгруппировать фреймы данных, чтобы получить подмножество, представляющее полный диапазон большего набора ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
-
-
Выберите уникальное случайное подмножество из набора уникальных значений.
Anonymous » » в форуме C++ - 0 Ответы
- 5 Просмотры
-
Последнее сообщение Anonymous
-