Несмотря на это, у меня есть набор данных примерно с 4800 строками, и я хочу сгруппировать этот набор данных в 8 групп, однако мне бы хотелось, чтобы этот окончательный набор данных содержал только половину строк, которые есть в других (следовательно, 7,5 групп). Я бы хотел, чтобы в каждой из этих строк было примерно одинаковое количество строк (за исключением группы 8, в которой будет 1/2), а сумма их значений была бы примерно одинаковой.
- Всего строк: 4792
- Сумма значений: 33367
- Среднее значение на строку: 33367/4792=6,963
- Медиана: 2
- Стандартное отклонение: 13,644
- Всего строк на предполагаемую группу: 638,93
- Всего строк для 8-й группы: 319,46
- Общее значение на предполагаемую группу: 4448,933
- Общее значение для 8-й группы: 2224,4965
Подробнее здесь: https://stackoverflow.com/questions/752 ... value-of-y
Мобильная версия