У меня есть очень большой фрейм данных «df» с 20 миллионами элементов.
Я хочу иметь возможность разделить этот набор данных на сегменты размером 20 КБ каждый. И я хочу, чтобы полученные сегменты были переименованы в «Группа1», «Группа2» и т. д. Вместо того, чтобы кодировать это вручную, я заглянул в Bucketizer, но мне не удалось запустить код. Как бы мне это сделать?
Причина разделения набора данных заключается в том, что базовая функция записи Snowpark может обрабатывать только ограниченный объем данных за раз без тайм-аута.
Подробнее здесь: https://stackoverflow.com/questions/790 ... in-pyspark
Разделить большой набор данных на равные сегменты в pyspark ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
-
-
Разделить длинную шестнадцатеричную строку на сегменты по 8 байт, начиная с КОНЦА
Anonymous » » в форуме Python - 0 Ответы
- 12 Просмотры
-
Последнее сообщение Anonymous
-
-
-
Разделить длинную шестнадцатеричную строку на сегменты по 8 байт, начиная с КОНЦА
Anonymous » » в форуме Python - 0 Ответы
- 6 Просмотры
-
Последнее сообщение Anonymous
-
-
-
PHP – разделить строку на две равные части, но во второй строке больше слов
Anonymous » » в форуме Php - 0 Ответы
- 50 Просмотры
-
Последнее сообщение Anonymous
-