Разделить большой набор данных на равные сегменты в pyspark

Разделить большой набор данных на равные сегменты в pyspark ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Разделить большой набор данных на равные сегменты в pyspark

Цитата

Сообщение Anonymous » 11 окт 2024, 18:43

У меня есть очень большой фрейм данных «df» с 20 миллионами элементов.
Я хочу иметь возможность разделить этот набор данных на сегменты размером 20 КБ каждый. И я хочу, чтобы полученные сегменты были переименованы в «Группа1», «Группа2» и т. д. Вместо того, чтобы кодировать это вручную, я заглянул в Bucketizer, но мне не удалось запустить код. Как бы мне это сделать?
Причина разделения набора данных заключается в том, что базовая функция записи Snowpark может обрабатывать только ограниченный объем данных за раз без тайм-аута.

Подробнее здесь: https://stackoverflow.com/questions/790 ... in-pyspark

1728661437

Anonymous

У меня есть очень большой фрейм данных «df» с 20 миллионами элементов.
Я хочу иметь возможность разделить этот набор данных на сегменты размером 20 КБ каждый. И я хочу, чтобы полученные сегменты были переименованы в «Группа1», «Группа2» и т. д. Вместо того, чтобы кодировать это вручную, я заглянул в Bucketizer, но мне не удалось запустить код. Как бы мне это сделать?
Причина разделения набора данных заключается в том, что базовая функция записи Snowpark может обрабатывать только ограниченный объем данных за раз без тайм-аута. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79078913/split-into-large-dataset-into-equal-buckets-in-pyspark[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Разделить большой набор данных на равные сегменты в pyspark

Последнее сообщение Anonymous « 15 окт 2024, 20:03
Добавлено в форуме Python

Anonymous » 15 окт 2024, 20:03 » в форуме Python

У меня есть очень большой фрейм данных «df» с 20 миллионами элементов.
Я хочу иметь возможность разделить этот набор данных на сегменты размером 20 КБ каждый. И я хочу, чтобы полученные сегменты были переименованы в «Группа1», «Группа2» и так далее....

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
15 окт 2024, 20:03
Как я могу разделить (разделить, разделить) список на основе условия?

Последнее сообщение Anonymous « 25 июн 2024, 19:12
Добавлено в форуме Python

Anonymous » 25 июн 2024, 19:12 » в форуме Python

У меня есть такой код:
good =
bad =

Цель состоит в том, чтобы разделить содержимое mylist на два других списка в зависимости от того, соответствуют ли они условию.
Как это сделать более элегантно? Могу ли я избежать двух отдельных итераций над...

0 Ответы

111 Просмотры

Последнее сообщение Anonymous
25 июн 2024, 19:12
Разделить длинную шестнадцатеричную строку на сегменты по 8 байт, начиная с КОНЦА

Последнее сообщение Anonymous « 07 окт 2024, 03:10
Добавлено в форуме Python

Anonymous » 07 окт 2024, 03:10 » в форуме Python

Если я запущу этот код, я получу сегменты, начиная с самого начала. Мне нужен этот код для целей с прямым порядком байтов, поэтому мне придется изменить порядок на обратный, поскольку я буду помещать байты в стек, а последние байты в конце на самом...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
07 окт 2024, 03:10
Разделить длинную шестнадцатеричную строку на сегменты по 8 байт, начиная с КОНЦА

Последнее сообщение Anonymous « 07 окт 2024, 04:21
Добавлено в форуме Python

Anonymous » 07 окт 2024, 04:21 » в форуме Python

Если я запущу этот код, я получу сегменты, начиная с самого начала. Мне нужен этот код для целей с прямым порядком байтов, поэтому мне придется изменить порядок на обратный, поскольку я буду помещать байты в стек, а последние байты в конце на самом...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
07 окт 2024, 04:21
PHP – разделить строку на две равные части, но во второй строке больше слов

Последнее сообщение Anonymous « 07 ноя 2023, 09:55
Добавлено в форуме Php

Anonymous » 07 ноя 2023, 09:55 » в форуме Php

У меня есть функция, позволяющая разбить строку на две равные части в зависимости от количества слов в строке. Затем я заключаю две новые строки в отдельные span. Если в исходной строке нечетное количество слов, я бы хотел, чтобы второй диапазон...

0 Ответы

50 Просмотры

Последнее сообщение Anonymous
07 ноя 2023, 09:55

Вернуться в «Python»