Как случайным образом выбрать очень большой набор данных pyArrow

Как случайным образом выбрать очень большой набор данных pyArrow ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Как случайным образом выбрать очень большой набор данных pyArrow

Цитата

Сообщение Anonymous » 22 май 2024, 07:19

У меня есть очень большой набор данных со стрелками (181 ГБ, 30 м строк) из платформы Huggingface, которую я использовал. Я хочу случайным образом выполнить выборку с заменой 100 строк (20 раз), но, осмотревшись, не могу найти четкого способа сделать это. Я попытался преобразовать в pd.Dataframe, чтобы использовать df.sample(), но каждый раз происходит сбой Python (предположительно из-за большого набора данных). Итак, я ищу что-то встроенное в pyarrow.

Код: Выделить всё

df = Dataset.from_file("embeddings_job/combined_embeddings_small/data-00000-of-00001.arrow")
df=df.to_table().to_pandas() #crashes at this line
random_sample = df.sample(n=100)

Некоторые идеи: не уверен, что это с заменой

Код: Выделить всё

import numpy as np
random_indices = np.random.randint(0, len(df), size=100)

# Take the samples from the dataset
sampled_table = df.select(random_indices)

Использование перетасовки «обнимающего лица»

Код: Выделить всё

    sample_size = 100
# Shuffle the dataset
shuffled_dataset = df.shuffle()

# Select the first 100 rows
sampled_dataset = df.select(range(sample_size))

Есть ли другой способ через команды терминала? Будет ли это правильно:

Код: Выделить всё

for i in {1..30}; do shuf -n 1000 -r file > sampled_$i.txt; done

После получения каждого фрагмента планируется пропустить каждый фрагмент через алгоритм случайного леса. Как лучше всего это сделать?
Кроме того, я хотел бы отметить, что любое решение должно гарантировать, что индексы не будут сброшены, когда я получу выходное подмножество.

Подробнее здесь: https://stackoverflow.com/questions/780 ... ow-dataset

1716351597

Anonymous

У меня есть очень большой набор данных со стрелками (181 ГБ, 30 м строк) из платформы Huggingface, которую я использовал. Я хочу случайным образом выполнить выборку с заменой 100 строк (20 раз), но, осмотревшись, не могу найти четкого способа сделать это. Я попытался преобразовать в pd.Dataframe, чтобы использовать df.sample(), но каждый раз происходит сбой Python (предположительно из-за большого набора данных). Итак, я ищу что-то встроенное в pyarrow.
[code]df = Dataset.from_file("embeddings_job/combined_embeddings_small/data-00000-of-00001.arrow")
df=df.to_table().to_pandas() #crashes at this line
random_sample = df.sample(n=100)
[/code]
Некоторые идеи: не уверен, что это с заменой
[code]import numpy as np
random_indices = np.random.randint(0, len(df), size=100)

# Take the samples from the dataset
sampled_table = df.select(random_indices)

[/code]
Использование перетасовки «обнимающего лица»
[code]    sample_size = 100
# Shuffle the dataset
shuffled_dataset = df.shuffle()

# Select the first 100 rows
sampled_dataset = df.select(range(sample_size))
[/code]
Есть ли другой способ через команды терминала? Будет ли это правильно:
[code]for i in {1..30}; do shuf -n 1000 -r file > sampled_$i.txt; done
[/code]
После получения каждого фрагмента планируется пропустить каждый фрагмент через алгоритм случайного леса. Как лучше всего это сделать?
Кроме того, я хотел бы отметить, что любое решение должно гарантировать, что индексы не будут сброшены, когда я получу выходное подмножество. 

Подробнее здесь: [url]https://stackoverflow.com/questions/78005435/how-to-randomly-sample-very-large-pyarrow-dataset[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Скрипт Python случайным образом терпит неудачу с использованием Pandas случайным образом выходит из строя

Последнее сообщение Anonymous « 27 май 2025, 21:07
Добавлено в форуме Python

Anonymous » 27 май 2025, 21:07 » в форуме Python

У меня есть сценарий, который я запускаю локально, который открывает файл Excel, который у меня есть, добавляет в него некоторые данные, а затем сохраняет его снова. Большую часть времени он работает нормально, но на прошлой неделе я начал получать...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
27 май 2025, 21:07
Сервер Socket Socket висит случайным образом, а ошибка дешифрования RSA возникает случайным образом

Последнее сообщение Anonymous « 26 июн 2025, 01:02
Добавлено в форуме Python

Anonymous » 26 июн 2025, 01:02 » в форуме Python

Я пытаюсь сделать сервер для менеджера паролей, который я строю, но сервер, кажется, висит случайным образом, и, похоже, случайным образом бросает RSA.DecryptionErrors. Недавно я переключился от отправки конечного сообщения на сервер, который затем...

0 Ответы

22 Просмотры

Последнее сообщение Anonymous
26 июн 2025, 01:02
Как случайным образом выбрать набор данных с определенными ограничениями на два логических условия с помощью Python?

Последнее сообщение Anonymous « 09 окт 2024, 06:49
Добавлено в форуме Python

Anonymous » 09 окт 2024, 06:49 » в форуме Python

Я работаю с набором данных из 2500 образцов, и мне нужно извлечь случайное подмножество из 666 образцов, удовлетворяя при этом определенным условиям на основе двух логических столбцов.
Набор данных (df) содержит следующие столбцы:

ID
cond_1...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
09 окт 2024, 06:49
Как случайным образом выбрать набор данных с определенными ограничениями на два логических условия с помощью Python?

Последнее сообщение Anonymous « 09 окт 2024, 10:09
Добавлено в форуме Python

Anonymous » 09 окт 2024, 10:09 » в форуме Python

Я работаю с набором данных из 2500 образцов, и мне нужно извлечь случайное подмножество из 666 образцов, удовлетворяя при этом определенным условиям на основе двух логических столбцов.
Набор данных (df) содержит следующие столбцы:

ID
cond_1...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
09 окт 2024, 10:09
Как случайным образом выбрать набор данных с определенными ограничениями на два логических условия с помощью Python?

Последнее сообщение Anonymous « 09 окт 2024, 11:30
Добавлено в форуме Python

Anonymous » 09 окт 2024, 11:30 » в форуме Python

Я работаю с набором данных из 2500 образцов, и мне нужно извлечь случайное подмножество из 666 образцов, удовлетворяя при этом определенным условиям на основе двух логических столбцов.
Набор данных (df) содержит следующие столбцы:

ID
cond_1...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
09 окт 2024, 11:30

Вернуться в «Python»