Код: Выделить всё
df = Dataset.from_file("embeddings_job/combined_embeddings_small/data-00000-of-00001.arrow")
df=df.to_table().to_pandas() #crashes at this line
random_sample = df.sample(n=100)
Код: Выделить всё
import numpy as np
random_indices = np.random.randint(0, len(df), size=100)
# Take the samples from the dataset
sampled_table = df.select(random_indices)
Код: Выделить всё
sample_size = 100
# Shuffle the dataset
shuffled_dataset = df.shuffle()
# Select the first 100 rows
sampled_dataset = df.select(range(sample_size))
Код: Выделить всё
for i in {1..30}; do shuf -n 1000 -r file > sampled_$i.txt; done
Кроме того, я хотел бы отметить, что любое решение должно гарантировать, что индексы не будут сброшены, когда я получу выходное подмножество.
Подробнее здесь: https://stackoverflow.com/questions/780 ... ow-dataset