Ядро умирает из-за больших агрегаций наборов данных на полярах

Ядро умирает из-за больших агрегаций наборов данных на полярах ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Ядро умирает из-за больших агрегаций наборов данных на полярах

Цитата

Сообщение Anonymous » 09 ноя 2024, 02:12

Я пытаюсь выполнить запросы, включающие агрегаты, используя поляры для больших наборов данных. Я использовал потоковую передачу = True, но ядро продолжает умирать. В чем может быть проблема? Как это исправить?
def base_medium_polars_queries(log_dir, result_file):
print(",base_medium_polars_queries")
df = pl.scan_csv(log_dir) # Lazy loading of CSV
query_index = 0
for ix, iy in combinations:
for col in ['request_io_size_bytes', 'disk_time']:
query_index += 1
t1 = time.time()

# Perform first group_by aggregation on two columns
res = df.group_by([ix, iy]).agg(pl.col(col).sum())

# Perform secondary aggregation on the result of the first aggregation
res = res.group_by(ix).agg(pl.col(col).sum()).collect(streaming=True)

# Measure time and memory usage
time_elapsed = time.time() - t1
memory_usage = res.estimated_size()

# Log results
log_results_to_file(result_file, time_elapsed, memory_usage)
print(f"medium,Q{query_index},{time_elapsed},{memory_usage}")
base_medium_polars_queries("../datasets_thesios_io_traces/dataset-125m.csv", "results_rust_medium_queries_csv/results_rust_base_medium_125m.txt")

Подробнее здесь: https://stackoverflow.com/questions/791 ... -on-polars

1731107529

Anonymous

Я пытаюсь выполнить запросы, включающие агрегаты, используя поляры для больших наборов данных. Я использовал потоковую передачу = True, но ядро продолжает умирать. В чем может быть проблема? Как это исправить?
def base_medium_polars_queries(log_dir, result_file):
print(",base_medium_polars_queries")
df = pl.scan_csv(log_dir)  # Lazy loading of CSV
query_index = 0
for ix, iy in combinations:
for col in ['request_io_size_bytes', 'disk_time']:
query_index += 1
t1 = time.time()

# Perform first group_by aggregation on two columns
res = df.group_by([ix, iy]).agg(pl.col(col).sum())

# Perform secondary aggregation on the result of the first aggregation
res = res.group_by(ix).agg(pl.col(col).sum()).collect(streaming=True)

# Measure time and memory usage
time_elapsed = time.time() - t1
memory_usage = res.estimated_size()

# Log results
log_results_to_file(result_file, time_elapsed, memory_usage)
print(f"medium,Q{query_index},{time_elapsed},{memory_usage}")
base_medium_polars_queries("../datasets_thesios_io_traces/dataset-125m.csv", "results_rust_medium_queries_csv/results_rust_base_medium_125m.txt")
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79171797/kernel-dying-with-large-dataset-aggregations-on-polars[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Ядро Jupyter Lab умирает до запуска Train.train()

Последнее сообщение Anonymous « 16 сен 2024, 20:38
Добавлено в форуме Python

Anonymous » 16 сен 2024, 20:38 » в форуме Python

Работаю над тонкой настройкой phi-3.5-mini, и при попытке запустить Trainer.train() я получаю следующую ошибку:
***** Running training *****
Num examples = 647
Num Epochs = 3
Instantaneous batch size per device = 8
Total train batch size (w....

0 Ответы

51 Просмотры

Последнее сообщение Anonymous
16 сен 2024, 20:38
Ядро Jupyter Lab умирает до запуска Train.train()

Последнее сообщение Anonymous « 16 сен 2024, 23:29
Добавлено в форуме Python

Anonymous » 16 сен 2024, 23:29 » в форуме Python

Работаю над тонкой настройкой phi-3.5-mini, и при попытке запустить Trainer.train() я получаю следующую ошибку:
***** Running training *****
Num examples = 647
Num Epochs = 3
Instantaneous batch size per device = 8
Total train batch size (w....

0 Ответы

43 Просмотры

Последнее сообщение Anonymous
16 сен 2024, 23:29
Ядро Jupyter Notebook постоянно умирает

Последнее сообщение Anonymous « 23 сен 2024, 22:50
Добавлено в форуме Python

Anonymous » 23 сен 2024, 22:50 » в форуме Python

Я писал код в Jupyter Notebook целый день, но ядро продолжает умирать снова и снова. В основном это произошло из-за библиотеки Openml, когда я выполнил этот код.
credit_data = openml.datasets.get_dataset(31)
X, y, _, _ =credit_data.get_data(target...

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
23 сен 2024, 22:50
Ядро Jupyter Notebook постоянно умирает

Последнее сообщение Anonymous « 24 сен 2024, 04:22
Добавлено в форуме Python

Anonymous » 24 сен 2024, 04:22 » в форуме Python

Я писал код в Jupyter Notebook целый день, но ядро продолжает умирать снова и снова. В основном это произошло из-за библиотеки Openml, когда я выполнял этот код
credit_data = openml.datasets.get_dataset(31)
X, y, _, _ =...

0 Ответы

53 Просмотры

Последнее сообщение Anonymous
24 сен 2024, 04:22
Мое ядро всегда умирает при попытке импортировать пакет shaprpy (версия пакета Shapr Python для R). Кто-нибудь имеет о

Последнее сообщение Anonymous « 20 окт 2024, 17:31
Добавлено в форуме Python

Anonymous » 20 окт 2024, 17:31 » в форуме Python

Я успешно установил пакет shapr в R и запустил пример кода, приведенный в репозитории Github ( Я хочу использовать пакет на Python, потому что именно там я построил свою модель. Однако, когда я пытаюсь импортировать версию shaprpy (оболочку пакета...

0 Ответы

19 Просмотры

Последнее сообщение Anonymous
20 окт 2024, 17:31

Вернуться в «Python»