Polars вызывает сбой ядра Python при большом наборе данных

Polars вызывает сбой ядра Python при большом наборе данных ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Polars вызывает сбой ядра Python при большом наборе данных

Цитата

Сообщение Anonymous » 11 окт 2024, 11:18

У меня есть большой полярный фрейм данных, который представляет собой перекрестное произведение двух фреймов данных. Я пытаюсь использовать библиотеку медуз, чтобы получить оценку сходства по двум столбцам, например:

Код: Выделить всё

vec_jw_similarity = np.vectorize(jellyfish.jaro_winkler_similarity)
cross_df.with_columns(
(pl.struct(["title", "author", "title_right", "author_right"])
.map_batches(
lambda auth_title: vec_jw_similarity(
auth_title.struct.field("title"),
auth_title.struct.field("title_right"),
)
)
).alias("JW_similarity")
)

Я пробовал это на своем компьютере и на Colab, и каждый раз происходит сбой ядра, и на моей машине появляется сообщение об ошибке, указывающее на утечку памяти. Я опробовал код медузы в цикле на синтезированных данных, которые на порядок превышают мой фрейм данных, и он работает без утечек или сбоев, поэтому я подозреваю, что это полярные данные, но я могу ошибаться.

Подробнее здесь: https://stackoverflow.com/questions/790 ... e-data-set

1728634693

Anonymous

У меня есть большой полярный фрейм данных, который представляет собой перекрестное произведение двух фреймов данных. Я пытаюсь использовать библиотеку медуз, чтобы получить оценку сходства по двум столбцам, например:
[code]vec_jw_similarity = np.vectorize(jellyfish.jaro_winkler_similarity)
cross_df.with_columns(
(pl.struct(["title", "author", "title_right", "author_right"])
.map_batches(
lambda auth_title: vec_jw_similarity(
auth_title.struct.field("title"),
auth_title.struct.field("title_right"),
)
)
).alias("JW_similarity")
)
[/code]
Я пробовал это на своем компьютере и на Colab, и каждый раз происходит сбой ядра, и на моей машине появляется сообщение об ошибке, указывающее на утечку памяти. Я опробовал код медузы в цикле на синтезированных данных, которые на порядок превышают мой фрейм данных, и он работает без утечек или сбоев, поэтому я подозреваю, что это полярные данные, но я могу ошибаться.
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79076730/polars-causes-python-kernel-crash-on-large-data-set[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Проблемы с памятью с потоковой передачей Polars при вычислении внешних продуктов в большом наборе данных »

Последнее сообщение Anonymous « 13 фев 2025, 15:16
Добавлено в форуме Python

Anonymous » 13 фев 2025, 15:16 » в форуме Python

Я работаю с большим набором данных (~ 14 млн строк), используя поляры и столкнувшись с проблемами памяти, несмотря на использование потокового двигателя. Вот мой код:
import polars as pl

# Read CSV in streaming mode
df = pl.scan_csv(...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
13 фев 2025, 15:16
Проблемы с памятью с потоковой передачей Polars при вычислении внешних продуктов в большом наборе данных »

Последнее сообщение Anonymous « 13 фев 2025, 17:12
Добавлено в форуме Python

Anonymous » 13 фев 2025, 17:12 » в форуме Python

Я работаю с большим набором данных (~ 14 млн строк), используя поляры и столкнувшись с проблемами памяти, несмотря на использование потокового двигателя. Вот мой код:
import polars as pl

# Read CSV in streaming mode
df = pl.scan_csv(...

0 Ответы

8 Просмотры

Последнее сообщение Anonymous
13 фев 2025, 17:12
Проблемы с памятью с потоковой передачей Polars при вычислении внешних продуктов в большом наборе данных »

Последнее сообщение Anonymous « 13 фев 2025, 18:38
Добавлено в форуме Python

Anonymous » 13 фев 2025, 18:38 » в форуме Python

Я работаю с большим набором данных (~ 14 млн строк), используя поляры и столкнувшись с проблемами памяти, несмотря на использование потокового двигателя. Вот мой код:
import polars as pl

# Read CSV in streaming mode
df = pl.scan_csv(...

0 Ответы

8 Просмотры

Последнее сообщение Anonymous
13 фев 2025, 18:38
Сбой оперативной памяти при использовании train_test_split в большом наборе данных в Colab

Последнее сообщение Anonymous « 11 фев 2025, 19:47
Добавлено в форуме Python

Anonymous » 11 фев 2025, 19:47 » в форуме Python

Я работаю над проектом анализа настроений с большим набором данных, содержащим 160 000 строк встроенных комментариев. Когда я использую train_test_split из sklearn.model_selection, оперативная память в Google Colab полностью занята, а сеанс сбои....

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
11 фев 2025, 19:47
Сбой оперативной памяти при использовании train_test_split в большом наборе данных в Colab [закрыто]

Последнее сообщение Anonymous « 12 фев 2025, 14:04
Добавлено в форуме Python

Anonymous » 12 фев 2025, 14:04 » в форуме Python

Я работаю над проектом анализа настроений с большим набором данных, содержащим 160 000 строк встроенных комментариев. Код>, оперативная память в Google Colab полностью занята, а сеанс вылетает. разделение такого большого набора данных?

Подробнее...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
12 фев 2025, 14:04

Вернуться в «Python»