Улучшить производительность Pandas для очень больших фреймов данных? - Цифровое Кемерово

Улучшить производительность Pandas для очень больших фреймов данных? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Улучшить производительность Pandas для очень больших фреймов данных?

Цитата

Сообщение Anonymous » 06 окт 2024, 20:11

У меня есть несколько фреймов данных Pandas с несколькими миллионами строк каждый. В кадрах данных есть столбцы, содержащие объекты JSON, каждый из которых содержит более 100 полей. У меня есть набор из 24 функций, которые последовательно выполняются в кадрах данных, обрабатывают JSON (например, вычисляют некоторое строковое расстояние между двумя полями в JSON) и возвращают JSON с добавлением некоторых новых полей. После выполнения всех 24 функций я получаю окончательный JSON, который затем можно использовать в своих целях.
Мне интересно, как лучше всего повысить производительность этого набора данных. Несколько вещей, которые я рассмотрел и прочитал:

Векторизировать сложно, потому что многие операции не так просты, как «вычесть значения этого столбца из значений другого столбца». значения».
Я прочитал некоторую документацию Pandas, и несколько указанных опций относятся к Cython (может быть сложно преобразовать расстояние редактирования строки в Cython, тем более что я использую внешний Python) и Numba/JIT (но упоминается, что он лучше всего подходит только для числовых вычислений).
Возможно, можно было бы контролировать количество потоков. 24 функции в большинстве случаев могут работать независимо друг от друга.

Подробнее здесь: https://stackoverflow.com/questions/751 ... dataframes

Реклама

1728234691

Anonymous

У меня есть несколько фреймов данных Pandas с несколькими миллионами строк каждый. В кадрах данных есть столбцы, содержащие объекты JSON, каждый из которых содержит более 100 полей. У меня есть набор из 24 функций, которые последовательно выполняются в кадрах данных, обрабатывают JSON (например, вычисляют некоторое строковое расстояние между двумя полями в JSON) и возвращают JSON с добавлением некоторых новых полей. После выполнения всех 24 функций я получаю окончательный JSON, который затем можно использовать в своих целях.
Мне интересно, как лучше всего повысить производительность этого набора данных. Несколько вещей, которые я рассмотрел и прочитал:
[list]
[*]Векторизировать сложно, потому что многие операции не так просты, как «вычесть значения этого столбца из значений другого столбца». значения».
[*]Я прочитал некоторую документацию Pandas, и несколько указанных опций относятся к Cython (может быть сложно преобразовать расстояние редактирования строки в Cython, тем более что я использую внешний Python) и Numba/JIT (но упоминается, что он лучше всего подходит только для числовых вычислений).
[*]Возможно, можно было бы контролировать количество потоков. 24 функции в большинстве случаев могут работать независимо друг от друга.
[/list] 

Подробнее здесь: [url]https://stackoverflow.com/questions/75166767/improve-pandas-performance-for-very-large-dataframes[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как выполнить модульное тестирование сценариев AWS Glue с использованием pytest, динамических фреймов и фреймов данных?

Последнее сообщение Anonymous « 04 дек 2024, 20:54
Добавлено в форуме Python

Anonymous » 04 дек 2024, 20:54 » в форуме Python

Я хочу провести модульное тестирование своих скриптов AWS Glue. Я использую Python и Pyspark. Я хочу объединить функции модульного тестирования, использующие динамические фреймы и фреймы данных. Мне не нужно взаимодействовать с AWS или передавать...

0 Ответы

29 Просмотры

Последнее сообщение Anonymous
04 дек 2024, 20:54
Как улучшить производительность модели случайного леса для больших несбалансированных наборов данных в Python?

Последнее сообщение Anonymous « 18 окт 2024, 04:19
Добавлено в форуме Python

Anonymous » 18 окт 2024, 04:19 » в форуме Python

Я работал над моделью случайного леса, чтобы прогнозировать отток сотрудников. Мой набор данных сильно несбалансирован: около 80% случаев не истощения и 20% случаев истощения. Хотя я попробовал SMOTE для балансировки классов, точность моей модели...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
18 окт 2024, 04:19
Как улучшить производительность модели случайного леса для больших несбалансированных наборов данных?

Последнее сообщение Anonymous « 18 окт 2024, 11:56
Добавлено в форуме Python

Anonymous » 18 окт 2024, 11:56 » в форуме Python

Я работал над моделью случайного леса, чтобы прогнозировать отток сотрудников. Мой набор данных сильно несбалансирован: около 80% случаев не истощения и 20% случаев истощения. Хотя я попробовал SMOTE для балансировки классов, точность моей модели...

0 Ответы

23 Просмотры

Последнее сообщение Anonymous
18 окт 2024, 11:56
Как я могу улучшить производительность потоковой передачи файлов в FastAPI для больших файлов .OBJ?

Последнее сообщение Anonymous « 11 июл 2025, 17:14
Добавлено в форуме Python

Anonymous » 11 июл 2025, 17:14 » в форуме Python

Я работаю над проектом FASTAPI, где мне нужно отправить большие файлы .OBJ на фронт. В настоящее время я использую StreamingResponse для потоковой передачи файлов, но это все еще относительно медленно при обработке больших файлов.
from fastapi...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
11 июл 2025, 17:14
Как улучшить производительность очень медленного, анимированного фона SVG?

Последнее сообщение Anonymous « 30 апр 2025, 14:14
Добавлено в форуме Html

Anonymous » 30 апр 2025, 14:14 » в форуме Html

Я создал интересную анимацию SVG, имитируя светящиеся лифты, летящие вверх и вниз на заднем плане. Этот SVG изготовлен из определенного размера, затем он повторяется с помощью Facy Repeat CSS. Я
Анимация, когда при этом, в ходе хрома, на всей...

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
30 апр 2025, 14:14

Вернуться в «Python»

Programmiererforum