У меня есть несколько фреймов данных Pandas с несколькими миллионами строк каждый. В кадрах данных есть столбцы, содержащие объекты JSON, каждый из которых содержит более 100 полей. У меня есть набор из 24 функций, которые последовательно выполняются в кадрах данных, обрабатывают JSON (например, вычисляют некоторое строковое расстояние между двумя полями в JSON) и возвращают JSON с добавлением некоторых новых полей. После выполнения всех 24 функций я получаю окончательный JSON, который затем можно использовать в своих целях.
Мне интересно, как лучше всего повысить производительность этого набора данных. Несколько вещей, которые я рассмотрел и прочитал:
Векторизировать сложно, потому что многие операции не так просты, как «вычесть значения этого столбца из значений другого столбца». значения».
Я прочитал некоторую документацию Pandas, и несколько указанных опций относятся к Cython (может быть сложно преобразовать расстояние редактирования строки в Cython, тем более что я использую внешний Python) и Numba/JIT (но упоминается, что он лучше всего подходит только для числовых вычислений).
Возможно, можно было бы контролировать количество потоков. 24 функции в большинстве случаев могут работать независимо друг от друга.
У меня есть несколько фреймов данных Pandas с несколькими миллионами строк каждый. В кадрах данных есть столбцы, содержащие объекты JSON, каждый из которых содержит более 100 полей. У меня есть набор из 24 функций, которые последовательно выполняются в кадрах данных, обрабатывают JSON (например, вычисляют некоторое строковое расстояние между двумя полями в JSON) и возвращают JSON с добавлением некоторых новых полей. После выполнения всех 24 функций я получаю окончательный JSON, который затем можно использовать в своих целях. Мне интересно, как лучше всего повысить производительность этого набора данных. Несколько вещей, которые я рассмотрел и прочитал: [list] [*]Векторизировать сложно, потому что многие операции не так просты, как «вычесть значения этого столбца из значений другого столбца». значения». [*]Я прочитал некоторую документацию Pandas, и несколько указанных опций относятся к Cython (может быть сложно преобразовать расстояние редактирования строки в Cython, тем более что я использую внешний Python) и Numba/JIT (но упоминается, что он лучше всего подходит только для числовых вычислений). [*]Возможно, можно было бы контролировать количество потоков. 24 функции в большинстве случаев могут работать независимо друг от друга. [/list]
Я хочу провести модульное тестирование своих скриптов AWS Glue. Я использую Python и Pyspark. Я хочу объединить функции модульного тестирования, использующие динамические фреймы и фреймы данных. Мне не нужно взаимодействовать с AWS или передавать...
Я работал над моделью случайного леса, чтобы прогнозировать отток сотрудников. Мой набор данных сильно несбалансирован: около 80% случаев не истощения и 20% случаев истощения. Хотя я попробовал SMOTE для балансировки классов, точность моей модели...
Я работал над моделью случайного леса, чтобы прогнозировать отток сотрудников. Мой набор данных сильно несбалансирован: около 80% случаев не истощения и 20% случаев истощения. Хотя я попробовал SMOTE для балансировки классов, точность моей модели...
Я работаю над проектом FASTAPI, где мне нужно отправить большие файлы .OBJ на фронт. В настоящее время я использую StreamingResponse для потоковой передачи файлов, но это все еще относительно медленно при обработке больших файлов.
from fastapi...
Я создал интересную анимацию SVG, имитируя светящиеся лифты, летящие вверх и вниз на заднем плане. Этот SVG изготовлен из определенного размера, затем он повторяется с помощью Facy Repeat CSS. Я
Анимация, когда при этом, в ходе хрома, на всей...