Мои основные входные данные — это список проверок (в файле csv), которые мне нужно оценить на огромном наборе данных.
В моем основном узле я анализирую файл csv и для каждой строки получаю соответствующие данные из каталога, извлекаю данные, провожу анализ и, наконец, если у меня есть 5 строк во входном CSV-файле, я добавляю все 5 выходных данных (это много строк) вертикально друг над другом (потому что число количество наборов данных, возвращаемых моим конвейером, зависит от количества строк во входном CSV-файле, а в Kedro вы можете возвращать только определенное количество наборов данных, также ищите способы оптимизировать это)
Как передаю ли я данные таким образом, чтобы я мог запускать свой конвейер так, как должен работать обычный конвейер Kedro (данные передаются от одного узла к другому вместо использования одного узла для вызова нескольких функций, поскольку мои входные данные находятся в csv).
Теперь я могу оценивать только одну проверку за раз, и мне нужно расширить ее, чтобы обеспечить возможность оценки нескольких проверок (или нескольких строк во входном CSV-файле). одновременно, на основе группировки некоторых входных параметров.
Я пишу в PySpark и новичок в конвейерах и Python, поэтому буду благодарен за любую помощь.
Подробнее здесь: https://stackoverflow.com/questions/782 ... contains-a
Как запустить конвейер Kedro для определенного входного набора данных CSV, содержащего список запросов, которые необходи ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
-
-
Как динамически объединить несколько похожих наборов данных в один в Kedro?
Anonymous » » в форуме Python - 0 Ответы
- 29 Просмотры
-
Последнее сообщение Anonymous
-