Как запустить конвейер Kedro для определенного входного набора данных CSV, содержащего список запросов, которые необходиPython

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Как запустить конвейер Kedro для определенного входного набора данных CSV, содержащего список запросов, которые необходи

Сообщение Anonymous »

Мои основные входные данные — это список проверок (в файле csv), которые мне нужно оценить на огромном наборе данных.
В моем основном узле я анализирую файл csv и для каждой строки получаю соответствующие данные из каталога, извлекаю данные, провожу анализ и, наконец, если у меня есть 5 строк во входном CSV-файле, я добавляю все 5 выходных данных (это много строк) вертикально друг над другом (потому что число количество наборов данных, возвращаемых моим конвейером, зависит от количества строк во входном CSV-файле, а в Kedro вы можете возвращать только определенное количество наборов данных, также ищите способы оптимизировать это)
Как передаю ли я данные таким образом, чтобы я мог запускать свой конвейер так, как должен работать обычный конвейер Kedro (данные передаются от одного узла к другому вместо использования одного узла для вызова нескольких функций, поскольку мои входные данные находятся в csv).
Теперь я могу оценивать только одну проверку за раз, и мне нужно расширить ее, чтобы обеспечить возможность оценки нескольких проверок (или нескольких строк во входном CSV-файле). одновременно, на основе группировки некоторых входных параметров.
Я пишу в PySpark и новичок в конвейерах и Python, поэтому буду благодарен за любую помощь.

Подробнее здесь: https://stackoverflow.com/questions/782 ... contains-a
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»