Как запустить конвейер Kedro для определенного входного набора данных CSV, содержащего список запросов, которые необходи

Как запустить конвейер Kedro для определенного входного набора данных CSV, содержащего список запросов, которые необходи ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Как запустить конвейер Kedro для определенного входного набора данных CSV, содержащего список запросов, которые необходи

Цитата

Сообщение Anonymous » 29 май 2024, 18:45

Мои основные входные данные — это список проверок (в файле csv), которые мне нужно оценить на огромном наборе данных.
В моем основном узле я анализирую файл csv и для каждой строки получаю соответствующие данные из каталога, извлекаю данные, провожу анализ и, наконец, если у меня есть 5 строк во входном CSV-файле, я добавляю все 5 выходных данных (это много строк) вертикально друг над другом (потому что число количество наборов данных, возвращаемых моим конвейером, зависит от количества строк во входном CSV-файле, а в Kedro вы можете возвращать только определенное количество наборов данных, также ищите способы оптимизировать это)
Как передаю ли я данные таким образом, чтобы я мог запускать свой конвейер так, как должен работать обычный конвейер Kedro (данные передаются от одного узла к другому вместо использования одного узла для вызова нескольких функций, поскольку мои входные данные находятся в csv).
Теперь я могу оценивать только одну проверку за раз, и мне нужно расширить ее, чтобы обеспечить возможность оценки нескольких проверок (или нескольких строк во входном CSV-файле). одновременно, на основе группировки некоторых входных параметров.
Я пишу в PySpark и новичок в конвейерах и Python, поэтому буду благодарен за любую помощь.

Подробнее здесь: https://stackoverflow.com/questions/782 ... contains-a

1716997553

Anonymous

Мои основные входные данные — это список проверок (в файле csv), которые мне нужно оценить на огромном наборе данных.
В моем основном узле я анализирую файл csv и для каждой строки получаю соответствующие данные из каталога, извлекаю данные, провожу анализ и, наконец, если у меня есть 5 строк во входном CSV-файле, я добавляю все 5 выходных данных (это много строк) вертикально друг над другом (потому что число количество наборов данных, возвращаемых моим конвейером, зависит от количества строк во входном CSV-файле, а в Kedro вы можете возвращать только определенное количество наборов данных, также ищите способы оптимизировать это)
Как передаю ли я данные таким образом, чтобы я мог запускать свой конвейер так, как должен работать обычный конвейер Kedro (данные передаются от одного узла к другому вместо использования одного узла для вызова нескольких функций, поскольку мои входные данные находятся в csv).
Теперь я могу оценивать только одну проверку за раз, и мне нужно расширить ее, чтобы обеспечить возможность оценки нескольких проверок (или нескольких строк во входном CSV-файле). одновременно, на основе группировки некоторых входных параметров.
Я пишу в PySpark и новичок в конвейерах и Python, поэтому буду благодарен за любую помощь. 

Подробнее здесь: [url]https://stackoverflow.com/questions/78259910/how-do-i-run-a-kedro-pipeline-on-a-particular-input-csv-dataset-that-contains-a[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как запустить конвейер Kedro

Последнее сообщение Anonymous « 02 окт 2024, 16:45
Добавлено в форуме Python

Anonymous » 02 окт 2024, 16:45 » в форуме Python

Я пытаюсь запустить этот алгоритм, который находится в конвейере kedro.
Я прочитал документацию по Kedro, мне удалось открыть блокнот Jupyter с ядром Kedro и запустить несколько ячеек. с командами, которые были в этой документации кедро - см. здесь....

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
02 окт 2024, 16:45
Издевающийся конвейер агрегации в тесте SpringBoot завершается с ошибкой «Конвейер агрегации не должен быть нулевым»

Последнее сообщение Anonymous « 23 окт 2024, 14:25
Добавлено в форуме JAVA

Anonymous » 23 окт 2024, 14:25 » в форуме JAVA

Я работаю над тестированием агрегации MongoDB в сервисном классе Spring Boot. Тестовый класс использует Mockito для имитации операции агрегации, но при запуске теста возникает ошибка. В частности, в сообщении об ошибке говорится: «Конвейер агрегации...

0 Ответы

256 Просмотры

Последнее сообщение Anonymous
23 окт 2024, 14:25
Как динамически объединить несколько похожих наборов данных в один в Kedro?

Последнее сообщение Anonymous « 08 окт 2024, 12:40
Добавлено в форуме Python

Anonymous » 08 окт 2024, 12:40 » в форуме Python

Я использую Kedro для запуска конвейеров для нескольких моделей, каждая из которых генерирует CSV-файл с одной и той же схемой. Однако мне нужно объединить каждый из сгенерированных файлов CSV в один и выполнить некоторую постобработку, которая и...

0 Ответы

29 Просмотры

Последнее сообщение Anonymous
08 окт 2024, 12:40
Как постепенно добавлять и вставлять строки в Kedro непосредственно в базу данных PostgreSQL?

Последнее сообщение Anonymous « 25 окт 2024, 16:14
Добавлено в форуме Python

Anonymous » 25 окт 2024, 16:14 » в форуме Python

Я работаю над проектом Kedro, в котором у меня есть набор данных, определенный в файлеcatalog.yml следующим образом:
daily_stats_dataset:
type: ${datasets.orm_table}
orm_model: my_proj.schemas.sqla_schemas.DailyStats
credentials: my_database...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
25 окт 2024, 16:14
Сохранение модели Mllib Spark с использованием каталога данных KEDro

Последнее сообщение Anonymous « 30 июн 2025, 21:50
Добавлено в форуме Python

Anonymous » 30 июн 2025, 21:50 » в форуме Python

Рассмотрим модель, которая обучена этому экзамену в документации Кедро
from typing import Any, Dict

from kedro.pipeline import node, pipeline
from pyspark.ml.classification import RandomForestClassifier
from pyspark.sql import DataFrame

def...

0 Ответы

3 Просмотры

Последнее сообщение Anonymous
30 июн 2025, 21:50

Вернуться в «Python»