Как обновить трубопровод Kedro вместо его замены? - Цифровое Кемерово

Как обновить трубопровод Kedro вместо его замены? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как обновить трубопровод Kedro вместо его замены?

Цитата

Сообщение Anonymous » 21 июн 2024, 19:01

У меня есть набор данных, который мне приходится увеличивать при каждом запуске, но вместо этого он заменяет его.
Каталог является обобщенным, за исключением файла result.csv, который представляет собой объединенный файл всех остальных файлов, созданных конвейерами.

Код: Выделить всё

"{namespace}.{dataset_name}@csv":
type: pandas.CSVDataset
filepath: data/01_raw/{namespace}/{dataset_name}.csv
versioned: True

"{namespace}.result":
type: pandas.CSVDataset
filepath: data/01_raw/{namespace}/result.csv

В файле nodes.py помимо парсеров и обработчиков результатов я использую простую функцию конкатенации.

Код: Выделить всё

def concatenate_csvs(*dataframes):
concatenated_df = pd.concat(dataframes, ignore_index=True)
return concatenated_df

а на конвейерах я просто вызываю все выходные данные предыдущих конвейеров. Базовая труба:

Код: Выделить всё

def create_pipeline(**kwargs):

pipe_the_hacker_news = pipeline(
[
node(
func=get_links,
inputs=["params:the_hacker_news"],
outputs="the_hacker_news_links",
name="the_hacker_news_links_node",
),
node(
func=scraper_the_hacker_news,
inputs="the_hacker_news_links",
outputs="the_hacker_news@csv",
name="the_hacker_news_scraper_node",
)
],
namespace="cybersecurity_news"
)

Объединено:

Код: Выделить всё

    pipe_concat = pipeline(
[
node(
func=concatenate_csvs,
inputs=[
"the_hacker_news@csv",
"tech_republic@csv",
"thecyberexpress_news@csv",
"welivesecurity_news@csv",
"davinciforensics_news@csv",
"varutra_news@csv",
"attcybersecurity_news@csv",
"mcafee_news@csv",
"nist_news@csv",
"avast_news@csv",
"amazon_news@csv",
"qualys_news@csv",
"veracode_news@csv",
"gbhackers_news@csv",
"hackingarticles_news@csv",
"sentinelone_news@csv",
"securityintelligence_news@csv",
"tripwire_news@csv",
"securelist_news@csv",
"grahamcluley_news@csv",
"infosecurity_news@csv",
"olukaii_news@csv",
"cyble_news@csv",
"bleepingcomputer_news@csv",
"threatinsight_news@csv",
"zonealarm_news@csv"],
outputs="result",
name="concatenate_csvs_node",
),
],
namespace="cybersecurity_news"
)

Как я могу сделать так, чтобы мой файл вместо замены увеличивался при каждом запуске, избегая дублирования?
Я уже пробовал использовать:< /p>

Код: Выделить всё

  save_args:
mode: a

и ничего не произошло, попробовал изменить прямо на nodes.py:

Код: Выделить всё

def concatenate_csvs(*dataframes):
concatenated_df = pd.concat(dataframes, ignore_index=True)

file_path = "/path/cybersecurity_news/result.csv"
existing_df = pd.read_csv(file_path)
concatenated_df = pd.concat([existing_df, concatenated_df], ignore_index=True)
concatenated_df.to_csv(file_path, index=False)
return concatenated_df

но использовалась только предыдущая версия, а не обновлялась.

Подробнее здесь: https://stackoverflow.com/questions/786 ... placing-it

Реклама

1718985693

Anonymous

У меня есть набор данных, который мне приходится увеличивать при каждом запуске, но вместо этого он заменяет его.
Каталог является обобщенным, за исключением файла result.csv, который представляет собой объединенный файл всех остальных файлов, созданных конвейерами.
[code]"{namespace}.{dataset_name}@csv":
type: pandas.CSVDataset
filepath: data/01_raw/{namespace}/{dataset_name}.csv
versioned: True

"{namespace}.result":
type: pandas.CSVDataset
filepath: data/01_raw/{namespace}/result.csv
[/code]
В файле nodes.py помимо парсеров и обработчиков результатов я использую простую функцию конкатенации.
[code]def concatenate_csvs(*dataframes):
concatenated_df = pd.concat(dataframes, ignore_index=True)
return concatenated_df
[/code]
а на конвейерах я просто вызываю все выходные данные предыдущих конвейеров. Базовая труба:
[code]def create_pipeline(**kwargs):

pipe_the_hacker_news = pipeline(
[
node(
func=get_links,
inputs=["params:the_hacker_news"],
outputs="the_hacker_news_links",
name="the_hacker_news_links_node",
),
node(
func=scraper_the_hacker_news,
inputs="the_hacker_news_links",
outputs="the_hacker_news@csv",
name="the_hacker_news_scraper_node",
)
],
namespace="cybersecurity_news"
)
[/code]
Объединено:
[code]    pipe_concat = pipeline(
[
node(
func=concatenate_csvs,
inputs=[
"the_hacker_news@csv",
"tech_republic@csv",
"thecyberexpress_news@csv",
"welivesecurity_news@csv",
"davinciforensics_news@csv",
"varutra_news@csv",
"attcybersecurity_news@csv",
"mcafee_news@csv",
"nist_news@csv",
"avast_news@csv",
"amazon_news@csv",
"qualys_news@csv",
"veracode_news@csv",
"gbhackers_news@csv",
"hackingarticles_news@csv",
"sentinelone_news@csv",
"securityintelligence_news@csv",
"tripwire_news@csv",
"securelist_news@csv",
"grahamcluley_news@csv",
"infosecurity_news@csv",
"olukaii_news@csv",
"cyble_news@csv",
"bleepingcomputer_news@csv",
"threatinsight_news@csv",
"zonealarm_news@csv"],
outputs="result",
name="concatenate_csvs_node",
),
],
namespace="cybersecurity_news"
)

[/code]
Как я могу сделать так, чтобы мой файл вместо замены увеличивался при каждом запуске, избегая дублирования?
Я уже пробовал использовать:< /p>
[code]  save_args:
mode: a
[/code]
и ничего не произошло, попробовал изменить прямо на nodes.py:
[code]def concatenate_csvs(*dataframes):
concatenated_df = pd.concat(dataframes, ignore_index=True)

file_path = "/path/cybersecurity_news/result.csv"
existing_df = pd.read_csv(file_path)
concatenated_df = pd.concat([existing_df, concatenated_df], ignore_index=True)
concatenated_df.to_csv(file_path, index=False)
return concatenated_df
[/code]
но использовалась только предыдущая версия, а не обновлялась. 

Подробнее здесь: [url]https://stackoverflow.com/questions/78648157/how-to-update-a-kedro-pipeline-instead-of-replacing-it[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Ошибка запуска простого проекта Kedro: ModuleNotFoundError, за которым следует ValueError

Последнее сообщение Anonymous « 19 окт 2023, 10:30
Добавлено в форуме Python

Anonymous » 19 окт 2023, 10:30 » в форуме Python

Полный код доступен по адресу:

Я пытаюсь настроить простой проект машинного обучения на Python в Kedro. Это очень просто: один конвейер из трех узлов, узла загрузки данных, узла вычисления модели и узла оценки модели, который просто печатает...

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
19 окт 2023, 10:30
Как запустить конвейер Kedro для определенного входного набора данных CSV, содержащего список запросов, которые необходи

Последнее сообщение Anonymous « 29 май 2024, 18:45
Добавлено в форуме Python

Anonymous » 29 май 2024, 18:45 » в форуме Python

Мои основные входные данные — это список проверок (в файле csv), которые мне нужно оценить на огромном наборе данных.
В моем основном узле я анализирую файл csv и для каждой строки получаю соответствующие данные из каталога, извлекаю данные, провожу...

0 Ответы

30 Просмотры

Последнее сообщение Anonymous
29 май 2024, 18:45
Создать Kedro PartitionedDataset из PartitionedDatasets.

Последнее сообщение Anonymous « 02 окт 2024, 01:16
Добавлено в форуме Python

Anonymous » 02 окт 2024, 01:16 » в форуме Python

Я работаю над проектом kedro, где я хочу автоматически маркировать тысячи аудиофайлов, применять к ним преобразования, а затем сохранять их в папке из папок, каждая подпапка соответствует одной метке. Я хочу, чтобы эта папка папок была записью...

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
02 окт 2024, 01:16
Создать Kedro PartitionedDataset из PartitionedDatasets.

Последнее сообщение Anonymous « 02 окт 2024, 11:30
Добавлено в форуме Python

Anonymous » 02 окт 2024, 11:30 » в форуме Python

Я работаю над проектом kedro, где я хочу автоматически маркировать тысячи аудиофайлов, применять к ним преобразования, а затем сохранять их в папке из папок, каждая подпапка соответствует одной метке. Я хочу, чтобы эта папка папок была записью...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
02 окт 2024, 11:30
Как запустить конвейер Kedro

Последнее сообщение Anonymous « 02 окт 2024, 16:45
Добавлено в форуме Python

Anonymous » 02 окт 2024, 16:45 » в форуме Python

Я пытаюсь запустить этот алгоритм, который находится в конвейере kedro.
Я прочитал документацию по Kedro, мне удалось открыть блокнот Jupyter с ядром Kedro и запустить несколько ячеек. с командами, которые были в этой документации кедро - см. здесь....

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
02 окт 2024, 16:45

Вернуться в «Python»

Programmiererforum