Сохранение модели Mllib Spark с использованием каталога данных KEDro

Сохранение модели Mllib Spark с использованием каталога данных KEDro ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Сохранение модели Mllib Spark с использованием каталога данных KEDro

Цитата

Сообщение Anonymous » 30 июн 2025, 21:50

Рассмотрим модель, которая обучена этому экзамену в документации Кедро < /p>

Код: Выделить всё

from typing import Any, Dict

from kedro.pipeline import node, pipeline
from pyspark.ml.classification import RandomForestClassifier
from pyspark.sql import DataFrame

def train_model(training_data: DataFrame) -> RandomForestClassifier:
"""Node for training a random forest model to classify the data."""
classifier = RandomForestClassifier(numTrees=10)
return classifier.fit(training_data)

def predict(model: RandomForestClassifier, testing_data: DataFrame) -> DataFrame:
"""Node for making predictions given a pre-trained model and a testing dataset."""
predictions = model.transform(testing_data)
return predictions

def create_pipeline(**kwargs) -> Pipeline:
return pipeline(
[
node(train_model, inputs=["training_data"], outputs="example_classifier"),
node(
predict,
inputs=dict(model="example_classifier", testing_data="testing_data"),
outputs="example_predictions",
),
]
)
< /code>
Я хотел бы не терять свою предварительно обученную модель и сохранять ее в качестве трубопровода Pyspark, но я не смог найти подходящий набор данных для этого в документации Kedro Dataset < /p>
Обычно я бы сделал что-то подобное: < /p>
< /p>  save_path = "path/to/save/pipeline_model"
pipeline_model.save(save_path)
< /code>
Но как я использую Kedro, я не хочу иметь IO за пределами моего каталога. Это поддерживаемый вариант использования, или мне придется реализовать свои собственные данные пользовательские Kedrodataset

для достижения этого?

Подробнее здесь: https://stackoverflow.com/questions/796 ... ta-catalog

1751309400

Anonymous

 Рассмотрим модель, которая обучена этому экзамену в документации Кедро < /p>
[code]from typing import Any, Dict

from kedro.pipeline import node, pipeline
from pyspark.ml.classification import RandomForestClassifier
from pyspark.sql import DataFrame

def train_model(training_data: DataFrame) -> RandomForestClassifier:
"""Node for training a random forest model to classify the data."""
classifier = RandomForestClassifier(numTrees=10)
return classifier.fit(training_data)

def predict(model: RandomForestClassifier, testing_data: DataFrame) -> DataFrame:
"""Node for making predictions given a pre-trained model and a testing dataset."""
predictions = model.transform(testing_data)
return predictions

def create_pipeline(**kwargs) -> Pipeline:
return pipeline(
[
node(train_model, inputs=["training_data"], outputs="example_classifier"),
node(
predict,
inputs=dict(model="example_classifier", testing_data="testing_data"),
outputs="example_predictions",
),
]
)
< /code>
Я хотел бы не терять свою предварительно обученную модель и сохранять ее в качестве трубопровода Pyspark, но я не смог найти подходящий набор данных для этого в документации Kedro Dataset < /p>
Обычно я бы сделал что-то подобное: < /p>
< /p>  save_path = "path/to/save/pipeline_model"
pipeline_model.save(save_path)
< /code>
Но как я использую Kedro, я не хочу иметь IO за пределами моего каталога. Это поддерживаемый вариант использования, или мне придется реализовать свои собственные данные пользовательские Kedrodataset [/code] для достижения этого?  

Подробнее здесь: [url]https://stackoverflow.com/questions/79685176/saving-sparks-mllib-model-using-kedro-data-catalog[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Сохранение модели Mllib Spark с использованием каталога данных KEDro

Последнее сообщение Anonymous « 02 июл 2025, 03:25
Добавлено в форуме Python

Anonymous » 02 июл 2025, 03:25 » в форуме Python

Рассмотрим модель, которая обучена этому примеру из документации Кедро
from typing import Any, Dict

from kedro.pipeline import node, pipeline
from pyspark.ml.classification import RandomForestClassifier
from pyspark.sql import DataFrame

def...

0 Ответы

2 Просмотры

Последнее сообщение Anonymous
02 июл 2025, 03:25
Алгоритм ALS Spark MLlib — Как мне получить свои собственные «Личные рекомендации» (рейтинги фильмов, которые я не оцени

Последнее сообщение Anonymous « 25 окт 2024, 09:25
Добавлено в форуме Python

Anonymous » 25 окт 2024, 09:25 » в форуме Python

Я использую PySpark в Azure Databricks. Я использовал алгоритм ALS библиотеки Sparks MLlib для прогнозирования рейтингов фильмов, который успешно работает. Однако я пытаюсь добавить фрейм данных, состоящий из моих оценок для 10 случайно выбранных...

0 Ответы

8 Просмотры

Последнее сообщение Anonymous
25 окт 2024, 09:25
Оболочка Spark: spark.executor.extraJavaOptions не разрешено устанавливать параметры Spark.

Последнее сообщение Anonymous « 24 сен 2024, 08:55
Добавлено в форуме Python

Anonymous » 24 сен 2024, 08:55 » в форуме Python

Я создал эту программу Spark Shell, но при ее запуске возникла ошибка:
Windows PowerShell
Copyright (C) Microsoft Corporation. All rights reserved.

Install the latest PowerShell for new features and improvements!

PS...

0 Ответы

52 Просмотры

Последнее сообщение Anonymous
24 сен 2024, 08:55
Как запустить конвейер Kedro для определенного входного набора данных CSV, содержащего список запросов, которые необходи

Последнее сообщение Anonymous « 29 май 2024, 18:45
Добавлено в форуме Python

Anonymous » 29 май 2024, 18:45 » в форуме Python

Мои основные входные данные — это список проверок (в файле csv), которые мне нужно оценить на огромном наборе данных.
В моем основном узле я анализирую файл csv и для каждой строки получаю соответствующие данные из каталога, извлекаю данные, провожу...

0 Ответы

29 Просмотры

Последнее сообщение Anonymous
29 май 2024, 18:45
Как динамически объединить несколько похожих наборов данных в один в Kedro?

Последнее сообщение Anonymous « 08 окт 2024, 12:40
Добавлено в форуме Python

Anonymous » 08 окт 2024, 12:40 » в форуме Python

Я использую Kedro для запуска конвейеров для нескольких моделей, каждая из которых генерирует CSV-файл с одной и той же схемой. Однако мне нужно объединить каждый из сгенерированных файлов CSV в один и выполнить некоторую постобработку, которая и...

0 Ответы

27 Просмотры

Последнее сообщение Anonymous
08 окт 2024, 12:40

Вернуться в «Python»