Как нам переобучить модель XGBoost с помощью конвейера Spark ML? - Цифровое Кемерово

Как нам переобучить модель XGBoost с помощью конвейера Spark ML? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как нам переобучить модель XGBoost с помощью конвейера Spark ML?

Цитата

Сообщение Anonymous » 26 сен 2024, 07:46

Наше требование — переобучить модель XGBoost, созданную конвейером Spark ML. Мы получаем огромные данные каждую неделю или месяц и хотим использовать ранее обученную модель для повторного обучения на дельте данных. Возможно ли это, и если возможно, нам будет очень полезно получить пример кода. Наши задания Spark написаны на Scala.
Я могу сделать это с помощью Pyspark, пример кода приведен ниже:

Код: Выделить всё

from pyspark.sql import SparkSession
from xgboost.spark import SparkXGBClassifier, SparkXGBClassifierModel
from pyspark.ml.feature import VectorAssembler, StringIndexer
from pyspark.ml import Pipeline
from pyspark.sql.functions import col

existing_model_path = "/home/geet/test/xgboostexp/testmodel/stages/2_SparkXGBClassifier_5adc1ebbc456"
xgb_model = SparkXGBClassifierModel.load(existing_model_path)

new_data_path = "/home/geet/test/xgboostexp/output_file.csv"
data = spark.read.option("header", True).csv(new_data_path)

for col_name in ["V1", "V2", "V3"]:
data = data.withColumn(col_name, col(col_name).cast('float'))

label_indexer = StringIndexer(inputCol="class", outputCol="indexedLabel").fit(data)
assembler = VectorAssembler(inputCols=["V1", "V2", "V3"], outputCol="features")
xgb_classifier = SparkXGBClassifier(
label_col="indexedLabel",
features_col="features",
num_workers=1,
xgb_model=xgb_model.get_booster()  # Use the previous model as the base
)

pipeline = Pipeline(stages=[label_indexer, assembler, xgb_classifier])
pipeline_model = pipeline.fit(data)
updated_model_path = "/home/geet/test/xgboostexp/testmodel2"
pipeline_model.write().overwrite()

.save(updated_model_path)

Подробнее здесь: https://stackoverflow.com/questions/790 ... l-pipeline

Реклама

1727325967

Anonymous

Наше требование — переобучить модель XGBoost, созданную конвейером Spark ML. Мы получаем огромные данные каждую неделю или месяц и хотим использовать ранее обученную модель для повторного обучения на дельте данных. Возможно ли это, и если возможно, нам будет очень полезно получить пример кода. Наши задания Spark написаны на Scala.
Я могу сделать это с помощью Pyspark, пример кода приведен ниже:
[code]from pyspark.sql import SparkSession
from xgboost.spark import SparkXGBClassifier, SparkXGBClassifierModel
from pyspark.ml.feature import VectorAssembler, StringIndexer
from pyspark.ml import Pipeline
from pyspark.sql.functions import col

existing_model_path = "/home/geet/test/xgboostexp/testmodel/stages/2_SparkXGBClassifier_5adc1ebbc456"
xgb_model = SparkXGBClassifierModel.load(existing_model_path)

new_data_path = "/home/geet/test/xgboostexp/output_file.csv"
data = spark.read.option("header", True).csv(new_data_path)

for col_name in ["V1", "V2", "V3"]:
data = data.withColumn(col_name, col(col_name).cast('float'))

label_indexer = StringIndexer(inputCol="class", outputCol="indexedLabel").fit(data)
assembler = VectorAssembler(inputCols=["V1", "V2", "V3"], outputCol="features")
xgb_classifier = SparkXGBClassifier(
label_col="indexedLabel",
features_col="features",
num_workers=1,
xgb_model=xgb_model.get_booster()  # Use the previous model as the base
)

pipeline = Pipeline(stages=[label_indexer, assembler, xgb_classifier])
pipeline_model = pipeline.fit(data)
updated_model_path = "/home/geet/test/xgboostexp/testmodel2"
pipeline_model.write().overwrite()
[/code]
.save(updated_model_path) 

Подробнее здесь: [url]https://stackoverflow.com/questions/79017556/how-do-we-retrain-xgboost-model-using-spark-ml-pipeline[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Я использую CNN (последовательную модель) для обнаружения глаз. Могу ли я сохранить обученную модель и переобучить ее, н

Последнее сообщение Гость « 29 окт 2023, 09:57
Добавлено в форуме Python

Гость » 29 окт 2023, 09:57 » в форуме Python

Мой графический процессор — Rtx 3050 4 ГБ. Из-за меньшего количества видеопамяти я уменьшил размер пакета, но это все равно занимало слишком много времени, почти 1 час для каждой эпохи. Могу ли я сохранить обученную модель (.h5) и переобучить ее без...

0 Ответы

116 Просмотры

Последнее сообщение Гость
29 окт 2023, 09:57
Переобучить модель U2net

Последнее сообщение Гость « 23 сен 2023, 12:53
Добавлено в форуме Python

Гость » 23 сен 2023, 12:53 » в форуме Python

Я пытаюсь переобучить модель u2net. Но по нему нет хорошо написанной документации. Я хочу обучить модель, используя набор данных из 50 000.

epoch_num = 100000 пакетный_размер_поезд = 2 пакетный_размер_знач = 1 поезд_номер = 0 знач_номер = 0 Мне не...

0 Ответы

27 Просмотры

Последнее сообщение Гость
23 сен 2023, 12:53
Как я могу заставить или переобучить языковую модель для прогнозирования с использованием определенных слов/фраз?

Последнее сообщение Anonymous « 15 июл 2024, 08:08
Добавлено в форуме Python

Anonymous » 15 июл 2024, 08:08 » в форуме Python

Цель — создать программу, которая отображает слово и позволяет пользователю попытаться произнести то, что отображается на экране, в качестве введения в произношение и словарный запас. Язык, с которым я работаю, — тайский, но примеры здесь будут на...

0 Ответы

20 Просмотры

Последнее сообщение Anonymous
15 июл 2024, 08:08
Как я могу заставить или переобучить языковую модель для прогнозирования с использованием определенных слов/фраз? [закры

Последнее сообщение Anonymous « 15 июл 2024, 15:42
Добавлено в форуме Python

Anonymous » 15 июл 2024, 15:42 » в форуме Python

Я пытаюсь создать программу, которая отображает слово и позволяет пользователю попытаться произнести то, что отображается на экране, в качестве введения в произношение и словарный запас. Язык, с которым я работаю, – тайский, но примеры здесь будут...

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
15 июл 2024, 15:42
Оболочка Spark: spark.executor.extraJavaOptions не разрешено устанавливать параметры Spark.

Последнее сообщение Anonymous « 24 сен 2024, 08:55
Добавлено в форуме Python

Anonymous » 24 сен 2024, 08:55 » в форуме Python

Я создал эту программу Spark Shell, но при ее запуске возникла ошибка:
Windows PowerShell
Copyright (C) Microsoft Corporation. All rights reserved.

Install the latest PowerShell for new features and improvements!

PS...

0 Ответы

52 Просмотры

Последнее сообщение Anonymous
24 сен 2024, 08:55

Вернуться в «Python»

Programmiererforum