Как сделать линейную интерполяцию в Pyspark без Pandas UDF (только с использованием Spark API)? - Цифровое Кемерово

Как сделать линейную интерполяцию в Pyspark без Pandas UDF (только с использованием Spark API)? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как сделать линейную интерполяцию в Pyspark без Pandas UDF (только с использованием Spark API)?

Цитата

Сообщение Anonymous » 30 авг 2025, 04:16

I have a Spark DataFrame with the following structure:

shock_rule_id
DATE
value

< /thead>

a < /td>
2024-01-01 < /td>
100 < /td>
< /tr>

< /td>
/> 2024-01-02 < /td>
null < /td>
< /tr>

< /td>
2024-01-03 < /td>
130

130

/> b < /td>
2024-01-01 < /td>
50 < /td>
< /tr>

b < /td>
2024-01-02 < /td>

2024-01-02 < /td>

2024-01-02 /> < /tr>

b < /td>
2024-01-03 < /td>
null < /td>
< /tr>

b < /td>
2024
b < /td>
2024 b < /td>
2024
b < /td>
2024
b < /td>
2024
b < /td>
2024 80 < /td>
< /tr>
< /tbody>
< /table> < /div>
Я хочу выполнить линейную интерполяцию значения столбца в каждой группе Shock_rule_id. Функции.# Row numbers to simulate index positions
df_pos = (
result_df
.withColumn("row_num", row_number().over(w))
.withColumn("prev_value", last("value", ignorenulls=True).over(w))
.withColumn("prev_row", last("row_num", ignorenulls=True).over(w))
.withColumn("next_value", first("value", ignorenulls=True).over(w.rowsBetween(0, Window.unboundedFollowing)))
.withColumn("next_row", first("row_num", ignorenulls=True).over(w.rowsBetween(0, Window.unboundedFollowing)))
)

df_interp = (
df_pos.withColumn(
"interpolated_value",
when(
col("value").isNotNull(), col("value")
).otherwise(
col("prev_value")
+ (col("next_value") - col("prev_value"))
* ((col("row_num") - col("prev_row"))
/ when((col("next_row") - col("prev_row")) == 0, 1)
.otherwise(col("next_row") - col("prev_row")))
)
)
)

# Final result
result = df_interp.select("shock_rule_id", "DATE", "interpolated_value")

< /code>
Но вывод не соответствует моим ожиданиям, я имею в виду не совпадать с выходом Pandas udf < /p>
def interpolate(pdf):
pdf = pdf.sort_values('DATE')
# if pdf['InterpolationType'].iloc[0] == 'linear':
pdf['value'] = pdf['value'].interpolate(method='linear')
pdf['shock_rule_id'] = pdf['shock_rule_id'].astype(int)
pdf['DATE'] = pd.to_datetime(pdf['DATE']) # Ensure DATE is datetime
return pdf[['shock_rule_id', 'DATE', 'value']] # Only necessary columns

# Interpolate only where needed
result_interpolated = df_to_interpolate.groupby('shock_rule_id').applyInPandas(
interpolate, schema="shock_rule_id int, DATE date, value double"
)

# Union with groups that had no missing values
result = result_interpolated.unionByName(df_no_missing.select('shock_rule_id', 'DATE', 'value'))

Подробнее здесь: https://stackoverflow.com/questions/797 ... ng-spark-a

Реклама

1756516573

Anonymous

I have a Spark DataFrame with the following structure:



shock_rule_id
DATE
value

< /thead>


 a < /td>
 2024-01-01 < /td>
 100 < /td>
< /tr>

 < /td>
/>  2024-01-02 < /td>
 null < /td>
< /tr>

 < /td>
 2024-01-03 < /td>
 130 

 130 

 />  b < /td>
 2024-01-01 < /td>
 50 < /td>
< /tr>

 b < /td>
 2024-01-02 < /td>

 2024-01-02 < /td>

 2024-01-02 /> < /tr>

 b < /td>
 2024-01-03 < /td>
 null < /td>
< /tr>

 b < /td>
 2024 
 b < /td>
 2024   b < /td>
 2024 
 b < /td>
 2024 
 b < /td>
 2024 
 b < /td>
 2024   80 < /td>
< /tr>
< /tbody>
< /table> < /div>
Я хочу выполнить линейную интерполяцию значения столбца в каждой группе Shock_rule_id. Функции.# Row numbers to simulate index positions
df_pos = (
result_df
.withColumn("row_num", row_number().over(w))
.withColumn("prev_value", last("value", ignorenulls=True).over(w))
.withColumn("prev_row", last("row_num", ignorenulls=True).over(w))
.withColumn("next_value", first("value", ignorenulls=True).over(w.rowsBetween(0, Window.unboundedFollowing)))
.withColumn("next_row", first("row_num", ignorenulls=True).over(w.rowsBetween(0, Window.unboundedFollowing)))
)

df_interp = (
df_pos.withColumn(
"interpolated_value",
when(
col("value").isNotNull(), col("value")
).otherwise(
col("prev_value")
+ (col("next_value") - col("prev_value"))
* ((col("row_num") - col("prev_row"))
/ when((col("next_row") - col("prev_row")) == 0, 1)
.otherwise(col("next_row") - col("prev_row")))
)
)
)

# Final result
result = df_interp.select("shock_rule_id", "DATE", "interpolated_value")

< /code>
Но вывод не соответствует моим ожиданиям, я имею в виду не совпадать с выходом Pandas udf < /p>
def interpolate(pdf):
pdf = pdf.sort_values('DATE')
# if pdf['InterpolationType'].iloc[0] == 'linear':
pdf['value'] = pdf['value'].interpolate(method='linear')
pdf['shock_rule_id'] = pdf['shock_rule_id'].astype(int)
pdf['DATE'] = pd.to_datetime(pdf['DATE'])  # Ensure DATE is datetime
return pdf[['shock_rule_id', 'DATE', 'value']]  # Only necessary columns

# Interpolate only where needed
result_interpolated = df_to_interpolate.groupby('shock_rule_id').applyInPandas(
interpolate, schema="shock_rule_id int, DATE date, value double"
)

# Union with groups that had no missing values
result = result_interpolated.unionByName(df_no_missing.select('shock_rule_id', 'DATE', 'value'))
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79749829/how-to-do-linear-interpolation-in-pyspark-without-pandas-udf-only-using-spark-a[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как создать наиболее эффективную линейную интерполяцию в С++?

Последнее сообщение Anonymous « 15 май 2024, 22:13
Добавлено в форуме C++

Anonymous » 15 май 2024, 22:13 » в форуме C++

Я написал код для линейной интерполяции огромного количества значений. Matlab способен выполнять интерполяцию очень быстро, но мой код на C++ занимает гораздо больше времени. Что я могу сделать по-другому, чтобы код работал быстрее?
int...

0 Ответы

35 Просмотры

Последнее сообщение Anonymous
15 май 2024, 22:13
Как реализовать линейную интерполяцию?

Последнее сообщение Anonymous « 16 дек 2024, 06:07
Добавлено в форуме Python

Anonymous » 16 дек 2024, 06:07 » в форуме Python

Предположим, мне предоставлены следующие данные:

x =
y =

Я хочу создать функцию, которая будет линейно интерполировать значения от 1 до 2,5, от 2,5 до 3,4, и так далее, используя Python.

Я пытался просмотреть это руководство по Python, но...

0 Ответы

8 Просмотры

Последнее сообщение Anonymous
16 дек 2024, 06:07
Apache Spark (pyspark) — преобразование двоичного файла в str (UUID) без UDF

Последнее сообщение Anonymous « 06 июл 2024, 13:25
Добавлено в форуме Python

Anonymous » 06 июл 2024, 13:25 » в форуме Python

Я не могу найти способ преобразовать двоичный файл в строковое представление без использования UDF
есть ли способ использовать встроенные функции Spark, а не UDF?
from pyspark.sql import DataFrame, SparkSession
import pyspark.sql.functions as F...

0 Ответы

34 Просмотры

Последнее сообщение Anonymous
06 июл 2024, 13:25
Spark/pyspark в той же версии, но «py4j.Py4JException: конструктор org.apache.spark.api.python.PythonFunction не существ

Последнее сообщение Anonymous « 01 июл 2024, 06:47
Добавлено в форуме Python

Anonymous » 01 июл 2024, 06:47 » в форуме Python

У меня правильно синхронизирована установка клиента pyspark/spark: обе версии — 3.3.1 . Полное сообщение об исключении:

py4j.Py4JException: Constructor org.apache.spark.api.python.PythonFunction([class ) не существует

В другом сообщении SOF это...

0 Ответы

68 Просмотры

Последнее сообщение Anonymous
01 июл 2024, 06:47
Оболочка Spark: spark.executor.extraJavaOptions не разрешено устанавливать параметры Spark.

Последнее сообщение Anonymous « 24 сен 2024, 08:55
Добавлено в форуме Python

Anonymous » 24 сен 2024, 08:55 » в форуме Python

Я создал эту программу Spark Shell, но при ее запуске возникла ошибка:
Windows PowerShell
Copyright (C) Microsoft Corporation. All rights reserved.

Install the latest PowerShell for new features and improvements!

PS...

0 Ответы

54 Просмотры

Последнее сообщение Anonymous
24 сен 2024, 08:55

Вернуться в «Python»

Programmiererforum