Как эффективно повторяться через Pyspark DataFrame? - Цифровое Кемерово

Как эффективно повторяться через Pyspark DataFrame? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как эффективно повторяться через Pyspark DataFrame?

Цитата

Сообщение Anonymous » 30 май 2025, 00:47

У меня есть DataFrame, которая выглядит примерно так: < /p>

Материал < /th>
< /th> < /th>
< /th> < /th>
< /th> < /th>
/> refectquantity < /th>
< /tr>
< /thead>

< /td>
a1 < /td>
1300 < /td>
/>
a < /td>
a2 < /td>
1300 < /td>
td>>0.056
< /tr>

< /td>
< /td> < /td> < /td> < /td> < /td> < /td> < /td> < /td> < /td> < /td> < /td> /> 1300 < /td>
2.78
< /tr>

< /td>
b < /td>
1300 < /td>
td>1300.5 1300 < /td>
td>1300.5,5. />
b < /td>
b1 < /td>
1000 < /td>
1007 < /td>
< /tr>

b < /td>
b2
b < /td>
b2
b < /td>
b2
b < /td>
b2
b < /td> />1000
3.5

B
C
1000
9

c < /td>
c1 < /td>
800 < /td>
806.4
< /tr>
< /tbode>
< /table> < /div>
для каждого материала. Компоненты с самым низким уровнем при добавлении строки для каждого из них и выполняя расчет для нормализации требуемой квалификации для новых строк: requiredquantity / pactor * parent requiredquantity < / code>. The resulting DataFrame should look like this:

Material
Component
BatchSize
RequiredQuantity
< /tr>
< /thead>

a < /td>
a1 < /td>
1300 < /td>
1.0
< /tr>

1.0. /> a < /td>
a2 < /td>
1300 < /td>
0.056
< /tr>

< /td>
a3
< /td>

< /td>

< /td>
/> 1300 < /td>
2.78
< /tr>

< /td>
b < /td>
1300 < /td>
td>1300.5 1300 < /td>
td>1300.5,5. />
a < /td>
b1 < /td>
1300 < /td>
td>1309.6035
< /tr>

< /td>

< /td>

< /td>
< /tr>

< /td>

< /td>
/> 1300 < /td>
4.5.551755
< /tr>

a < /td>
c < /td>
1300 < /td>
>11.11.704. /> < /tr>

a < /td>
c1 < /td>
1300 < /td>
td>11.798136> < /tr>

b < /td> b < /td> b < /td> b < /td> b b b < /td> /> b1 < /td>
1000 < /td>
1007 < /td>
< /tr>

b < /td>
b2 < /td>
1000 < /td>
b2 < /td>
1000 < /td>
/>3.5,5
< /tr>

b < /td>
c < /td>
1000 < /td>
9 < /td>
< /tr>

< /td>
< /tr>
/> c1 < /td>
1000 < /td>
9.072ho />806.4
< /tr>
< /tbody>
< /table> < /div>
Я попытался написать рекурсивную функцию, которая работает, но является чрезвычайно медленным, занимая примерно 5 минут на материал. Это было бы хорошо для небольшого стола, но в нашем случае у нас есть почти 5000 различных материалов, каждый из которых имеет примерно 10 различных компонентов, поэтому потребуются недели, чтобы пройти через все это. Я надеюсь, что есть лучший способ справиться с этим.

Код: Выделить всё

def recurse_components(df, material):
if df.isEmpty():
return df

filtered_material = df.where(F.col("Material") == material)
batch_size = filtered_material.select("BatchSize").first()["BatchSize"]

component_list = (
filtered_material.select("Component").rdd.flatMap(lambda x: x).collect()
)

for component in component_list:
component_table = df.where(F.col("Material") == component)
if not component_table.isEmpty():
required_quantity = (
filtered_material.where(F.col("Component") == component)
.select("RequiredQuantity")
.first()["RequiredQuantity"]
)
recursive_call = recurse_components(df, component).withColumns(
{
"Material": F.lit(material),
"RequiredQuantity": F.col("RequiredQuantity")
* required_quantity
/ F.col("BatchSize"),
"BatchSize": F.lit(batch_size),
}
)
filtered_material = filtered_material.union(recursive_call)

return filtered_material

material_list = df.select("Material").distinct().rdd.flatMap(lambda x: x).collect()

extended_df = spark.createDataFrame([], df.schema)
for material in material_list:
extended_df = extended_df.union(recurse_components(df, material))

Любая помощь будет высоко оценена.

Подробнее здесь: https://stackoverflow.com/questions/796 ... -dataframe

Реклама

1748555243

Anonymous

 У меня есть DataFrame, которая выглядит примерно так: < /p>
 


 Материал < /th>
< /th> < /th>
< /th> < /th>
< /th> < /th>
/>  refectquantity < /th>
< /tr>
< /thead>


 < /td>
 a1 < /td>
 1300 < /td>
/> 
 a < /td>
 a2 < /td>
 1300 < /td>
td>>0.056
< /tr>

 < /td>
 < /td> < /td> < /td> < /td> < /td> < /td> < /td> < /td> < /td> < /td> < /td> />  1300 < /td>
2.78
< /tr>

 < /td>
 b < /td>
 1300 < /td>
td>1300.5 1300 < /td>
td>1300.5,5. /> 
 b < /td>
 b1 < /td>
 1000 < /td>
 1007 < /td>
< /tr>

 b < /td>
 b2 
 b < /td>
 b2 
 b < /td>
 b2 
 b < /td>
 b2 
 b < /td> />1000
3.5


B
C
1000
9


 c < /td>
 c1 < /td>
 800 < /td>
806.4
< /tr>
< /tbode>
< /table> < /div>
для каждого материала. Компоненты с самым низким уровнем при добавлении строки для каждого из них и выполняя расчет для нормализации требуемой квалификации для новых строк: requiredquantity / pactor * parent requiredquantity < / code>. The resulting DataFrame should look like this:



Material
Component
BatchSize
RequiredQuantity
< /tr>
< /thead>


 a < /td>
 a1 < /td>
 1300 < /td>
1.0
< /tr>

1.0. />  a < /td>
 a2 < /td>
 1300 < /td>
0.056
< /tr>

 < /td>
 a3 
 < /td>
 
 < /td>
 
 < /td>
  />  1300 < /td>
2.78
< /tr>

 < /td>
 b < /td>
 1300 < /td>
td>1300.5 1300 < /td>
td>1300.5,5. /> 
 a < /td>
 b1 < /td>
 1300 < /td>
td>1309.6035
< /tr>

 < /td>


 < /td>


 < /td>
< /tr>

 < /td>


 < /td>
/>  1300 < /td>
4.5.551755
< /tr>

 a < /td>
 c < /td>
 1300 < /td>
>11.11.704. /> < /tr>

 a < /td>
 c1 < /td>
 1300 < /td>
td>11.798136> < /tr>

 b < /td> b < /td> b < /td> b < /td> b  b  b  < /td> />  b1 < /td>
 1000 < /td>
 1007 < /td>
< /tr>

 b < /td>
 b2 < /td>
 1000 < /td>
 b2 < /td>
 1000 < /td>
/>3.5,5
< /tr>

 b < /td>
 c < /td>
 1000 < /td>
 9 < /td>
< /tr>


 < /td>
< /tr>
  />  c1 < /td>
 1000 < /td>
9.072ho />806.4
< /tr>
< /tbody>
< /table> < /div>
Я попытался написать рекурсивную функцию, которая работает, но является чрезвычайно медленным, занимая примерно 5 минут на материал. Это было бы хорошо для небольшого стола, но в нашем случае у нас есть почти 5000 различных материалов, каждый из которых имеет примерно 10 различных компонентов, поэтому потребуются недели, чтобы пройти через все это.  Я надеюсь, что есть лучший способ справиться с этим.[code]def recurse_components(df, material):
if df.isEmpty():
return df

filtered_material = df.where(F.col("Material") == material)
batch_size = filtered_material.select("BatchSize").first()["BatchSize"]

component_list = (
filtered_material.select("Component").rdd.flatMap(lambda x: x).collect()
)

for component in component_list:
component_table = df.where(F.col("Material") == component)
if not component_table.isEmpty():
required_quantity = (
filtered_material.where(F.col("Component") == component)
.select("RequiredQuantity")
.first()["RequiredQuantity"]
)
recursive_call = recurse_components(df, component).withColumns(
{
"Material": F.lit(material),
"RequiredQuantity": F.col("RequiredQuantity")
* required_quantity
/ F.col("BatchSize"),
"BatchSize": F.lit(batch_size),
}
)
filtered_material = filtered_material.union(recursive_call)

return filtered_material

material_list = df.select("Material").distinct().rdd.flatMap(lambda x: x).collect()

extended_df = spark.createDataFrame([], df.schema)
for material in material_list:
extended_df = extended_df.union(recurse_components(df, material))
[/code]
Любая помощь будет высоко оценена.  

Подробнее здесь: [url]https://stackoverflow.com/questions/79644095/how-to-efficiently-recurse-through-pyspark-dataframe[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Django Makemigrations и Migrate продолжают повторяться

Последнее сообщение Anonymous « 18 май 2024, 08:49
Добавлено в форуме Python

Anonymous » 18 май 2024, 08:49 » в форуме Python

Кажется, что-то происходит с моим приложением Django. Есть две модели: одну я переделал, а другую - новое дополнение. С тех пор, как эти два изменения изменились, мои команды makemigrations иmigration остались прежними, а номер миграции увеличился....

0 Ответы

36 Просмотры

Последнее сообщение Anonymous
18 май 2024, 08:49
Почему путь сборки библиотеки пользователей Java должен повторяться в клиентском приложении Java FX

Последнее сообщение Anonymous « 21 июл 2025, 19:31
Добавлено в форуме JAVA

Anonymous » 21 июл 2025, 19:31 » в форуме JAVA

Я изучаю Java и хочу разработать приложение с использованием 2 Java Projects.
Project A - это приложение Java FX, используемое в качестве части пользовательского интерфейса.
Проект B делает все операции CRUD с базой данных.
Проект B экспортируется...

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
21 июл 2025, 19:31
Как я могу применить вложенную DataFrame Pyspark в качестве сопоставления с другим DataFrame?

Последнее сообщение Anonymous « 01 апр 2025, 21:35
Добавлено в форуме Python

Anonymous » 01 апр 2025, 21:35 » в форуме Python

У меня есть json, как это:
{ main :{ honda :1, toyota :2, BMW :5, Fiat :4}}

Я импортирует в pyspark, как это:
car_map = spark.read.json('s3_path/car_map.json')

Теперь у меня есть DataFrame:

дал существующий DataFrame:

.data =

df =...

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
01 апр 2025, 21:35
Как я могу применить вложенную DataFrame Pyspark в качестве сопоставления с другим DataFrame?

Последнее сообщение Anonymous « 02 апр 2025, 11:38
Добавлено в форуме Python

Anonymous » 02 апр 2025, 11:38 » в форуме Python

У меня есть json, как это:
{ main :{ honda :1, toyota :2, BMW :5, Fiat :4}}

Я импортирует в pyspark, как это:
car_map = spark.read.json('s3_path/car_map.json')

Теперь у меня есть DataFrame:

дал существующий DataFrame:

.data =

df =...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
02 апр 2025, 11:38
Преобразование Pyspark DataFrame в Pandas DataFrame не удастся в столбце TimeStam

Последнее сообщение Anonymous « 01 июл 2025, 10:30
Добавлено в форуме Python

Anonymous » 01 июл 2025, 10:30 » в форуме Python

Я создаю свой pyspark dataframe:
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StructField, BinaryType, ArrayType, StringType, TimestampType
input_schema = StructType([
StructField( key , StringType()),...

0 Ответы

8 Просмотры

Последнее сообщение Anonymous
01 июл 2025, 10:30

Вернуться в «Python»

Programmiererforum