Как оптимизировать код PySpark для расчета сходства Жаккара для огромного набора данных

Как оптимизировать код PySpark для расчета сходства Жаккара для огромного набора данных ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Как оптимизировать код PySpark для расчета сходства Жаккара для огромного набора данных

Цитата

Сообщение Anonymous » 14 ноя 2024, 04:27

У меня есть огромный фрейм данных PySpark, содержащий 250 миллионов строк со столбцами ItemA и ItemB. Я пытаюсь вычислить сходство Жаккара M_ij, которое может работать эффективно и требует короткого времени. Мой код выглядит следующим образом.

Код: Выделить всё

# Group by ItemA and collect all ItemB values as a set
item_sets = df.groupby('ItemA').agg(collect_set('ItemB').alias('ItemB_set'))

# Repartition the dataframe to ensure even distribution of data
item_sets = item_sets.repartition(100)

# Cross join the sets with each other (thus, creating all pairs of ItemA)
cross_item_sets = item_sets.alias('i').crossJoin(item_sets.alias('j'))

# Calculate the intersection and union for each pair
def jaccard_similarity(row):
set_i = set(row['i']['ItemB_set'])
set_j = set(row['j']['ItemB_set'])

intersection_size = len(set_i.intersection(set_j))
union_size = len(set_i.union(set_j))

return Row(ItemA_i=row['i']['ItemA'], ItemA_j=row['j']['ItemA'], M_ij=intersection_size / union_size if union_size > 0 else 0)

# Apply the function
similarity_rdd = cross_item_sets.rdd.map(jaccard_similarity).repartition(200)

# Specify the schema for the dataframe
schema = StructType([
StructField("ItemA", StringType(), True),
StructField("ItemB", StringType(), True),
StructField("jaccard_sim", FloatType(), True)
])

# Convert the RDD back to Dataframe
similarity_df = spark.createDataFrame(similarity_rdd, schema)

# Show results
similarity_df.show(10, truncate=False)

Когда я посмотрел на веб-интерфейс Spark после того, как код работал в течение двух часов, я увидел

Код: Выделить всё

Stages: Succeeded/Total --> 0/4
Tasks (for all stages): Succeeded/Total --> 0/10155 (14 running)

Я считаю, что вышеизложенное относится к частиlikeity_df.show().
Я не могу увеличить размер кластера Spark предоставленные мне ресурсы.
Как мне запустить код?

Подробнее здесь: https://stackoverflow.com/questions/791 ... ge-dataset

1731547668

Anonymous

У меня есть огромный фрейм данных PySpark, содержащий 250 миллионов строк со столбцами ItemA и ItemB. Я пытаюсь вычислить сходство Жаккара M_ij, которое может работать эффективно и требует короткого времени. Мой код выглядит следующим образом.
[code]# Group by ItemA and collect all ItemB values as a set
item_sets = df.groupby('ItemA').agg(collect_set('ItemB').alias('ItemB_set'))

# Repartition the dataframe to ensure even distribution of data
item_sets = item_sets.repartition(100)

# Cross join the sets with each other (thus, creating all pairs of ItemA)
cross_item_sets = item_sets.alias('i').crossJoin(item_sets.alias('j'))

# Calculate the intersection and union for each pair
def jaccard_similarity(row):
set_i = set(row['i']['ItemB_set'])
set_j = set(row['j']['ItemB_set'])

intersection_size = len(set_i.intersection(set_j))
union_size = len(set_i.union(set_j))

return Row(ItemA_i=row['i']['ItemA'], ItemA_j=row['j']['ItemA'], M_ij=intersection_size / union_size if union_size > 0 else 0)

# Apply the function
similarity_rdd = cross_item_sets.rdd.map(jaccard_similarity).repartition(200)

# Specify the schema for the dataframe
schema = StructType([
StructField("ItemA", StringType(), True),
StructField("ItemB", StringType(), True),
StructField("jaccard_sim", FloatType(), True)
])

# Convert the RDD back to Dataframe
similarity_df = spark.createDataFrame(similarity_rdd, schema)

# Show results
similarity_df.show(10, truncate=False)
[/code]
Когда я посмотрел на веб-интерфейс Spark после того, как код работал в течение двух часов, я увидел
[code]Stages: Succeeded/Total --> 0/4
Tasks (for all stages): Succeeded/Total --> 0/10155 (14 running)
[/code]
Я считаю, что вышеизложенное относится к частиlikeity_df.show().
Я не могу увеличить размер кластера Spark предоставленные мне ресурсы.
Как мне запустить код? 

Подробнее здесь: [url]https://stackoverflow.com/questions/79187131/how-to-optimize-pyspark-code-to-calculate-jaccard-similarity-for-a-huge-dataset[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Более быстрый способ расчета показателей сходства Жаккара для больших наборов данных

Последнее сообщение Anonymous « 15 ноя 2024, 04:49
Добавлено в форуме Python

Anonymous » 15 ноя 2024, 04:49 » в форуме Python

Я пытаюсь сопоставить два разных набора данных, которые довольно велики. (У одного из них около 1 миллиона названий компаний, а у другого около 30 тысяч).
Я хочу рассчитать показатель сходства на основе сходства Жаккара на n-граммах.
Вот что я...

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
15 ноя 2024, 04:49
Pandas groupby преобразует среднее значение с датой перед текущей строкой для огромного огромного кадра данных

Последнее сообщение Anonymous « 26 сен 2024, 17:02
Добавлено в форуме Python

Anonymous » 26 сен 2024, 17:02 » в форуме Python

У меня есть фрейм данных Pandas, который выглядит так:
df = pd.DataFrame([ ,
,
,
,
,
,
,
,
],
columns= )

И я хочу создать новую строку под названием «Предыдущеесреднее». В этом столбце указано среднее значение DPD для этого клиента с...

0 Ответы

24 Просмотры

Последнее сообщение Anonymous
26 сен 2024, 17:02
Pandas groupby преобразует среднее значение с датой перед текущей строкой для огромного огромного кадра данных

Последнее сообщение Anonymous « 26 сен 2024, 22:08
Добавлено в форуме Python

Anonymous » 26 сен 2024, 22:08 » в форуме Python

У меня есть фрейм данных Pandas, который выглядит так:
df = pd.DataFrame([ ,
,
,
,
,
,
,
,
],
columns= )

И я хочу создать новую строку под названием «Предыдущеесреднее». В этом столбце указано среднее значение DPD для этого клиента с...

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
26 сен 2024, 22:08
Pandas groupby преобразует среднее значение с датой перед текущей строкой для огромного огромного кадра данных

Последнее сообщение Anonymous « 24 окт 2024, 22:00
Добавлено в форуме Python

Anonymous » 24 окт 2024, 22:00 » в форуме Python

У меня есть фрейм данных Pandas, который выглядит так:
df = pd.DataFrame([ ,
,
,
,
,
,
,
,
],
columns= )

И я хочу создать новую строку под названием «Предыдущеесреднее». В этом столбце указано среднее значение DPD для этого клиента с...

0 Ответы

25 Просмотры

Последнее сообщение Anonymous
24 окт 2024, 22:00
Оптимизация иерархического сходства сходства адреса на большем данных о данных с DASK

Последнее сообщение Anonymous « 01 июл 2025, 17:22
Добавлено в форуме Python

Anonymous » 01 июл 2025, 17:22 » в форуме Python

Я работаю с очень большим набором данных (десятки миллионов строк), который содержит комбинации адресов во многих странах. Каждая строка представляет собой пару адресов, и я уже проанализировал эти адреса, используя модель Deepparse, поэтому мой...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
01 июл 2025, 17:22

Вернуться в «Python»