Выявление трех последовательных месяцев снижения дохода и совокупного балла в PySpark

Выявление трех последовательных месяцев снижения дохода и совокупного балла в PySpark ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Выявление трех последовательных месяцев снижения дохода и совокупного балла в PySpark

Цитата

Сообщение Anonymous » 02 май 2024, 00:49

У меня есть два кадра данных PySpark, df1 и df2, содержащие информацию о пользователях за 12 месяцев 2023 года. df1 содержит идентификатор пользователя и совокупный балл за каждый месяц, а df2 содержит идентификатор пользователя и его зарплату за каждый месяц.
Я пытаюсь определить три месяца подряд, когда как доход, так и совокупный балл снижались для каждого пользователя. В частности, я хочу найти случаи, когда доход и совокупный балл снизились за одни и те же три месяца.
Я уже пытался вычислить разницу между доходом за последовательные месяцы и совокупным баллом, определить последовательные уменьшается и соответствующим образом фильтрует кадры данных. Однако у меня возникли проблемы с получением правильных результатов.
Вот подход, который я опробовал на данный момент:
from pyspark.sql import SparkSession
from pyspark.sql.window import Window
from pyspark.sql.functions import lag, col, when, sum as spark_sum

# Initialize Spark session
spark = SparkSession.builder \
.appName("Consecutive Decrease Analysis") \
.getOrCreate()

# Assuming your DataFrames are named 'df1' and 'df2'

# Define the window specification for both DataFrames
windowSpec1 = Window.partitionBy("user_id").orderBy("month")
windowSpec2 = Window.partitionBy("user_id").orderBy("month")

# Calculate the differences between consecutive months' income and composite scores for both DataFrames
df1 = df1.withColumn("prev_income", lag(col("salary")).over(windowSpec1))
df1 = df1.withColumn("income_diff", col("salary") - col("prev_income"))
df2 = df2.withColumn("prev_score", lag(col("comp_score")).over(windowSpec2))
df2 = df2.withColumn("score_diff", col("comp_score") - col("prev_score"))

# Define the number of consecutive months for the analysis
num_consecutive_months = 3

# Calculate flags indicating if income and score decreased or not for both DataFrames
df1 = df1.withColumn("income_decrease_flag", when(col("income_diff") < 0, 1).otherwise(0))
df2 = df2.withColumn("score_decrease_flag", when(col("score_diff") < 0, 1).otherwise(0))

# Use window functions to count consecutive decreases for both income and score
df1 = df1.withColumn("consecutive_income_decreases",
spark_sum(col("income_decrease_flag")).over(windowSpec1.rowsBetween(-num_consecutive_months + 1, Window.currentRow)))
df2 = df2.withColumn("consecutive_score_decreases",
spark_sum(col("score_decrease_flag")).over(windowSpec2.rowsBetween(-num_consecutive_months + 1, Window.currentRow)))

# Filter the DataFrame to select users with three consecutive months of both income and score decrease
consecutive_decrease_users = df1.filter((col("consecutive_income_decreases") == num_consecutive_months - 1) &
(col("consecutive_score_decreases") == num_consecutive_months - 1)) \
.select("user_id", "month")

# Show the users and months where both income and score decreased consecutively
consecutive_decrease_users.show()

Подробнее здесь: https://stackoverflow.com/questions/784 ... e-score-in

1714600187

Anonymous

У меня есть два кадра данных PySpark, df1 и df2, содержащие информацию о пользователях за 12 месяцев 2023 года. df1 содержит идентификатор пользователя и совокупный балл за каждый месяц, а df2 содержит идентификатор пользователя и его зарплату за каждый месяц.
Я пытаюсь определить три месяца подряд, когда как доход, так и совокупный балл снижались для каждого пользователя. В частности, я хочу найти случаи, когда доход и совокупный балл снизились за одни и те же три месяца.
Я уже пытался вычислить разницу между доходом за последовательные месяцы и совокупным баллом, определить последовательные уменьшается и соответствующим образом фильтрует кадры данных. Однако у меня возникли проблемы с получением правильных результатов.
Вот подход, который я опробовал на данный момент:
from pyspark.sql import SparkSession
from pyspark.sql.window import Window
from pyspark.sql.functions import lag, col, when, sum as spark_sum

# Initialize Spark session
spark = SparkSession.builder \
.appName("Consecutive Decrease Analysis") \
.getOrCreate()

# Assuming your DataFrames are named 'df1' and 'df2'

# Define the window specification for both DataFrames
windowSpec1 = Window.partitionBy("user_id").orderBy("month")
windowSpec2 = Window.partitionBy("user_id").orderBy("month")

# Calculate the differences between consecutive months' income and composite scores for both DataFrames
df1 = df1.withColumn("prev_income", lag(col("salary")).over(windowSpec1))
df1 = df1.withColumn("income_diff", col("salary") - col("prev_income"))
df2 = df2.withColumn("prev_score", lag(col("comp_score")).over(windowSpec2))
df2 = df2.withColumn("score_diff", col("comp_score") - col("prev_score"))

# Define the number of consecutive months for the analysis
num_consecutive_months = 3

# Calculate flags indicating if income and score decreased or not for both DataFrames
df1 = df1.withColumn("income_decrease_flag", when(col("income_diff") < 0, 1).otherwise(0))
df2 = df2.withColumn("score_decrease_flag", when(col("score_diff") < 0, 1).otherwise(0))

# Use window functions to count consecutive decreases for both income and score
df1 = df1.withColumn("consecutive_income_decreases",
spark_sum(col("income_decrease_flag")).over(windowSpec1.rowsBetween(-num_consecutive_months + 1, Window.currentRow)))
df2 = df2.withColumn("consecutive_score_decreases",
spark_sum(col("score_decrease_flag")).over(windowSpec2.rowsBetween(-num_consecutive_months + 1, Window.currentRow)))

# Filter the DataFrame to select users with three consecutive months of both income and score decrease
consecutive_decrease_users = df1.filter((col("consecutive_income_decreases") == num_consecutive_months - 1) &
(col("consecutive_score_decreases") == num_consecutive_months - 1)) \
.select("user_id", "month")

# Show the users and months where both income and score decreased consecutively
consecutive_decrease_users.show()
 

Подробнее здесь: [url]https://stackoverflow.com/questions/78416117/identifying-three-consecutive-months-of-decreasing-income-and-composite-score-in[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Расхождения между автоматическим событием дохода от рекламы ad_impression и событием дохода от пользовательской рекламы

Последнее сообщение Anonymous « 23 май 2024, 13:49
Добавлено в форуме Android

Anonymous » 23 май 2024, 13:49 » в форуме Android

У меня есть мобильное приложение для Android, которое реализует рекламу AdMob: баннерную, межстраничную, с вознаграждением и рекламу при запуске приложения.
Я использую AdMob SDK OnPaidEventListener , чтобы передавать данные об уровне показов...

0 Ответы

72 Просмотры

Последнее сообщение Anonymous
23 май 2024, 13:49
С помощью Nesbot Carbon diffForHumans() отображайте 19 месяцев вместо 1 года, если меньше 26 месяцев.

Последнее сообщение Anonymous « 17 сен 2024, 12:50
Добавлено в форуме Php

Anonymous » 17 сен 2024, 12:50 » в форуме Php

Я показываю diffForHumans с одной частью
echo Carbon::create('1 hour 59 minutes ago')->diffForHumans(); // 1 hour ago
echo Carbon::create('1 day 23 hours ago')->diffForHumans(); // 1 day ago
echo Carbon::create('1 month 23 days...

0 Ответы

38 Просмотры

Последнее сообщение Anonymous
17 сен 2024, 12:50
Python Turtle: обработка двух последовательных экранов для двух последовательных игровых функций, управляемых прослушива

Последнее сообщение Anonymous « 23 май 2024, 02:11
Добавлено в форуме Python

Anonymous » 23 май 2024, 02:11 » в форуме Python

Я новичок в Python и пробую Turtle с помощью руководств. Этот вопрос оказался многословным, моя вина.
Я разработал 2 игры, обрабатываемые 2 функциями (в отдельном модуле), которые вызываются из MAIN:

F1: играет в игру «Зарисовка эскиза», в которой...

0 Ответы

65 Просмотры

Последнее сообщение Anonymous
23 май 2024, 02:11
Сортировать массив названий месяцев из трех букв в хронологическом порядке [дубликат]

Последнее сообщение Anonymous « 03 ноя 2024, 07:54
Добавлено в форуме Php

Anonymous » 03 ноя 2024, 07:54 » в форуме Php

Можно ли как-нибудь отсортировать следующий массив в правильном хронологическом порядке?
Array
(
=> apr
=> aug
=> dec
=> feb
=> jan
=> jul
=> jun
=> mar
=> may
=> nov
=> oct
=> sep
)

ПРИМЕЧАНИЕ. Массив приходит ко мне вот так, и...

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
03 ноя 2024, 07:54
Рассчитать третий понедельник каждых трех месяцев в Joda-Time на Java?

Последнее сообщение Anonymous « 04 дек 2024, 01:14
Добавлено в форуме JAVA

Anonymous » 04 дек 2024, 01:14 » в форуме JAVA

LocalDate date1 = new LocalDate(2015, 3, 22);
LocalDate date2 = new LocalDate(2015, 9, 30);
PeriodType monthDay = PeriodType.yearMonthDay().withYearsRemoved();

Period difference = new Period(date1, date2, monthDay);
int months =...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
04 дек 2024, 01:14

Вернуться в «Python»