Как разделить фрейм данных pyspark, взяв часть данных для каждого отдельного идентификатора

Как разделить фрейм данных pyspark, взяв часть данных для каждого отдельного идентификатора ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как разделить фрейм данных pyspark, взяв часть данных для каждого отдельного идентификатора

Цитата

Сообщение Anonymous » 25 окт 2024, 17:56

Я работаю с фреймом данных pyspark (на Python), содержащим данные временных рядов. Данные получили такую структуру:

Код: Выделить всё

event_time  variable value   step   ID
1456942945  var_a    123.4    1      id_1
1456931076  var_b    857.01   1      id_1
1456932268  var_b    871.74   1      id_1
1456940055  var_b    992.3    2      id_1
1456932781  var_c    861.3    2      id_1
1456937186  var_c    959.6    3      id_1
1456934746  var_d    0.12     4      id_1

1456942945  var_a    123.4    1      id_2
1456931076  var_b    847.01   1      id_2
1456932268  var_b    871.74   1      id_2
1456940055  var_b    932.3    2      id_2
1456932781  var_c    821.3    3      id_2
1456937186  var_c    969.6    4      id_2
1456934746  var_d    0.12     4      id_2

Для каждого идентификатора я получил значение каждой переменной на определенном «шаге».
Мне нужно подмножество этого кадра данных, как показано ниже
Strong>: для каждого идентификатора возьмите все строки, соответствующие шагам 1, 2, 3, и часть данных шага 4, начиная со значения времени first_event шага 4, скажем, первых 25%. Это порционирование должно выполняться с учетом времени события.
Я могу сделать это для одного идентификатора после подмножества DF на основе этого идентификатора:

Код: Выделить всё

# single step partitioning
threshold_value = DF.selectExpr(f"percentile_approx({"event_time"}, {0.25}) as threshold").collect()[0]["threshold"]

partitioned_df= DF.filter(col(column_name) 

Подробнее здесь: [url]https://stackoverflow.com/questions/79126205/how-to-split-a-pyspark-dataframe-taking-a-portion-of-data-for-each-different-id[/url]

1729868176

Anonymous

Я работаю с фреймом данных pyspark (на Python), содержащим данные временных рядов. Данные получили такую структуру:
[code]event_time  variable value   step   ID
1456942945  var_a    123.4    1      id_1
1456931076  var_b    857.01   1      id_1
1456932268  var_b    871.74   1      id_1
1456940055  var_b    992.3    2      id_1
1456932781  var_c    861.3    2      id_1
1456937186  var_c    959.6    3      id_1
1456934746  var_d    0.12     4      id_1

1456942945  var_a    123.4    1      id_2
1456931076  var_b    847.01   1      id_2
1456932268  var_b    871.74   1      id_2
1456940055  var_b    932.3    2      id_2
1456932781  var_c    821.3    3      id_2
1456937186  var_c    969.6    4      id_2
1456934746  var_d    0.12     4      id_2
[/code]
Для каждого идентификатора я получил значение каждой переменной на определенном «шаге».
Мне нужно подмножество этого кадра данных, как показано ниже
Strong>: для каждого идентификатора возьмите все строки, соответствующие шагам 1, 2, 3, и часть данных шага 4, начиная со значения времени first_event шага 4, скажем, первых 25%. Это порционирование должно выполняться с учетом времени события.
Я могу сделать это для одного идентификатора после подмножества DF на основе этого идентификатора:[code]# single step partitioning
threshold_value = DF.selectExpr(f"percentile_approx({"event_time"}, {0.25}) as threshold").collect()[0]["threshold"]

partitioned_df= DF.filter(col(column_name) 

Подробнее здесь: [url]https://stackoverflow.com/questions/79126205/how-to-split-a-pyspark-dataframe-taking-a-portion-of-data-for-each-different-id[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как разделить фрейм данных pyspark, взяв часть данных для каждого идентификатора

Последнее сообщение Anonymous « 28 окт 2024, 09:41
Добавлено в форуме Python

Anonymous » 28 окт 2024, 09:41 » в форуме Python

Я работаю с фреймом данных pyspark (на Python), содержащим данные временных рядов. Данные получили такую структуру:
event_time variable value step ID
1456942945 var_a 123.4 1 id_1
1456931076 var_b 857.01 1 id_1
1456932268 var_b 871.74 1 id_1...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
28 окт 2024, 09:41
Как преобразовать фрейм данных PySpark Pandas в фрейм данных PySpark?

Последнее сообщение Anonymous « 09 дек 2024, 10:23
Добавлено в форуме Python

Anonymous » 09 дек 2024, 10:23 » в форуме Python

У меня есть набор данных, хранящийся в pyspark.pandas.frame.DataFrame, который я хочу преобразовать в pyspark.sql.DataFrame, прежде чем сохранять его в дельта-файл. Как это сделать правильно?
PS: Причина в том, что я хочу обеспечить соблюдение схемы...

0 Ответы

32 Просмотры

Последнее сообщение Anonymous
09 дек 2024, 10:23
Объедините 2 массива numpy 1d, последовательно взяв элементы из каждого

Последнее сообщение Anonymous « 01 окт 2024, 17:02
Добавлено в форуме Python

Anonymous » 01 окт 2024, 17:02 » в форуме Python

У меня есть 2 массива
xs1 =
xs2 =

Я хочу объединить их, взяв по элементу из каждого за раз.
xs =

Как я могу добиться этого с помощью numpy без цикла for?

Подробнее здесь:

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
01 окт 2024, 17:02
Как я могу разделить (разделить, разделить) список на основе условия?

Последнее сообщение Anonymous « 25 июн 2024, 19:12
Добавлено в форуме Python

Anonymous » 25 июн 2024, 19:12 » в форуме Python

У меня есть такой код:
good =
bad =

Цель состоит в том, чтобы разделить содержимое mylist на два других списка в зависимости от того, соответствуют ли они условию.
Как это сделать более элегантно? Могу ли я избежать двух отдельных итераций над...

0 Ответы

110 Просмотры

Последнее сообщение Anonymous
25 июн 2024, 19:12
Как эффективно преобразовать фрейм данных в желаемый новый фрейм данных?

Последнее сообщение Anonymous « 17 июл 2024, 11:53
Добавлено в форуме Python

Anonymous » 17 июл 2024, 11:53 » в форуме Python

x — это фрейм данных:
x
year mar 31, 2024 mar 31, 2023
0 net income 306.000 524.0000
1 net income growth -0.416 -0.0455
2 retained rate NaN NaN
3 pe 419.930 0.0000

Это индекс строки и имя столбца:
x.index
RangeIndex(start=0, stop=4, step=1)...

0 Ответы

45 Просмотры

Последнее сообщение Anonymous
17 июл 2024, 11:53

Вернуться в «Python»