Потоковая передача вариантов использования в pyspark

Потоковая передача вариантов использования в pyspark ⇐ Python

1 сообщение • Страница 1 из 1

Гость

Потоковая передача вариантов использования в pyspark

Цитата

Сообщение Гость » 22 сен 2023, 15:45

Я работаю с Databricks в Azure, мои данные размещаются в ADLS2.
Текущая версия среды выполнения – 10.4 LTS (при необходимости я могу обновить)

У меня есть таблица Pimproduct:
идентификатор имя действие dlk_last_modified pim_timestamp 1 Статья1 А 01.03.2022 28 февраля 2022 22:34:00 [*]id: идентификатор статьи (уникальный). [*]имя: название статьи [*]Действие: действие, выполняемое над строкой (A = добавить, D = удалить). [*]dlk_last_modified: дата вставки в мою таблицу [*]pim_timestamp: дата извлечения из исходной системы
Каждые примерно 15 минут я получаю новый файл, содержащий модификацию, которую мне нужно вставить. Для каждой строки в моем файле я рассматриваю только самые последние идентификаторы pim_timestamp :
[*]Если строка имеет тип action=A и идентификатор не существует, я добавляю строку [*]Если строка имеет тип action=A и идентификатор существует, я заменяю существующую строку с тем же идентификатором новой строкой. [*]Если строка имеет action=D, мне нужно удалить идентификатор из таблицы.
Изначально изменения были ежедневными. Я использовал этот код:

из функций импорта pyspark.sql как F, Window как W df = spark.table("Pimproduct").unionByNames( spark.read.format("avro").load("/путь/к/ежедневным/данным") ) df = df.withColumn( "р-н", F.row_number().over(W.partitionBy("id").orderBy(F.col("pim_timestamp").desc())), ) df = df.where("rn = 1").where("действие 'D'") df.write.saveAsTable("pimproduct", format="delta", mode="overwrite") Но теперь я хочу сделать то же самое в потоковом режиме и не знаю, как это сделать. Я попробовал это:

импортировать временный файл из функций импорта pyspark.sql как F, Window как W df = spark.readSteam.table("Pimproduct").unionByNames( spark.readStream.schema(схема).format("avro").load("/путь/к/ежедневным/данным") ) df = df.withColumn( "р-н", F.row_number().over(W.partitionBy("id").orderBy(F.col("pim_timestamp").desc())), ) df = df.where("rn = 1").where("действие 'D'") с tempfile.TemporaryDirectory() как d: df.writeStream.toTable("Pimproduct", checkpointLocation=d) но у меня возникла ошибка:

Исключение AnalysisException: окна, не привязанные к времени, не поддерживаются при потоковой передаче кадров данных/наборов данных;

Есть идеи, как я могу выполнить этот паровой прием данных? Я открыт для предложений.

1695386720

Гость


Я работаю с Databricks в Azure, мои данные размещаются в ADLS2.
Текущая версия среды выполнения – 10.4 LTS (при необходимости я могу обновить)
 
У меня есть таблица [b]Pimproduct[/b]:
     идентификатор имя действие dlk_last_modified pim_timestamp     1 Статья1 А 01.03.2022 28 февраля 2022 22:34:00      [*]id: идентификатор статьи (уникальный). [*]имя: название статьи [*]Действие: действие, выполняемое над строкой (A = добавить, D = удалить). [*]dlk_last_modified: дата вставки в мою таблицу [*]pim_timestamp: дата извлечения из исходной системы  
Каждые примерно 15 минут я получаю новый файл, содержащий модификацию, которую мне нужно вставить. Для каждой строки в моем файле я рассматриваю только самые последние идентификаторы pim_timestamp :
  [*]Если строка имеет тип action=A и идентификатор не существует, я добавляю строку [*]Если строка имеет тип action=A и идентификатор существует, я заменяю существующую строку с тем же идентификатором новой строкой. [*]Если строка имеет action=D, мне нужно удалить идентификатор из таблицы.   
Изначально изменения были ежедневными. Я использовал этот код:
 
из функций импорта pyspark.sql как F, Window как W df = spark.table("Pimproduct").unionByNames(     spark.read.format("avro").load("/путь/к/ежедневным/данным") ) df = df.withColumn(     "р-н",     F.row_number().over(W.partitionBy("id").orderBy(F.col("pim_timestamp").desc())), ) df = df.where("rn = 1").where("действие  'D'") df.write.saveAsTable("pimproduct", format="delta", mode="overwrite")  Но теперь я хочу сделать то же самое в потоковом режиме и не знаю, как это сделать. Я попробовал это:
 
импортировать временный файл из функций импорта pyspark.sql как F, Window как W df = spark.readSteam.table("Pimproduct").unionByNames(     spark.readStream.schema(схема).format("avro").load("/путь/к/ежедневным/данным") ) df = df.withColumn(     "р-н",     F.row_number().over(W.partitionBy("id").orderBy(F.col("pim_timestamp").desc())), ) df = df.where("rn = 1").where("действие  'D'") с tempfile.TemporaryDirectory() как d:     df.writeStream.toTable("Pimproduct", checkpointLocation=d)  но у меня возникла ошибка:
  
Исключение AnalysisException: окна, не привязанные к времени, не поддерживаются при потоковой передаче кадров данных/наборов данных;
  
Есть идеи, как я могу выполнить этот паровой прием данных? Я открыт для предложений.

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Потоковая передача вариантов использования в pyspark

Последнее сообщение Гость « 22 сен 2023, 16:40
Добавлено в форуме Python

Гость » 22 сен 2023, 16:40 » в форуме Python

Я работаю с Databricks в Azure, мои данные размещаются в ADLS2.
Текущая версия среды выполнения – 10.4 LTS (при необходимости я могу обновить)

У меня есть таблица Pimproduct :
идентификатор имя действие dlk_last_modified pim_timestamp 1 Статья1 А...

0 Ответы

61 Просмотры

Последнее сообщение Гость
22 сен 2023, 16:40
Потоковая передача вариантов использования в pyspark

Последнее сообщение Гость « 23 сен 2023, 11:40
Добавлено в форуме Python

Гость » 23 сен 2023, 11:40 » в форуме Python

Я работаю с Databricks в Azure, мои данные размещаются в ADLS2.
Текущая версия среды выполнения – 10.4 LTS (при необходимости я могу обновить)

У меня есть таблица Pimproduct :
идентификатор имя действие dlk_last_modified pim_timestamp 1 Статья1 А...

0 Ответы

130 Просмотры

Последнее сообщение Гость
23 сен 2023, 11:40
Потоковая потоковая передача видео с камеры FLIR с помощью Python

Последнее сообщение Anonymous « 15 мар 2025, 23:05
Добавлено в форуме Python

Anonymous » 15 мар 2025, 23:05 » в форуме Python

У меня проблемы с потоковой передачей от Flir Grasshopper3 до OpenCV. Есть ли способ транслировать непосредственно от камеры FLIR в мой код с помощью Python? Когда я использую приведенный ниже код, CV.VideoCapture не может распознать камеру FLIR в...

0 Ответы

34 Просмотры

Последнее сообщение Anonymous
15 мар 2025, 23:05
Потоковая потоковая передача Polars: Parquet Parquet на основе Shift (-1)

Последнее сообщение Anonymous « 20 авг 2025, 09:32
Добавлено в форуме Python

Anonymous » 20 авг 2025, 09:32 » в форуме Python

Я пытаюсь погрузиться в большой паркетный файл с полярными. Это должно быть легко достичь в (1) памяти:
import os ; os.environ = '4'
import polars as pl
import time, random
import numpy as np
random.seed(42)

N_TICKS = 100_000
N_TICKERS = 10_000
T0...

0 Ответы

3 Просмотры

Последнее сообщение Anonymous
20 авг 2025, 09:32
WooCommerce: получите настраиваемое поле из вариантов продукта и отобразите его как суффикс к ценам вариантов.

Последнее сообщение Anonymous « 24 май 2024, 04:14
Добавлено в форуме Php

Anonymous » 24 май 2024, 04:14 » в форуме Php

Я пытаюсь получить значение из пользовательского поля чисел для вариантов продукта и показать его как суффикс к ценам вариантов вместе с пользовательским текстом.

Я работаю с

WooCommerce: получение настраиваемого поля из вариантов продукта и...

0 Ответы

91 Просмотры

Последнее сообщение Anonymous
24 май 2024, 04:14

Вернуться в «Python»