Диагностика дублирующих вставки после слияния/upsert с Deltalake (Python)

Диагностика дублирующих вставки после слияния/upsert с Deltalake (Python) ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Диагностика дублирующих вставки после слияния/upsert с Deltalake (Python)

Цитата

Сообщение Anonymous » 31 авг 2025, 01:20

Я бы очень признателен за вашу помощь с проблемой дублирования, которую я попадаю при использовании Deltalake Merges (Python). < /p>
контекст < /strong> < /p>

Бэкэнд: azure blob storage < /li>
libreries: deltalake 1.1.1 (pithon), 1 (1.1.1. LazyFrame/DataFrame)
Цель: idempotent upsert (повторное управление тем же входом не должен создавать новые строки)

Delta Table Shema

Код: Выделить всё

Schema(
[Field(area_type_code, PrimitiveType("string"), nullable=True),
Field(map_code, PrimitiveType("string"), nullable=True),
Field(fuel, PrimitiveType("string"), nullable=True),
Field(datetime, PrimitiveType("timestamp_ntz"), nullable=True),
Field(period_name, PrimitiveType("string"), nullable=True),
Field(period_granularity, PrimitiveType("string"), nullable=True),
Field(power, PrimitiveType("double"), nullable=True),
Field(energy, PrimitiveType("double"), nullable=True)]
)

подход upsert (за кусок)

[*] Разделитель источника на кусочки (я пробовал 2M и 10M строки).
Для каждого чанка перезагрузить таблицу дельта (так что вставки/обновления из предыдущих chunks is visible). → when_matched_update → when_not_matched_insert: < /li>
< /ul>

Код: Выделить всё

merge_results = delta_table.merge(
source=df_chunk,
predicate=merge_predicate,
source_alias='source',
target_alias='target',
writer_properties=writer_properties,
streamed_exec=True,
).when_matched_update(
predicate=match_predicate,
updates=update_mapping
).when_not_matched_insert(
updates=insert_mapping
).execute()
< /code>
Мои предикаты и отображения выглядят как: < /p>
Merge Predicate: target.area_type_code = source.area_type_code и target.map_code = source.map_code и target.fuel = source.fuel.dateTime = source.dateTime и target_gran_gran_grainder_graniod_gran_granistre source.period_granularity

Для предиката слияния я также пытался договориться о разделах, обнаруженных в кунке, например, и в Target.period_granulity в («часовой», «ежедневно») и target.area_type_code in ('bzn') . Значения поступают от различия чанка.
Сопоставьте предикат: target.power! = Source.power или target.Energy! = Source.Energy
Сопоставление обновления: {'power': 'Source.power', 'Energy': 'Source.Energy'}
en orting at ets et in ets et in ets et in et en ortapping {'period_name': 'source.period_name', 'period_granularity': 'source.period_granularity', 'area_type_code': 'source.area_type_code', 'energy': 'source.energy', 'power': 'source.power', 'map_code': 'source.map_code', 'datetime': 'Source.DateTime', 'fuel': 'Source.fuel'}
Мое ограничение состоит в том, что предикат слияния определяет, существует ли запись в источнике или нет в цели; Предикат соответствия - это то, что решает, должна ли уже обновлять уже существующую запись или нет, и сопоставления в основном указывают, какие значения из источника должны в конечном итоге в конечном итоге, в каких столбцах из цели. В первый раз создается таблица Delta, а общее количество строк составляет 10 240,472. Это соответствует количеству строк в входном рамке DataFrame. Когда я запускаю его снова - те же исходные данные, без изменений - я вижу некоторые вставки в соответствии с словарем, нанесенным методом выполнения (Tablemerger). Это также соответствует количеству строк в таблице Delta после того, как я загружаю его в DataFrame и получаю количество строк. Я следит за тем, чтобы у меня не было никаких значений NULL или NAN во всех столбцах, используемых в предикате MERGE (то есть столбцы PK, если хотите). < /P>
'num_source_rows': 240472,
'num_target_rows_inserted': 29782,
'num_target_rows_updated': 4429,
'num_target_rows_deleted': 0,
'num_target_rows_copied': 471766,
'num_output_rows': 505977,
'num_target_files_scanned': 21,
'num_target_files_skipped_during_scan': 0,
'num_target_files_added': 20,
'num_target_files_removed': 18,
< /code>
Я загружаю таблицу Delta в DataFrame Polars или Pandas, и я вижу дубликаты. Я даже зашел так далеко, что запрашивал и загружал строки для дублированного ключа и сравниваю значения для каждого столбца, и каждая строка и никаких различий не обнаружено. Являются ли:
Что-нибудь в моей логике слияния/совпадений за то, что они идентифицируют upsert? (например, нормализация/точность), которую я мог бы пропустить? Safeguard? Рад предоставить более подробную информацию.

Подробнее здесь: https://stackoverflow.com/questions/797 ... ake-python

1756592434

Anonymous

 Я бы очень признателен за вашу помощь с проблемой дублирования, которую я попадаю при использовании Deltalake Merges (Python). < /p>
[b] контекст < /strong> < /p>
[list]
[*] Бэкэнд: azure blob storage < /li>
 libreries: deltalake 1.1.1 (pithon), 1 (1.1.1. LazyFrame/DataFrame)
[*] Цель: idempotent upsert (повторное управление тем же входом не должен создавать новые строки)
[/list]
 Delta Table Shema [/b] 
[code]Schema(
[Field(area_type_code, PrimitiveType("string"), nullable=True),
Field(map_code, PrimitiveType("string"), nullable=True),
Field(fuel, PrimitiveType("string"), nullable=True),
Field(datetime, PrimitiveType("timestamp_ntz"), nullable=True),
Field(period_name, PrimitiveType("string"), nullable=True),
Field(period_granularity, PrimitiveType("string"), nullable=True),
Field(power, PrimitiveType("double"), nullable=True),
Field(energy, PrimitiveType("double"), nullable=True)]
)
[/code]
[b] подход upsert (за кусок) [/b] 

[*] Разделитель источника на кусочки (я пробовал 2M и 10M строки).
 Для каждого чанка перезагрузить таблицу дельта (так что вставки/обновления из предыдущих chunks is visible). → when_matched_update → when_not_matched_insert: < /li>
< /ul>
[code]merge_results = delta_table.merge(
source=df_chunk,
predicate=merge_predicate,
source_alias='source',
target_alias='target',
writer_properties=writer_properties,
streamed_exec=True,
).when_matched_update(
predicate=match_predicate,
updates=update_mapping
).when_not_matched_insert(
updates=insert_mapping
).execute()
< /code>
Мои предикаты и отображения выглядят как: < /p>
Merge Predicate: target.area_type_code = source.area_type_code и target.map_code = source.map_code и target.fuel = source.fuel.dateTime = source.dateTime и target_gran_gran_grainder_graniod_gran_granistre source.period_granularity [/code]
Для предиката слияния я также пытался договориться о разделах, обнаруженных в кунке, например, и в Target.period_granulity в («часовой», «ежедневно») и target.area_type_code in ('bzn') . Значения поступают от различия чанка. 
Сопоставьте предикат: target.power! = Source.power или target.Energy! = Source.Energy  
Сопоставление обновления: {'power': 'Source.power', 'Energy': 'Source.Energy'}  
en orting at ets et in ets et in ets et in et en ortapping {'period_name': 'source.period_name', 'period_granularity': 'source.period_granularity', 'area_type_code': 'source.area_type_code', 'energy': 'source.energy', 'power': 'source.power', 'map_code': 'source.map_code', 'datetime': 'Source.DateTime', 'fuel': 'Source.fuel'}  
Мое ограничение состоит в том, что предикат слияния определяет, существует ли запись в источнике или нет в цели; Предикат соответствия - это то, что решает, должна ли уже обновлять уже существующую запись или нет, и сопоставления в основном указывают, какие значения из источника должны в конечном итоге в конечном итоге, в каких столбцах из цели. В первый раз создается таблица Delta, а общее количество строк составляет 10 240,472. Это соответствует количеству строк в входном рамке DataFrame. Когда я запускаю его снова - те же исходные данные, без изменений - я вижу некоторые вставки в соответствии с словарем, нанесенным методом выполнения (Tablemerger). Это также соответствует количеству строк в таблице Delta после того, как я загружаю его в DataFrame и получаю количество строк. Я следит за тем, чтобы у меня не было никаких значений NULL или NAN во всех столбцах, используемых в предикате MERGE (то есть столбцы PK, если хотите). < /P>
'num_source_rows': 240472,
'num_target_rows_inserted': 29782,
'num_target_rows_updated': 4429,
'num_target_rows_deleted': 0,
'num_target_rows_copied': 471766,
'num_output_rows': 505977,
'num_target_files_scanned': 21,
'num_target_files_skipped_during_scan': 0,
'num_target_files_added': 20,
'num_target_files_removed': 18,
< /code>
Я загружаю таблицу Delta в DataFrame Polars или Pandas, и я вижу дубликаты. Я даже зашел так далеко, что запрашивал и загружал строки для дублированного ключа и сравниваю значения для каждого столбца, и каждая строка и никаких различий не обнаружено. Являются ли:  
Что-нибудь в моей логике слияния/совпадений за то, что они идентифицируют upsert? (например, нормализация/точность), которую я мог бы пропустить? Safeguard? Рад предоставить более подробную информацию.  

Подробнее здесь: [url]https://stackoverflow.com/questions/79751457/diagnosing-duplicate-inserts-after-merge-upsert-with-deltalake-python[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Диагностика исключения IronPython StackOverflowException

Последнее сообщение Anonymous « 30 июн 2024, 07:50
Добавлено в форуме Python

Anonymous » 30 июн 2024, 07:50 » в форуме Python

У меня есть программа, которая по сути считывает показания датчика температуры и записывает показания в файл в бесконечном цикле (т. е. продолжает работать до тех пор, пока я не выйду из программы или не выйду из нее). Отлично работал на первой...

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
30 июн 2024, 07:50
Диагностика памяти BenchmarkDotNet

Последнее сообщение Anonymous « 28 сен 2024, 14:22
Добавлено в форуме C#

Anonymous » 28 сен 2024, 14:22 » в форуме C#

У меня есть код, который я хочу ускорить. Он не выделяет много памяти, но его, безусловно, можно улучшить. Однако для уменьшения выделения памяти потребуется МНОГО рефакторинга.
Прежде чем приступить к этой работе, мне было интересно, есть ли способ...

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
28 сен 2024, 14:22
Диагностика вызова блокировки SFTP в libssh2

Последнее сообщение Anonymous « 16 янв 2025, 21:45
Добавлено в форуме C++

Anonymous » 16 янв 2025, 21:45 » в форуме C++

Я использую самое последнее дерево Git libssh2 для выполнения некоторых работ по SFTP. Я использую неблокирующий интерфейс.
Мне удалось установить соединение с SFTP-сервером, войти в систему и передать файлы.
Однако я столкнулся с проблемой, когда...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
16 янв 2025, 21:45
App Flutter Show Grey Screen в режиме выпуска, но отлично работает в режиме отладки «Диагностика Пропертиза »

Последнее сообщение Anonymous « 04 июн 2025, 14:09
Добавлено в форуме Android

Anonymous » 04 июн 2025, 14:09 » в форуме Android

Я замечаю, что приложение прекрасно работает в режиме отладки, но когда я пытаюсь создать выпуск APK и пробую его на моем телефоне, приложение показывает серой экран после экрана загрузки.
Когда я использовал https, и я добавил все разрешения....

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
04 июн 2025, 14:09
Linqtodb Помощь, необходимая для слияния и вторичных вставки

Последнее сообщение Anonymous « 17 июн 2025, 07:23
Добавлено в форуме C#

Anonymous » 17 июн 2025, 07:23 » в форуме C#

Я пытаюсь использовать Linqtodb Merge для вставки/обновления таблицы назначения. ProductId и PulfierId ?

Я немного прочитал о MergeWithOutputInto () , думая, что у него могут быть ключи, но я не нашел никаких примеров, чтобы выяснить вопрос. />...

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
17 июн 2025, 07:23

Вернуться в «Python»