Производительность чтения таблицы Delta при использовании API Python delta-rs? - Цифровое Кемерово

Производительность чтения таблицы Delta при использовании API Python delta-rs? ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Производительность чтения таблицы Delta при использовании API Python delta-rs?

Сообщение Anonymous » 03 янв 2024, 15:54

Я пытаюсь прочитать Дельта-таблицу, используя библиотеку delta-rs (Python).

В таблице миллионы записей, и нам хотелось часто читать ее с помощью вызова Rest API (только определенные записи, на основе запроса).

Итак, я проверял библиотеку delta-rs. Поскольку в нем миллионы записей, производительность чтения не очень хорошая.

Он читает всю таблицу и преобразует ее в Pandas DF (прежде чем я смогу фильтровать по моему запросу).

Есть ли способ читать только те записи, которые мне нужны, вместо чтения всей таблицы и последующей фильтрации (например, очистка столбцов, предикат и т. д.)

Обновление: я следил за этой проблемой (https://github.com/delta-io/delta-rs/issues/631) и смог добиться хорошей производительности, преобразовав DeltaTable в набор данных PyArrow и затем используйте Duckdb для фильтрации.

Anonymous

1 сообщение • Страница 1 из 1

Вернуться в «Python»