Производительность чтения таблицы Delta при использовании API Python delta-rs? ⇐ Python
Производительность чтения таблицы Delta при использовании API Python delta-rs?
Я пытаюсь прочитать Дельта-таблицу, используя библиотеку delta-rs (Python).
В таблице миллионы записей, и нам хотелось часто читать ее с помощью вызова Rest API (только определенные записи, на основе запроса).
Итак, я проверял библиотеку delta-rs. Поскольку в нем миллионы записей, производительность чтения не очень хорошая.
Он читает всю таблицу и преобразует ее в Pandas DF (прежде чем я смогу фильтровать по моему запросу).
Есть ли способ читать только те записи, которые мне нужны, вместо чтения всей таблицы и последующей фильтрации (например, очистка столбцов, предикат и т. д.)
Обновление: я следил за этой проблемой (https://github.com/delta-io/delta-rs/issues/631) и смог добиться хорошей производительности, преобразовав DeltaTable в набор данных PyArrow и затем используйте Duckdb для фильтрации.
Я пытаюсь прочитать Дельта-таблицу, используя библиотеку delta-rs (Python).
В таблице миллионы записей, и нам хотелось часто читать ее с помощью вызова Rest API (только определенные записи, на основе запроса).
Итак, я проверял библиотеку delta-rs. Поскольку в нем миллионы записей, производительность чтения не очень хорошая.
Он читает всю таблицу и преобразует ее в Pandas DF (прежде чем я смогу фильтровать по моему запросу).
Есть ли способ читать только те записи, которые мне нужны, вместо чтения всей таблицы и последующей фильтрации (например, очистка столбцов, предикат и т. д.)
Обновление: я следил за этой проблемой (https://github.com/delta-io/delta-rs/issues/631) и смог добиться хорошей производительности, преобразовав DeltaTable в набор данных PyArrow и затем используйте Duckdb для фильтрации.
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение