У меня есть ситуация, когда DataFrame сначала сохраняется в Parquet, а затем в Delta. Мне нужно было изучить другой формат, поскольку сохранение в одном файле занимает значительное время. Я в основном использую Plain Pyspark и Python при решении этих проблем. Я нашел различия, поэтому я удалил все столбцы с пустыми значениями. После вычитания DataFrames я получил пустые результаты. < /P>
Далее я работал с Deltas. Несмотря на удаление дополнительных столбцов с пустыми значениями, я все еще не получал пустых данных данных после вычитания. Однако, когда я выбрал одну запись из каждого из вычтенных данных и копировал выходы в Excel, они возвращались как идентичные после запуска команды if. /> К сожалению, я не могу поделиться данными из -за чувствительности бизнеса. < /p>
Подробнее здесь: https://stackoverflow.com/questions/797 ... are-differ
При сравнении двух считанных данных от DataFrames из Delta я получаю выход, они разные, и я не могу точно определить при ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
-
-
Производительность чтения таблицы Delta при использовании API Python delta-rs?
Anonymous » » в форуме Python - 0 Ответы
- 37 Просмотры
-
Последнее сообщение Anonymous
-