Я использую DuckDB для чтения файлов JSON и преобразования их в файлы паркета. Проблема, с которой я столкнулся, заключается в том, что даты не стандартизированы для всех файлов JSON, например, некоторая дата - это эпоха, такая как эта 1673999928179 и другая в формате ISO вот так 2024-08-14T11:51:41.922Z
Код: Выделить всё
db.sql(
f"""
COPY (
SELECT * FROM read_json_auto(
'{jsonl_path}',
maximum_depth=-1,
sample_size=-1,
ignore_errors=true
)
)
TO '{out_path}' (
FORMAT PARQUET,
ROW_GROUP_SIZE {self.row_group_size},
OVERWRITE_OR_IGNORE 1
);
"""
)
Кто-нибудь знает, как это сделать?
Подробнее здесь:
https://stackoverflow.com/questions/793 ... json-files