Найдите самую последнюю статью в группе и запишите результат на диск.Python

Программы на Python
Ответить
Anonymous
 Найдите самую последнюю статью в группе и запишите результат на диск.

Сообщение Anonymous »

У меня

Код: Выделить всё

from pathlib import Path
import polars as pl

inDir   = r"E:\Personal Projects\tmp\tarFiles\result2"
outDir  = r"C:\Users\Akira\Documents"
inDir   = Path(inDir)
outDir  = Path(outDir)

schema = {"name"        : pl.String,
"dateModified": pl.String,
"identifier"  : pl.UInt64,
"url"         : pl.String,
"html"        : pl.String}

lf = pl.scan_ndjson(inDir / "*wiktionary*.ndjson", schema=schema)
lf = lf.group_by(["url"]).agg(pl.max("dateModified").alias("dateModified"))
lf.sink_ndjson(outDir / "out.ndjson",
maintain_order=False,
engine="streaming")
У меня есть много файлов ndjson, которые вместе содержат миллионы объектов json, каждый из которых имеет форму словаря. Я хотел бы сгруппировать по «url» и выбрать json с самым последним «dateModified». В приведенном выше коде остаются только «url» и «dateModified».
Не могли бы вы объяснить, как сохранить выбранные столбцы, например «name» и «html»?

Подробнее здесь: https://stackoverflow.com/questions/798 ... lt-to-disk
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»