import polars as pl
import requests
from pathlib import Path
url = "https://raw.githubusercontent.com/leanhdung1994/files/main/processedStep1_enwiktionary_namespace_0_43.ndjson"
workingDir = r"E:\test"
outNdjson = Path(workingDir, "wiktionary.ndjson")
outTxt = Path(workingDir, "wiktionary.txt")
# Download
resp = requests.get(url)
resp.raise_for_status()
# Save
with open(outNdjson, "wb") as f:
f.write(resp.content)
# Read with Polars
lf = pl.scan_ndjson(outNdjson)
lf.select("html").sink_csv(outTxt,
include_header=False,
maintain_order=True,
quote_style="never",
line_terminator="\r\n")
Моя ОС — Windows 11. Выше я использую опцию line_terminator="\r\n" для завершения строки CRLF. Однако полученный текстовый файл имеет завершение строки LF:
Не могли бы вы подробнее рассказать об этой проблеме и способах ее устранения?
# Save with open(outNdjson, "wb") as f: f.write(resp.content)
# Read with Polars lf = pl.scan_ndjson(outNdjson) lf.select("html").sink_csv(outTxt, include_header=False, maintain_order=True, quote_style="never", line_terminator="\r\n") [/code] Моя ОС — Windows 11. Выше я использую опцию line_terminator="\r\n" для завершения строки CRLF. Однако полученный текстовый файл имеет завершение строки LF: [img]https://i.sstatic.net/F02k6tNV.png[/img]
Не могли бы вы подробнее рассказать об этой проблеме и способах ее устранения?