Polars: как записать столбец строк в текстовый файл без экранирования?Python

Программы на Python
Ответить
Anonymous
 Polars: как записать столбец строк в текстовый файл без экранирования?

Сообщение Anonymous »

У меня есть файлы .ndjson с миллионами строк. В каждой строке есть поле html, содержащее строки HTML. Я хотел бы записать весь такой HTML в файл .txt. Один HTML-код находится в одной строке файла .txt. Я попробовал использовать Polars.LazyFrame.sink_csv из-за его скорости:

Код: Выделить всё

import polars as pl
import requests
from pathlib import Path

url = "https://raw.githubusercontent.com/leanhdung1994/files/main/processedStep1_enwiktionary_namespace_0_43.ndjson"
workingDir = r"E:\Personal Projects\tmp\tarFiles"
outNdjson = Path(workingDir, "wiktionary.ndjson")
outTxt = Path(workingDir, "wiktionary.txt")

# Download
resp = requests.get(url)
resp.raise_for_status()

# Save
with open(outNdjson, "wb") as f:
f.write(resp.content)

# Read with Polars
df = pl.scan_ndjson(outNdjson)
print(df.select("html").collect())

df.select("html").sink_csv(outTxt, include_header=False)
Столбец html:

Код: Выделить всё

shape: (23, 1)
┌─────────────────────────────────┐
│ html                            │
│ ---                             │
│ str                             │
╞═════════════════════════════════╡
│ playabilities 

Подробнее здесь: [url]https://stackoverflow.com/questions/79829204/polars-how-to-write-a-column-of-strings-into-a-txt-file-without-escaping[/url]
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»