Создать кадр данных Polars, содержащий уникальные значения из набора CSV

Создать кадр данных Polars, содержащий уникальные значения из набора CSV ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Создать кадр данных Polars, содержащий уникальные значения из набора CSV

Цитата

Сообщение Anonymous » 20 фев 2026, 15:06

У меня есть +3000 CSV-файлов с +10 столбцами. Мне нужно получить все уникальные значения всего из двух из них. Я могу читать уникальные значения в полярах:

Код: Выделить всё

import polars as pl

df1 = pl.read_csv("test1.biobank.tsv.gz", separator='\t', schema_overrides={"#chrom": pl.String}, n_threads=8, columns=["#chrom", "pos"], new_columns=["chr", "pos"]).unique()

Остальные файлы я могу прочитать один за другим, т.е.:

Код: Выделить всё

df2 = pl.read_csv("test2.biobank.tsv.gz", separator='\t', schema_overrides={"#chrom": pl.String}, n_threads=8, columns=["#chrom", "pos"], new_columns=["chr", "pos"]).unique()

проверьте, все ли значения не равны:

Код: Выделить всё

if not df1.equals(df2):
df = df1.vstack(df2)
del(df1)
del(df2)

затем .unique(). Но поскольку все входные файлы уже отсортированы по двум столбцам (chr, pos), а различия исчисляются тысячами из 16 миллионов входных строк, я надеюсь, что есть лучший способ сделать это.
Заранее спасибо за помощь
DK
редактировать
Есть другой способ сделать это, используя Polars и DuckDB.
/>

создать файлы паркета для каждого из входов

Код: Выделить всё

tsv_pattern = "gwas_*.gz"

for fn in glob.glob(tsv_pattern):
print(fn)
parquet_fn = fn.replace(".gz", ".chr_pos.parquet")
df = pl.read_csv(fn, separator='\t', schema_overrides={"#chrom": pl.Utf8}, n_threads=8, columns=["#chrom", "pos"], new_columns=["chr", "pos"]).unique()
df.to_parquet(parquet_fn, compression='zstd')
del(df)

запустите DuckDB и выполните:

Код: Выделить всё

CREATE TABLE my_table AS SELECT DISTINCT * FROM 'my_directory/*.parquet'

Благодарность принадлежит Марку Мизерину из DuckDB

Подробнее здесь: https://stackoverflow.com/questions/700 ... et-of-csvs

1771589181

Anonymous

У меня есть +3000 CSV-файлов с +10 столбцами. Мне нужно получить все уникальные значения всего из двух из них. Я могу читать уникальные значения в полярах:
[code]import polars as pl

df1 = pl.read_csv("test1.biobank.tsv.gz", separator='\t', schema_overrides={"#chrom": pl.String}, n_threads=8, columns=["#chrom", "pos"], new_columns=["chr", "pos"]).unique()
[/code]
Остальные файлы я могу прочитать один за другим, т.е.:
[code]df2 = pl.read_csv("test2.biobank.tsv.gz", separator='\t', schema_overrides={"#chrom": pl.String}, n_threads=8, columns=["#chrom", "pos"], new_columns=["chr", "pos"]).unique()
[/code]
проверьте, все ли значения не равны:
[code]if not df1.equals(df2):
df = df1.vstack(df2)
del(df1)
del(df2)
[/code]
затем .unique(). Но поскольку все входные файлы уже отсортированы по двум столбцам (chr, pos), а различия исчисляются тысячами из 16 миллионов входных строк, я надеюсь, что есть лучший способ сделать это.
Заранее спасибо за помощь
DK
[b]редактировать[/b]
Есть другой способ сделать это, используя Polars и DuckDB.
/>[list]
[*]создать файлы паркета для каждого из входов
[/list]
[code]tsv_pattern = "gwas_*.gz"

for fn in glob.glob(tsv_pattern):
print(fn)
parquet_fn = fn.replace(".gz", ".chr_pos.parquet")
df = pl.read_csv(fn, separator='\t', schema_overrides={"#chrom": pl.Utf8}, n_threads=8, columns=["#chrom", "pos"], new_columns=["chr", "pos"]).unique()
df.to_parquet(parquet_fn, compression='zstd')
del(df)

[/code]
[list]
[*]запустите DuckDB и выполните:
[/list]
[code]CREATE TABLE my_table AS SELECT DISTINCT * FROM 'my_directory/*.parquet'
[/code]
Благодарность принадлежит Марку Мизерину из DuckDB 

Подробнее здесь: [url]https://stackoverflow.com/questions/70005751/create-a-polars-dataframe-containing-unique-values-from-a-set-of-csvs[/url]