Используете DuckDB с s3? - Цифровое Кемерово

Используете DuckDB с s3? ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Цитата

Сообщение Anonymous » 24 ноя 2024, 18:13

Я пытаюсь использовать DuckDB в блокноте Jupyter для доступа и запроса некоторых файлов паркета, хранящихся в s3, но, похоже, не могу заставить его работать. Судя по прошлому опыту, я чувствую, что мне нужно назначить соответствующую файловую систему, но я не уверен, как и где это сделать.
Приведенный ниже код вызывает ошибку: RuntimeError: IO Ошибка: не найдено файлов, соответствующих шаблону «s3:///.parquet»
import boto3
import duckdb

s3 = boto3.resource('s3')
client=boto3.client("s3")
con = duckdb.connect(database=':memory:', read_only=False)

con.execute("""
SET s3_region='-----';
SET s3_access_key_id='-----';
SET s3_secret_access_key='-----';
""")
out = con.execute(f"select * from parquet_scan('s3:///.parquet') limit 10;").fetchall()

Я бы хотел использовать функциональность pandas read_sql, если смогу, но поместил этот код, чтобы не усложнять вопрос.
Я в замешательстве, потому что этот код работает:
import pandas as pd
import boto3

s3 = boto3.resource('s3')
client=boto3.client("s3")

df = pd.read_parquet("s3:///.parquet")

Подробнее здесь: https://stackoverflow.com/questions/698 ... db-with-s3

1732461221

Anonymous

Я пытаюсь использовать DuckDB в блокноте Jupyter для доступа и запроса некоторых файлов паркета, хранящихся в s3, но, похоже, не могу заставить его работать. Судя по прошлому опыту, я чувствую, что мне нужно назначить соответствующую файловую систему, но я не уверен, как и где это сделать.
Приведенный ниже код вызывает ошибку: RuntimeError: IO Ошибка: не найдено файлов, соответствующих шаблону «s3:///.parquet»
import boto3
import duckdb

s3 = boto3.resource('s3')
client=boto3.client("s3")
con = duckdb.connect(database=':memory:', read_only=False)

con.execute("""
SET s3_region='-----';
SET s3_access_key_id='-----';
SET s3_secret_access_key='-----';
""")
out = con.execute(f"select * from parquet_scan('s3:///.parquet') limit 10;").fetchall()

Я бы хотел использовать функциональность pandas read_sql, если смогу, но поместил этот код, чтобы не усложнять вопрос.
Я в замешательстве, потому что этот код работает:
import pandas as pd
import boto3

s3 = boto3.resource('s3')
client=boto3.client("s3")

df = pd.read_parquet("s3:///.parquet")
 

Подробнее здесь: [url]https://stackoverflow.com/questions/69801372/using-duckdb-with-s3[/url]