Самый быстрый способ прочитать 10 миллионов строк БД в Python? - Цифровое Кемерово

Самый быстрый способ прочитать 10 миллионов строк БД в Python? ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Самый быстрый способ прочитать 10 миллионов строк БД в Python?

Цитата

Сообщение Anonymous » 27 ноя 2025, 18:02

Я пытаюсь эффективно прочитать около 10 миллионов строк (один столбец) из таблицы базы данных в Python, и я не уверен, разумен ли мой текущий подход или мне не хватает некоторых оптимизаций.
Подход 1: курсор + fetchmany
В среднем чтение 10 миллионов строк занимает около 1,2 минуты.

Код: Выделить всё

sql = f"SELECT {col_id} FROM {table_id}"
raw_conn = engine.raw_connection()
try:
cursor = raw_conn.cursor()
cursor.execute(sql)

total_rows = 0
while True:
rows = cursor.fetchmany(chunk_size)
if not rows:
break

# Direct string conversion - fastest approach
values.extend(str(row[0]) for row in rows)

Подход 2: pandas read_sql с фрагментами

В среднем чтение 10 миллионов строк занимает около 2 минут.

Код: Выделить всё

sql = f"SELECT {col_id} FROM {table_id} WHERE {col_id} IS NOT NULL"

values: List[str] = []
for chunk in pd.read_sql(sql, engine, chunksize=CHUNK_SIZE):
# .astype(str) keeps nulls out (already filtered in SQL)
values.extend(chunk.iloc[:, 0].astype(str).tolist())

Каков наиболее эффективный способ прочитать такое количество строк из таблицы в Python?

Является ли такое время (~1,2–2 минуты для 10 миллионов строк) разумным или его можно значительно улучшить с помощью другого шаблона (например, настроек драйвера, стратегии пакетной обработки, многопроцессорной обработки или другой библиотеки)?

Подробнее здесь: https://stackoverflow.com/questions/798 ... -in-python

1764255774

Anonymous

Я пытаюсь эффективно прочитать около 10 миллионов строк (один столбец) из таблицы базы данных в Python, и я не уверен, разумен ли мой текущий подход или мне не хватает некоторых оптимизаций.
Подход 1: курсор + fetchmany
В среднем чтение 10 миллионов строк занимает около 1,2 минуты.
[code]sql = f"SELECT {col_id} FROM {table_id}"
raw_conn = engine.raw_connection()
try:
cursor = raw_conn.cursor()
cursor.execute(sql)

total_rows = 0
while True:
rows = cursor.fetchmany(chunk_size)
if not rows:
break

# Direct string conversion - fastest approach
values.extend(str(row[0]) for row in rows)
[/code]
Подход 2: pandas read_sql с фрагментами

В среднем чтение 10 миллионов строк занимает около 2 минут.
[code]sql = f"SELECT {col_id} FROM {table_id} WHERE {col_id} IS NOT NULL"

values: List[str] = []
for chunk in pd.read_sql(sql, engine, chunksize=CHUNK_SIZE):
# .astype(str) keeps nulls out (already filtered in SQL)
values.extend(chunk.iloc[:, 0].astype(str).tolist())
[/code]
Каков наиболее эффективный способ прочитать такое количество строк из таблицы в Python?

Является ли такое время (~1,2–2 минуты для 10 миллионов строк) разумным или его можно значительно улучшить с помощью другого шаблона (например, настроек драйвера, стратегии пакетной обработки, многопроцессорной обработки или другой библиотеки)?
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79831405/fastest-way-to-read-10m-db-rows-in-python[/url]

Ответить

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Вернуться в «Python»