Медленная миграция данных из Snowflake в MySQL в Python с использованием SQlAlchemy

Медленная миграция данных из Snowflake в MySQL в Python с использованием SQlAlchemy ⇐ MySql

1 сообщение • Страница 1 из 1

Anonymous

Медленная миграция данных из Snowflake в MySQL в Python с использованием SQlAlchemy

Цитата

Сообщение Anonymous » 13 янв 2025, 08:44

Итак, у меня есть большой объем данных в Snowflake, копию которых я хотел бы сохранить на имеющемся у меня сервере MySQL. Я создал этот сценарий. Я просто хочу сохранить копию данных в MySQL не для использования в разработке или производстве, а просто сохранить копию.

Код: Выделить всё

from sqlalchemy import create_engine
from sqlalchemy import text
import pandas as pd
import time

snowflake_engine = create_engine(
'snowflake://{user}:{password}@{account}/{database_name}/{schema_name}?warehouse={warehouse_name}'.format(
user='XXXXXX',
password='XXXXXX',
account='XXXX-XXXXX',
warehouse_name='WAREHOUSE',
database_name='XXXXX',
schema_name='XXXXX'
)
)

mysql_engine = create_engine('mysql+mysqlconnector://XXXXX:[email protected]:3306/XXXXXXX')

schema = 'XXXXXXX'
table_name = ''

# Fetch data in chunks and append to MySQL
chunk_size = 2500
try:
snowflake_connection = snowflake_engine.connect()
mysql_connection = mysql_engine.connect()

# Query to fetch table names
query = f"SELECT TABLE_NAME FROM INFORMATION_SCHEMA.TABLES WHERE TABLE_SCHEMA='{schema}'"
print(f"Fetching table names from schema: {schema}...")
tables_df = pd.read_sql(text(query), snowflake_connection)
total_tables = len(tables_df)

# Iterate through each table
for index, row in tables_df.iterrows():
table_name = row['table_name']
print(f"Fetching data from table: {table_name}...")

#fetch entire table data in chunks
offset = 0
while True:
#fetch the chunk of data
table_query = f"SELECT * FROM {table_name} LIMIT {chunk_size} OFFSET {offset}"
df = pd.read_sql(text(table_query), snowflake_connection)

if not df.empty:
# Save the dataframe to MySQL database in chunks
df.to_sql(table_name, con=mysql_engine, if_exists='append', index=False)
print(f"Processed chunk for table {table_name}, offset {offset}")

# Move the offset to fetch the next chunk
offset += chunk_size
else:
break  # Exit the loop when no more rows are returned

print(f"Table {index+1} of {total_tables} has been processed")

finally:
snowflake_connection.close()
snowflake_engine.dispose()
mysql_connection.close()
mysql_engine.dispose()

Это работает. Проблема в том, что передача данных происходит очень медленно. Обработка одной партии занимает 5 минут и более. Перед добавлением пакетных запросов я получал эту ошибку, и сценарий закрывался.

Код: Выделить всё

Killed

Теперь я получаю это после того, как скрипт работал целый день:

Код: Выделить всё

sqlalchemy.exc.ProgrammingError: (snowflake.connector.errors.ProgrammingError) 000629 (57014): Warehouse 'WAREHOUSE' was suspended immediate by resource monitor 'RESOURCEMONITOR', statement aborted.
[SQL: SELECT * FROM XXXXXXXXX LIMIT 2500 OFFSET 1047500]
(Background on this error at: https://sqlalche.me/e/20/f405)

Итак, как мне изменить этот скрипт, чтобы без проблем перенести данные? Пожалуйста, предложите некоторые изменения, которые я могу внести.
Всего существует 115 таблиц, и по крайней мере 40% из них содержат более миллиона строк.

Подробнее здесь: https://stackoverflow.com/questions/793 ... sqlalchemy

1736747048

Anonymous

Итак, у меня есть большой объем данных в Snowflake, копию которых я хотел бы сохранить на имеющемся у меня сервере MySQL. Я создал этот сценарий. Я просто хочу сохранить копию данных в MySQL не для использования в разработке или производстве, а просто сохранить копию.
[code]from sqlalchemy import create_engine
from sqlalchemy import text
import pandas as pd
import time

snowflake_engine = create_engine(
'snowflake://{user}:{password}@{account}/{database_name}/{schema_name}?warehouse={warehouse_name}'.format(
user='XXXXXX',
password='XXXXXX',
account='XXXX-XXXXX',
warehouse_name='WAREHOUSE',
database_name='XXXXX',
schema_name='XXXXX'
)
)

mysql_engine = create_engine('mysql+mysqlconnector://XXXXX:[email protected]:3306/XXXXXXX')

schema = 'XXXXXXX'
table_name = ''

# Fetch data in chunks and append to MySQL
chunk_size = 2500
try:
snowflake_connection = snowflake_engine.connect()
mysql_connection = mysql_engine.connect()

# Query to fetch table names
query = f"SELECT TABLE_NAME FROM INFORMATION_SCHEMA.TABLES WHERE TABLE_SCHEMA='{schema}'"
print(f"Fetching table names from schema: {schema}...")
tables_df = pd.read_sql(text(query), snowflake_connection)
total_tables = len(tables_df)

# Iterate through each table
for index, row in tables_df.iterrows():
table_name = row['table_name']
print(f"Fetching data from table: {table_name}...")

#fetch entire table data in chunks
offset = 0
while True:
#fetch the chunk of data
table_query = f"SELECT * FROM {table_name} LIMIT {chunk_size} OFFSET {offset}"
df = pd.read_sql(text(table_query), snowflake_connection)

if not df.empty:
# Save the dataframe to MySQL database in chunks
df.to_sql(table_name, con=mysql_engine, if_exists='append', index=False)
print(f"Processed chunk for table {table_name}, offset {offset}")

# Move the offset to fetch the next chunk
offset += chunk_size
else:
break  # Exit the loop when no more rows are returned

print(f"Table {index+1} of {total_tables} has been processed")

finally:
snowflake_connection.close()
snowflake_engine.dispose()
mysql_connection.close()
mysql_engine.dispose()
[/code]
Это работает. Проблема в том, что передача данных происходит очень медленно. Обработка одной партии занимает 5 минут и более. Перед добавлением пакетных запросов я получал эту ошибку, и сценарий закрывался.
[code]Killed
[/code]
Теперь я получаю это после того, как скрипт работал целый день:
[code]sqlalchemy.exc.ProgrammingError: (snowflake.connector.errors.ProgrammingError) 000629 (57014): Warehouse 'WAREHOUSE' was suspended immediate by resource monitor 'RESOURCEMONITOR', statement aborted.
[SQL: SELECT * FROM XXXXXXXXX LIMIT 2500 OFFSET 1047500]
(Background on this error at: https://sqlalche.me/e/20/f405)
[/code]
Итак, как мне изменить этот скрипт, чтобы без проблем перенести данные? Пожалуйста, предложите некоторые изменения, которые я могу внести.
Всего существует 115 таблиц, и по крайней мере 40% из них содержат более миллиона строк. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79351257/slow-migrating-data-from-snowflake-to-mysql-in-python-using-sqlalchemy[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Медленная миграция данных из Snowflake в MySQL в Python с использованием SQlAlchemy

Последнее сообщение Anonymous « 13 янв 2025, 08:44
Добавлено в форуме Python

Anonymous » 13 янв 2025, 08:44 » в форуме Python

Итак, у меня есть большой объем данных в Snowflake, копию которых я хотел бы сохранить на имеющемся у меня сервере MySQL. Я создал этот сценарий. Я просто хочу сохранить копию данных в MySQL не для использования в разработке или производстве, а...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
13 янв 2025, 08:44
Соединение Snowflake sqlalchemy со Snowflake выдает ошибку разрешения в Python

Последнее сообщение Anonymous « 31 окт 2024, 14:30
Добавлено в форуме Python

Anonymous » 31 окт 2024, 14:30 » в форуме Python

Я пытаюсь подключиться к Snowflake с помощью библиотеки sqlalchemy с приведенным ниже кодом Python, но получаю сообщение об ошибке:
UserWarning: Bad owner or permissions on \connections.toml
warn(f Bad owner or permissions on...

0 Ответы

32 Просмотры

Последнее сообщение Anonymous
31 окт 2024, 14:30
Вопрос по интеграции Snowflake и Java с использованием каталога Snowflake в Apache Iceberg

Последнее сообщение Anonymous « 27 ноя 2024, 04:55
Добавлено в форуме JAVA

Anonymous » 27 ноя 2024, 04:55 » в форуме JAVA

В Iceberg есть SnowflakeCatalog, который, похоже, облегчает интеграцию со Snowflake. Я хочу использовать это для выполнения следующих задач:
Записать данные с использованием чистой Java с помощью SnowflakeCatalog Iceberg и сделать их доступными в...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
27 ноя 2024, 04:55
Приложение Snowflake Native с контейнерной службой, предоставление импортированных привилегий в базе данных Snowflake DB

Последнее сообщение Anonymous « 11 июл 2024, 18:35
Добавлено в форуме Python

Anonymous » 11 июл 2024, 18:35 » в форуме Python

Как собственное приложение Snowflake, созданное с использованием контейнерных служб, может запросить или предоставить импортированные привилегии в базе данных Snowflake?
Согласно документации Snowflake, предоставление прав можно добавить только с...

0 Ответы

42 Просмотры

Последнее сообщение Anonymous
11 июл 2024, 18:35
Daframe to Snowflake -> ошибка с соединителем библиотеки Snowflake (AttributeError: объект «NoneType» не имеет атрибута

Последнее сообщение Anonymous « 04 янв 2024, 18:32
Добавлено в форуме Python

Anonymous » 04 янв 2024, 18:32 » в форуме Python

Я пытаюсь загрузить фрейм данных в Snowflake, однако при загрузке получаю ошибку атрибута.

Мой фрейм данных:
Тип ЗНАЧЕНИЕ МАТРИКУЛ КАТЕГОРИЯ ЛИНИЯ ДАТА 0 А 100 1 База 3 01.11.2023 1 Б Нэн 1 База 4 01.11.2023 2 C Нэн 1 База 5 01.11.2023 3 Д Нэн 1...

0 Ответы

98 Просмотры

Последнее сообщение Anonymous
04 янв 2024, 18:32

Вернуться в «MySql»