Проблемы с загрузкой большого объема данных из базы данных SQL Server.

Проблемы с загрузкой большого объема данных из базы данных SQL Server. ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Проблемы с загрузкой большого объема данных из базы данных SQL Server.

Цитата

Сообщение Anonymous » 22 янв 2025, 00:03

Моя текущая проблема заключается в загрузке большого объема данных из таблицы, содержащей около 5 000 000 строк, из базы данных SQL Server.
Настройка (на которую я не могу повлиять) такая: :

0 графических процессоров
4000 процессоров
15,0 Гигабайт памяти

Мой код SQL сохранен как файл .sql в папке проекта.
Я начал с фрагментов по 500 000 строк, но это привело к сбою ядра. Пробовал 250.000, результат тот же. Сейчас на 100 000, но все равно происходит сбой.
В соответствии с правилами компании мне нужно выполнить первоначальное подключение к базе данных, как показано ниже, и оно работает:

Код: Выделить всё

# Connection to SQL Server with Kerberos + pyodbc

def mssql_conn_kerberos(server, driver, trusted_connection, trust_server_certificate, kerberos_cmd):
# Run Kerberos for authentifications
os.system(kerberos_cmd)

try:
# First connection attempt
c_conn = pyodbc.connect(
f'DRIVER={driver};'
f'SERVER={server};'
f'Trusted_Connection={trusted_connection};'
f'TrustServerCertificate={trust_server_certificate}'
)
except:
# Re-run Kerberos and try authentification
os.system(kerberos_cmd)
c_conn = pyodbc.connect(
f"DRIVER={driver};"
f"SERVER={server};"
f"Trusted_Connection={trusted_connection};"
f"TrustServerCertificate={trust_server_certificate}"
)

c_cursor = c_conn.cursor()

print("Pyodbc connection ready.")

return c_conn # Connection to the database

Затем у меня есть функция для чтения и обработки моего SQL-запроса (который находится в файле .sql, сохраненном в папке проекта):

Код: Выделить всё

def call_my_query(path_to_query, query_name, chunk, connection):

file_path = os.path.join(path_to_query, query_name)
with open(file_path, "r") as file:
query = file.read()

# SQL processing in chunks + time
chunks = []
start_time = time.time()

for x in pd.read_sql_query(query, connection, chunksize=chunk):
chunks.append(x)

# Concating the chunks - joining all the chunks together
df = pd.concat(chunks, ignore_index=True)

# Process end-time
end_time = time.time()

print("Data loaded successfully!")
print(f'Processed {len(df)} rows in {end_time - start_time:.2f} seconds')

return df

Что приводит к сбою ядра:

Ядро аварийно завершилось при выполнении кода в текущей или предыдущей ячейке.

Проверьте код в ячейках, чтобы определить возможную причину сбоя.

Нажмите здесь, чтобы получить дополнительную информацию.

Просмотреть Более подробную информацию можно найти в журнале Jupyter.

Я также пытался запустить эту задачу через Dask, изменив функцию call_my_query, но по какой-то причине Dask вызывает проблемы с pyodbc.
Изменение call_my_query для Dask:

Код: Выделить всё

def call_my_query_dask(query_name, chunk, connection, index_col):

# Load query from file
file_path = os.path.join(path_to_query, query_name)
with open(file_path, "r") as file:
query_original = file.read()

# Convert the SQL string/text
query = sqlalchemy.select(query_original)

# Start timing the process
start_time = time.time()

# Use Dask to read the SQL query in chunks
print("Executing query and loading data with Dask...")
df_dask = dd.read_sql_query(
sql=query,
con=connection_url,
npartitions=10,
index_col = index_col
)

# Process end-time
end_time = time.time()
print("Data loaded successfully!")
print(f"Processed approximately {df_dask.shape[0].compute()} rows in {end_time - start_time:.2f} seconds")

return df_dask

Что вызывает эту ошибку:

Выражение текстового столбца 'SELECT\n\t[COL1]\n\ t, [COL...' должен быть явно объявлен с текстом('SELECT\n\t[COL1]\n\t, [COL...') или использовать literal_column('SELECT\n\t[COL1] \н\т, [COL...') для большей конкретики.

Спасибо всем за помощь.

Подробнее здесь: https://stackoverflow.com/questions/793 ... r-database

1737493410

Anonymous

Моя текущая проблема заключается в загрузке большого объема данных из таблицы, содержащей около 5 000 000 строк, из базы данных SQL Server.
Настройка (на которую я не могу повлиять) такая: :
[list]
[*]0 графических процессоров
[*]4000 процессоров
15,0 Гигабайт памяти
[/list]
Мой код SQL сохранен как файл .sql в папке проекта.
Я начал с фрагментов по 500 000 строк, но это привело к сбою ядра. Пробовал 250.000, результат тот же. Сейчас на 100 000, но все равно происходит сбой.
В соответствии с правилами компании мне нужно выполнить первоначальное подключение к базе данных, как показано ниже, и оно работает:
[code]# Connection to SQL Server with Kerberos + pyodbc

def mssql_conn_kerberos(server, driver, trusted_connection, trust_server_certificate, kerberos_cmd):
# Run Kerberos for authentifications
os.system(kerberos_cmd)

try:
# First connection attempt
c_conn = pyodbc.connect(
f'DRIVER={driver};'
f'SERVER={server};'
f'Trusted_Connection={trusted_connection};'
f'TrustServerCertificate={trust_server_certificate}'
)
except:
# Re-run Kerberos and try authentification
os.system(kerberos_cmd)
c_conn = pyodbc.connect(
f"DRIVER={driver};"
f"SERVER={server};"
f"Trusted_Connection={trusted_connection};"
f"TrustServerCertificate={trust_server_certificate}"
)

c_cursor = c_conn.cursor()

print("Pyodbc connection ready.")

return c_conn # Connection to the database
[/code]
Затем у меня есть функция для чтения и обработки моего SQL-запроса (который находится в файле .sql, сохраненном в папке проекта):
[code]def call_my_query(path_to_query, query_name, chunk, connection):

file_path = os.path.join(path_to_query, query_name)
with open(file_path, "r") as file:
query = file.read()

# SQL processing in chunks + time
chunks = []
start_time = time.time()

for x in pd.read_sql_query(query, connection, chunksize=chunk):
chunks.append(x)

# Concating the chunks - joining all the chunks together
df = pd.concat(chunks, ignore_index=True)

# Process end-time
end_time = time.time()

print("Data loaded successfully!")
print(f'Processed {len(df)} rows in {end_time - start_time:.2f} seconds')

return df
[/code]
Что приводит к сбою ядра:

Ядро аварийно завершилось при выполнении кода в текущей или предыдущей ячейке.

Проверьте код в ячейках, чтобы определить возможную причину сбоя.

Нажмите здесь, чтобы получить дополнительную информацию.

Просмотреть Более подробную информацию можно найти в журнале Jupyter.

Я также пытался запустить эту задачу через Dask, изменив функцию call_my_query, но по какой-то причине Dask вызывает проблемы с pyodbc.
Изменение call_my_query для Dask:
[code]def call_my_query_dask(query_name, chunk, connection, index_col):

# Load query from file
file_path = os.path.join(path_to_query, query_name)
with open(file_path, "r") as file:
query_original = file.read()

# Convert the SQL string/text
query = sqlalchemy.select(query_original)

# Start timing the process
start_time = time.time()

# Use Dask to read the SQL query in chunks
print("Executing query and loading data with Dask...")
df_dask = dd.read_sql_query(
sql=query,
con=connection_url,
npartitions=10,
index_col = index_col
)

# Process end-time
end_time = time.time()
print("Data loaded successfully!")
print(f"Processed approximately {df_dask.shape[0].compute()} rows in {end_time - start_time:.2f} seconds")

return df_dask
[/code]
Что вызывает эту ошибку:

Выражение текстового столбца 'SELECT\n\t[COL1]\n\ t, [COL...' должен быть явно объявлен с текстом('SELECT\n\t[COL1]\n\t, [COL...') или использовать literal_column('SELECT\n\t[COL1] \н\т, [COL...') для большей конкретики.

Спасибо всем за помощь. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79348687/problems-to-load-large-amount-of-data-from-sql-server-database[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Поиск лучшего способа передачи большого объема данных за короткое время между nodejs и C#.

Последнее сообщение Гость « 20 сен 2023, 23:28
Добавлено в форуме C#

Гость » 20 сен 2023, 23:28 » в форуме C#

Я пытаюсь найти лучший способ передачи большого объема данных за короткое время между nodejs и C#.

В моем случае nodejs должен быть сервером, а C# — клиентом. В nodejs я обрабатываю данные асинхронно, отправляя некоторые запросы с использованием...

0 Ответы

53 Просмотры

Последнее сообщение Гость
20 сен 2023, 23:28
Python: периодическая запись при чтении большого объема данных

Последнее сообщение Anonymous « 05 авг 2024, 22:35
Добавлено в форуме Python

Anonymous » 05 авг 2024, 22:35 » в форуме Python

У меня большое количество файлов изображений (около 220 000), хранящихся на быстром локальном SSD. Используя Python и библиотеку tifffile, я считываю изображения в виде массивов numpy, которые затем объединяются в один массив и сохраняются на диск....

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
05 авг 2024, 22:35
Как оптимизировать память при запросе и сохранении большого объема данных в S3

Последнее сообщение Anonymous « 20 ноя 2024, 07:54
Добавлено в форуме Python

Anonymous » 20 ноя 2024, 07:54 » в форуме Python

Я пытаюсь отправить запрос Athena с помощью boto3, получить значение из фрейма данных, а затем сохранить фрейм данных в S3.
from io import StringIO
import boto3
import awswrangler as wr

region =
access_key =
secret_key =
database =

s3 =...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
20 ноя 2024, 07:54
Python и Pandas для записи большого объема данных

Последнее сообщение Anonymous « 27 ноя 2024, 08:54
Добавлено в форуме Python

Anonymous » 27 ноя 2024, 08:54 » в форуме Python

Сценарий генерирует 50 000 кадров данных приведенной ниже структуры и сохраняет их один на один на локальном диске. Чтобы повысить эффективность, я изменил формат записи с Excel на Parquet. Однако, похоже, он не работает быстрее.
Затем необходимо...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
27 ноя 2024, 08:54
Python и Pandas для записи большого объема данных

Последнее сообщение Anonymous « 27 ноя 2024, 21:09
Добавлено в форуме Python

Anonymous » 27 ноя 2024, 21:09 » в форуме Python

Сценарий генерирует 50 000 кадров данных приведенной ниже структуры и сохраняет их один на один на локальном диске. Чтобы повысить эффективность, я изменил формат записи с Excel на Parquet. Однако, похоже, он не работает быстрее.
Затем необходимо...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
27 ноя 2024, 21:09

Вернуться в «Python»