Ужасно медленная загрузка пандас -кадр с 150 столбцами и 5 миллионами строк в SQL Server

Ужасно медленная загрузка пандас -кадр с 150 столбцами и 5 миллионами строк в SQL Server ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Ужасно медленная загрузка пандас -кадр с 150 столбцами и 5 миллионами строк в SQL Server

Цитата

Сообщение Anonymous » 12 фев 2025, 08:39

Я пытаюсь загрузить данные из DataFrame Pandas с 150 столбцами и 5 миллионами строк. На моей платформе Machine или Prod Server без Server для загрузки в таблицу SQL Server требуется от 4 до 5 часов. Если я использую SSI, то файл потребовалось всего от 5 до 8 минут для загрузки. Нет сети или нет трафика ввода -вывода.
Я могу использовать SQL Server Bulk_insert, но это против политики моей компании.
Я использовал ниже методы: 

pandas to_sql 
< /li>
Sql Alchemy insert () 
< /li>
< /ol>
Можете ли вы предложить лучший и быстрый способ загрузки данных. 
Я использую

Driver : ODBC 18 для SQL Server; UID: ; pwd : ; autoCommit = yes ; TurnedServerCertificate = yes

SQL Alchemy Create_Engine = ("mssql+pyodbc: ///? Odbc_connect =%s" params , fast_executemany = true ", onesolation_level =" AutoCommit ")
case 1 : pandas to_sql (это требует от 4 до 5 часов для загрузки)
Вот как я загружаю огромные данные в DataFrame Chunk от chunk

Код: Выделить всё

data_chunk = pd.Data_Frame()
data_chunk = pd.read_csv('file_path, chunksize=50000,sep='I')
for chunk. in data_chunk:
finaldata = finaldata._append(str)
< /code>
[b] Загрузка DataFrame в таблицу SQL Server < /strong>

finaldata.to_sql('Table_Name',conn=engine.connect(),if_exists='append',index=False,chunk_size=50000)

ниже процесс работает finewith chunk_size = 10, но у меня есть миллионы записей. С chunk_size = 15+, он приводит ниже ошибку 

pyodbc.error:(''07002','n - Сервер] [Поле подсчета поля неверна или синтаксическая ошибка (0) (sqlexecdirectw)]

case 3 [/b]: sql oxert () 
Вот как я загружаю огромные данные в chunk -> DataFrame-> Sql Server Таблица с использованием SQL Alchemy insert ()

Код: Выделить всё

data_chunk = pd.Data_Frame()
data_chunk = pd.read_csv('file_path, chunksize=10,sep='I')
for chunk. in data_chunk:
finaldata = finaldata._append(str)

Загрузка DataFrame в таблицу SQL Server
с то же самое для цикла

Код: Выделить всё

Session = sessionmaker(bind=engine)
session = Session()
data_to_insert = finaldata.to_dict(orient='records')
stmt = insert(table).values(data_to_insert)
session.execute(stmt)
session.commit()
session.close()

Как быстрее загружать данные?

Подробнее здесь: https://stackoverflow.com/questions/794 ... -rows-into

1739338756

Anonymous

 Я пытаюсь загрузить данные из DataFrame Pandas с 150 столбцами и 5 миллионами строк. На моей платформе Machine или Prod Server без Server для загрузки в таблицу SQL Server требуется от 4 до 5 часов. Если я использую SSI, то файл потребовалось всего от 5 до 8 минут для загрузки. Нет сети или нет трафика ввода -вывода. 
Я могу использовать SQL Server Bulk_insert, но это против политики моей компании. 
Я использовал ниже методы: < /p>

  pandas to_sql < /p>
< /li>
  Sql Alchemy insert () < /p>
< /li>
< /ol>
Можете ли вы предложить лучший и быстрый способ загрузки данных. < /p>
Я использую

[b] Driver [/b]: ODBC 18 для SQL Server; UID:  [b]; pwd [/b]: ; autoCommit = yes ; TurnedServerCertificate = yes

[b] SQL Alchemy Create_Engine [/b] = ("mssql+pyodbc: ///? Odbc_connect =%s"  params , fast_executemany = true ", onesolation_level =" AutoCommit ")
[b] case 1 [/b]: pandas to_sql (это требует от 4 до 5 часов для загрузки) 
Вот как я загружаю огромные данные в DataFrame Chunk от chunk < /p>
[code]data_chunk = pd.Data_Frame()
data_chunk = pd.read_csv('file_path, chunksize=50000,sep='I')
for chunk. in data_chunk:
finaldata = finaldata._append(str)
< /code>
[b] Загрузка DataFrame в таблицу SQL Server < /strong>

finaldata.to_sql('Table_Name',conn=engine.connect(),if_exists='append',index=False,chunk_size=50000)[/code] 
ниже процесс работает finewith chunk_size = 10, но у меня есть миллионы записей. С chunk_size = 15+, он приводит ниже ошибку < /p>

pyodbc.error:(''07002','n - Сервер] [Поле подсчета поля неверна или синтаксическая ошибка (0) (sqlexecdirectw)] 

 case 3 [/b]: sql oxert () < /p>
Вот как я загружаю огромные данные в chunk -> DataFrame-> Sql Server Таблица с использованием SQL Alchemy insert () < /p>
[code]data_chunk = pd.Data_Frame()
data_chunk = pd.read_csv('file_path, chunksize=10,sep='I')
for chunk. in data_chunk:
finaldata = finaldata._append(str)
[/code]
[b] Загрузка DataFrame в таблицу SQL Server [/b] 
с то же самое для цикла 
[code]Session = sessionmaker(bind=engine)
session = Session()
data_to_insert = finaldata.to_dict(orient='records')
stmt = insert(table).values(data_to_insert)
session.execute(stmt)
session.commit()
session.close()
[/code]
Как быстрее загружать данные?  

Подробнее здесь: [url]https://stackoverflow.com/questions/79431878/terribly-slow-loading-pandas-data-frame-with-150-columns-5-millions-rows-into[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Ужасно медленная загрузка пандас -кадр с 150 столбцами и 5 миллионами строк в SQL Server

Последнее сообщение Anonymous « 12 фев 2025, 06:38
Добавлено в форуме Python

Anonymous » 12 фев 2025, 06:38 » в форуме Python

Я пытаюсь загрузить данные из DataFrame Pandas с 150 столбцами и 5 миллионами строк на данный момент на моей машине или платформе без сервера Prod требует от 4 до 5 часов для загрузки в таблицу SQL Server.
В таблице нет индексов и ее прямой дамп....

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
12 фев 2025, 06:38
Итерация 150 тыс. записей с 5 столбцами через тип объекта в контейнере цикла foreach в SSIS с помощью хранимой процедуры

Последнее сообщение Anonymous « 04 июл 2024, 17:51
Добавлено в форуме C#

Anonymous » 04 июл 2024, 17:51 » в форуме C#

У меня есть вариант использования, когда мне нужно просмотреть все строки таблицы и применить некоторые преобразования (а также обновления) для каждой строки.
Ниже показано, как я это делаю. это сейчас -

Создал переменную типа объекта и извлек в...

0 Ответы

111 Просмотры

Последнее сообщение Anonymous
04 июл 2024, 17:51
Итерация 150 тыс. записей с 5 столбцами через тип объекта в контейнере цикла foreach в SSIS с хранимой процедурой занима

Последнее сообщение Anonymous « 05 июл 2024, 12:39
Добавлено в форуме C#

Anonymous » 05 июл 2024, 12:39 » в форуме C#

У меня есть вариант использования, когда мне нужно просмотреть все строки таблицы и применить некоторые преобразования (а также обновления) к каждой строке.
Ниже показано, как я это делаю. сейчас:

Создал переменную типа объекта и извлек в нее все...

0 Ответы

26 Просмотры

Последнее сообщение Anonymous
05 июл 2024, 12:39
Поиск в текстовом файле с более чем 3 миллионами строк на C#

Последнее сообщение Гость « 29 окт 2023, 09:30
Добавлено в форуме C#

Гость » 29 окт 2023, 09:30 » в форуме C#

У меня есть несколько txt-файлов, каждый из которых содержит более 3 миллионов строк. В каждой строке указаны подключения клиента, а также идентификатор клиента, IP-адрес....

Мне нужно найти конкретный IP-адрес и получить связанный с ним...

0 Ответы

41 Просмотры

Последнее сообщение Гость
29 окт 2023, 09:30
Как эффективно реализовать подкачку и общее количество строк с помощью Dapper в ASP.NET Core 6 для таблицы с миллионами

Последнее сообщение Anonymous « 25 сен 2024, 13:10
Добавлено в форуме C#

Anonymous » 25 сен 2024, 13:10 » в форуме C#

Я использую Dapper в веб-API ASP.NET Core 6, и мне нужно реализовать эффективную разбивку по страницам для таблицы, содержащей миллионы строк . Вот мой текущий SQL-запрос для получения результатов с разбивкой на страницы:
SELECT {fieldsString}
FROM...

0 Ответы

26 Просмотры

Последнее сообщение Anonymous
25 сен 2024, 13:10

Вернуться в «Python»