Как выполнить массовую вставку данных в базу данных MSSQL в задании оболочки Python AWS Glue? - Цифровое Кемерово

Как выполнить массовую вставку данных в базу данных MSSQL в задании оболочки Python AWS Glue? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как выполнить массовую вставку данных в базу данных MSSQL в задании оболочки Python AWS Glue?

Цитата

Сообщение Anonymous » 03 дек 2024, 11:37

У меня есть большие наборы данных в s3. В своей работе по склеиванию Python я буду извлекать данные из этих файлов в форме фрейма данных pandas, применять необходимые преобразования к фрейму данных, а затем загружать его в базу данных Microsoft SQL с помощью библиотеки PYMSSQL. Окончательный кадр данных содержит в среднем 100–200 тыс. строк и 180 столбцов данных. В настоящее время я использую PYMSSQL для подключения к базе данных. Проблема в том, что выполнение многих классов курсоров требует слишком много времени для загрузки данных. Примерно 20 минут для 100 тысяч строк. Я проверил логи, и загрузка всегда была медленной. скриншот прилагается. Как их загрузить быстрее? Я прилагаю свой код здесь:
file=s3.get_object(Bucket=S3_BUCKET_NAME,Key=each_file)
for chunk in pd.read_csv(file['Body'],sep=",",header=None,low_memory=False,chunksize=100000):
all_data.append(chunk)

data_frame = pd.concat(all_data, axis= 0)
all_data.clear()
cols = data_frame.select_dtypes(object).columns
data_frame[cols] = data_frame[cols].apply(lambda x: x.str.strip())
data_frame.replace(to_replace ='',value =np.nan,inplace=True)
data_frame.fillna(value=np.nan, inplace=True)
data_frame.insert(0,'New-column', 1111)
sql_data_array =data_frame.replace({np.nan:None}).to_numpy()
sql_data_tuple=tuple(map(tuple, sql_data_array))
try:
sql="insert into [db].[schema].[table](column_names)values(%d,%s,%s,%s,%s,%s...)"
db_cursor.executemany(sql,sql_data_tuple)
print("loading completed on {}".format(datetime.datetime.now()))
except Exception as e:
print(e)

Подробнее здесь: https://stackoverflow.com/questions/727 ... -shell-job

Реклама

1733215024

Anonymous

У меня есть большие наборы данных в s3. В своей работе по склеиванию Python я буду извлекать данные из этих файлов в форме фрейма данных pandas, применять необходимые преобразования к фрейму данных, а затем загружать его в базу данных Microsoft SQL с помощью библиотеки PYMSSQL. Окончательный кадр данных содержит в среднем 100–200 тыс. строк и 180 столбцов данных.  В настоящее время я использую PYMSSQL для подключения к базе данных. Проблема в том, что выполнение многих классов курсоров требует слишком много времени для загрузки данных. Примерно 20 минут для 100 тысяч строк. Я проверил логи, и загрузка всегда была медленной. скриншот прилагается. Как их загрузить быстрее? Я прилагаю свой код здесь:
file=s3.get_object(Bucket=S3_BUCKET_NAME,Key=each_file)
for chunk in pd.read_csv(file['Body'],sep=",",header=None,low_memory=False,chunksize=100000):
all_data.append(chunk)

data_frame = pd.concat(all_data, axis= 0)
all_data.clear()
cols = data_frame.select_dtypes(object).columns
data_frame[cols] = data_frame[cols].apply(lambda x: x.str.strip())
data_frame.replace(to_replace ='',value =np.nan,inplace=True)
data_frame.fillna(value=np.nan, inplace=True)
data_frame.insert(0,'New-column', 1111)
sql_data_array =data_frame.replace({np.nan:None}).to_numpy()
sql_data_tuple=tuple(map(tuple, sql_data_array))
try:
sql="insert into [db].[schema].[table](column_names)values(%d,%s,%s,%s,%s,%s...)"
db_cursor.executemany(sql,sql_data_tuple)
print("loading completed on {}".format(datetime.datetime.now()))
except Exception as e:
print(e)
 

Подробнее здесь: [url]https://stackoverflow.com/questions/72784241/how-to-bulk-insert-data-into-mssql-database-in-a-aws-glue-python-shell-job[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как выполнить массовую вставку данных в базу данных MSSQL в задании оболочки Python AWS Glue?

Последнее сообщение Anonymous « 22 окт 2024, 11:13
Добавлено в форуме Python

Anonymous » 22 окт 2024, 11:13 » в форуме Python

У меня есть большие наборы данных в s3. В своей работе по склеиванию Python я буду извлекать данные из этих файлов в форме фрейма данных pandas, применять необходимые преобразования к фрейму данных, а затем загружать его в базу данных Microsoft SQL...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
22 окт 2024, 11:13
Как выполнить массовую вставку через свойство навигации в Entity Framework Core с безопасностью типов?

Последнее сообщение Anonymous « 01 окт 2024, 08:15
Добавлено в форуме C#

Anonymous » 01 окт 2024, 08:15 » в форуме C#

У меня есть следующая структура базы данных, в которой Студент и Курс связаны отношением многие-ко-многим в StudentCourseLinks. Мне нужно выполнить массовую вставку в StudentCourseLinks, где я вставляю новый CourseId для всех записей Student,...

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
01 окт 2024, 08:15
Как выполнить массовую вставку через свойство навигации в Entity Framework Core с безопасностью типов?

Последнее сообщение Anonymous « 01 окт 2024, 10:41
Добавлено в форуме C#

Anonymous » 01 окт 2024, 10:41 » в форуме C#

У меня есть следующая структура базы данных, в которой Студент и Курс связаны отношением многие-ко-многим в StudentCourseLinks. Мне нужно выполнить массовую вставку в StudentCourseLinks, где я вставляю новый CourseId для всех записей Student,...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
01 окт 2024, 10:41
Как выполнить массовую вставку через свойство навигации в Entity Framework Core с безопасностью типов?

Последнее сообщение Anonymous « 01 окт 2024, 16:11
Добавлено в форуме C#

Anonymous » 01 окт 2024, 16:11 » в форуме C#

У меня есть следующая структура базы данных, в которой Студент и Курс связаны отношением многие-ко-многим в StudentCourseLinks. Мне нужно выполнить массовую вставку в StudentCourseLinks, где я вставляю новый CourseId для всех записей Student,...

0 Ответы

19 Просмотры

Последнее сообщение Anonymous
01 окт 2024, 16:11
Как выполнить массовую вставку через свойство навигации в Entity Framework Core с безопасностью типов?

Последнее сообщение Anonymous « 01 окт 2024, 17:32
Добавлено в форуме C#

Anonymous » 01 окт 2024, 17:32 » в форуме C#

У меня есть следующая структура базы данных, в которой Студент и Курс связаны отношением многие-ко-многим в StudentCourseLinks. Мне нужно выполнить массовую вставку в StudentCourseLinks, где я вставляю новый CourseId для всех записей Student,...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
01 окт 2024, 17:32

Вернуться в «Python»

Programmiererforum