Справка по проектированию параллельной обработки больших двоичных объектов Azure и массового копирования в базу данных S

Справка по проектированию параллельной обработки больших двоичных объектов Azure и массового копирования в базу данных S ⇐ C#

1 сообщение • Страница 1 из 1

Anonymous

Справка по проектированию параллельной обработки больших двоичных объектов Azure и массового копирования в базу данных S

Цитата

Сообщение Anonymous » 21 окт 2023, 19:56

Мне нужно получить файлы больших двоичных объектов из хранилища Azure, прочитать их, получить данные, обработать их и сохранить в базе данных. Количество данных, полученных из большого двоичного объекта, велико, т. е. около 40 000 записей на файл. В папке 70 таких файлов.

Вот как я это разработал:
[*]Я использую Parallel.Foreach для списка файлов больших двоичных объектов с максимальным параллелизмом 4. [*]В каждом цикле я извлекаю из потока большой двоичный объект (метод OpenRead), считываю его и заполняю таблицу данных. Если размер таблицы данных равен 10 000, я вызову SqlBulkCopy и вставлю данные в базу данных.
В одной папке blob находится 70 файлов.

Parallel.Foreach { // Потоковый файл больших двоичных объектов // Создаём таблицу данных по каждому элементу в файле { Аддтодататабле если (таблица данных > 5000) { Массовое копирование в БД. Очистить таблицу данных } } // Удалить таблицу данных } Я обнаружил некоторые наблюдения: когда я увеличиваю количество параллельных вычислений, время, необходимое для обработки одного файла, увеличивается. Это потому, что я параллельно открываю несколько потоков больших двоичных объектов? Кроме того, несколько параллельных вычислений приводят к одновременному хранению большего количества данных в памяти.

Мне хотелось бы знать две вещи:
[*]
Я хотел бы попробовать другой дизайн, в котором я могу сохранить одну таблицу данных и заполнить ее из параллельного foreach. Затем, если оно достигнет 10 КБ записей, мне придется сохранить их в БД и очистить. Я не знаю, как это реализовать.
[*]
Если есть лучший подход с точки зрения более быстрой обработки файлов.

1697907376

Anonymous

Вот как я это разработал:
[*]Я использую Parallel.Foreach для списка файлов больших двоичных объектов с максимальным параллелизмом 4. [*]В каждом цикле я извлекаю из потока большой двоичный объект (метод OpenRead), считываю его и заполняю таблицу данных. Если размер таблицы данных равен 10 000, я вызову SqlBulkCopy и вставлю данные в базу данных.
В одной папке blob находится 70 файлов.

Parallel.Foreach { // Потоковый файл больших двоичных объектов // Создаём таблицу данных по каждому элементу в файле { Аддтодататабле если (таблица данных > 5000) { Массовое копирование в БД. Очистить таблицу данных } } // Удалить таблицу данных } Я обнаружил некоторые наблюдения: когда я увеличиваю количество параллельных вычислений, время, необходимое для обработки одного файла, увеличивается. Это потому, что я параллельно открываю несколько потоков больших двоичных объектов? Кроме того, несколько параллельных вычислений приводят к одновременному хранению большего количества данных в памяти.

Мне хотелось бы знать две вещи:
[*]
Я хотел бы попробовать другой дизайн, в котором я могу сохранить одну таблицу данных и заполнить ее из параллельного foreach. Затем, если оно достигнет 10 КБ записей, мне придется сохранить их в БД и очистить. Я не знаю, как это реализовать.
[*]
Если есть лучший подход с точки зрения более быстрой обработки файлов.

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Можете ли вы использовать программу массового копирования для копирования данных VARBINARY в читаемый файл?

Последнее сообщение Anonymous « 23 сен 2024, 17:39
Добавлено в форуме JAVA

Anonymous » 23 сен 2024, 17:39 » в форуме JAVA

У меня есть серверное Java-приложение, в котором я хотел бы, чтобы приложение автоматически извлекало данные VARBINARY из базы данных, а затем использовало эти данные для загрузки файлов на жесткий диск пользователя.
Я могу использовать программу...

0 Ответы

37 Просмотры

Последнее сообщение Anonymous
23 сен 2024, 17:39
Можете ли вы использовать программу массового копирования для копирования данных VARBINARY в читаемый файл?

Последнее сообщение Anonymous « 23 сен 2024, 19:21
Добавлено в форуме JAVA

Anonymous » 23 сен 2024, 19:21 » в форуме JAVA

У меня есть серверное Java-приложение, в котором я хотел бы, чтобы приложение автоматически извлекало данные VARBINARY из базы данных, а затем использовало эти данные для загрузки файлов на жесткий диск пользователя.
Я могу использовать программу...

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
23 сен 2024, 19:21
Алгоритм копирования файлов из хранилища BLOB-объектов Azure в базу данных Azure sql без потерь с помощью Python

Последнее сообщение Anonymous « 24 дек 2024, 19:56
Добавлено в форуме Python

Anonymous » 24 дек 2024, 19:56 » в форуме Python

У меня общий вопрос:
у меня есть файлы в хранилище BLOB-объектов Azure, которое оно создает каждый день. поэтому мне нужно скопировать эти файлы в базу данных Azure sql. Иногда мое хранилище BLOB-объектов Azure или Azure sql терпели неудачу. так как...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
24 дек 2024, 19:56
Как передать URL-адрес пути к файлу больших двоичных объектов Azure в методе ChoParquetReader?

Последнее сообщение Anonymous « 27 ноя 2024, 23:40
Добавлено в форуме C#

Anonymous » 27 ноя 2024, 23:40 » в форуме C#

По ссылке я могу передать файл паркета из своей локальной папки и преобразовать данные в формат json. Ниже приведен пример кода
MemoryStream jsonMs = new MemoryStream();
using (var r = new ChoParquetReader(FILE_NAME))
{
using (var w = new...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
27 ноя 2024, 23:40
Как передать URL-адрес пути к файлу больших двоичных объектов Azure в методе ChoParquetReader?

Последнее сообщение Anonymous « 28 ноя 2024, 17:44
Добавлено в форуме C#

Anonymous » 28 ноя 2024, 17:44 » в форуме C#

По ссылке я могу передать файл паркета из своей локальной папки и преобразовать данные в формат json. Ниже приведен пример кода
MemoryStream jsonMs = new MemoryStream();
using (var r = new ChoParquetReader(FILE_NAME))
{
using (var w = new...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
28 ноя 2024, 17:44

Вернуться в «C#»