Разделение большого файла CSV и многопоточная загрузка с минимальными затратами

Разделение большого файла CSV и многопоточная загрузка с минимальными затратами ⇐ C#

1 сообщение • Страница 1 из 1

Anonymous

Разделение большого файла CSV и многопоточная загрузка с минимальными затратами

Цитата

Сообщение Anonymous » 29 июл 2024, 12:19

Я пытаюсь разделить большие файлы CSV на файлы меньшего размера и одновременно отправить их в учетную запись хранения Azure.
Я в значительной степени читаю запись большого файла (исходного кода). по записи и записываю его во временный локальный файл.
Когда количество записей достигает определенного предела, я принудительно сбрасываю модуль записи, закрываю его, удаляю, чтобы продолжить чтение. источник и записать в новый.
При переходе к новому файлу я хочу начать отправку сгенерированного временного файла через Интернет.
Цель состоит в том, чтобы я мог читать/анализировать исходный код и загружать пакетные файлы как можно быстрее, занимая при этом минимально возможное место в памяти и на диске.
Мой текущий код выглядит так

Код: Выделить всё

public async Task HandleEventAsync(EntityEventMessage message)
{
var executionGuid = Guid.NewGuid();
var uri = new Uri(message.MessageLocation);
var containerName = uri.Segments[1].TrimEnd('/');
var blobName = string.Join("", uri.Segments[2..]);
var entityName = message.EntityName;
var blobFinalFileName = uri.Segments[^1].TrimEnd('/');

var blobServiceClient = new BlobServiceClient(uri, _tokenCredential);
var blobContainerClient = blobServiceClient.GetBlobContainerClient(containerName);
var sourceBlobClient = blobContainerClient.GetBlobClient(blobName);

var blobExists = await sourceBlobClient.ExistsAsync();
if (!blobExists)
{
_logger.LogWarning("The message of the event does not exist.  It might have been processed already.");
throw new NoRetryException();
}

var fileCounter = 1;
var totalRecords = 0;
SetUpBatchNames(executionGuid, blobFinalFileName, fileCounter, out var batchFileName, out var tempFilePath);
var tasks = new Queue();
var processTimer = new Stopwatch();
var options = new BlobUploadOptions
{
TransferOptions = new StorageTransferOptions
{
// Set the maximum number of workers that
// may be used in a parallel transfer.
MaximumConcurrency = 2
}
};

processTimer.Start();

using var sourceBlobStream = await sourceBlobClient.OpenReadAsync();
var writer = new StreamWriter(tempFilePath, true, Encoding.UTF8);
try
{
using var streamReader = new StreamReader(sourceBlobStream, Encoding.UTF8);
using var csvParser = new CsvParser(streamReader, _csvConfiguration);

var batchTimer = new Stopwatch();
batchTimer.Start();

while (await csvParser.ReadAsync())
{
await writer.WriteLineAsync(csvParser.RawRecord);
totalRecords++;

if (totalRecords % _options.Value.RecordsPerFile == 0)
{
fileCounter = await PrepareBatchAndUpload(blobName, blobFinalFileName, blobContainerClient, options, fileCounter, batchFileName, tempFilePath, tasks, writer, batchTimer);

// Prepare for new batch
SetUpBatchNames(executionGuid, blobFinalFileName, fileCounter, out batchFileName, out tempFilePath);
writer = new StreamWriter(tempFilePath, true, Encoding.UTF8);
batchTimer.Restart();
}
}

if (totalRecords % _options.Value.RecordsPerFile != 0)
await PrepareBatchAndUpload(blobName, blobFinalFileName, blobContainerClient, options, fileCounter, batchFileName, tempFilePath, tasks, writer, batchTimer);

await Task.WhenAll(tasks);

processTimer.Stop();
_logger.LogDebug("Took '{TotalSplitTimeMs}' ms to split the original file with '{OriginalTotalRecords}' records.", processTimer.ElapsedMilliseconds, totalRecords);

}
finally
{
writer?.Dispose();

// Ensure no temp file is left behind
var dir = new DirectoryInfo(Path.GetTempPath());
var fileNamesToDelete = blobFinalFileName.Replace(".csv", $"_{executionGuid}_*.csv");
foreach (var file in dir.EnumerateFiles(fileNamesToDelete))
{
file.Delete();
}
}

GC.Collect();

static void SetUpBatchNames(Guid executionGuid, string blobFinalFileName, int fileCounter, out string batchFileName, out string tempFilePath)
{
batchFileName = blobFinalFileName.Replace(".csv", $"_{executionGuid}_{fileCounter}.csv");
tempFilePath = $"{Path.GetTempPath()}{batchFileName}";
}

async Task PrepareBatchAndUpload(string blobName, string blobFinalFileName, BlobContainerClient blobContainerClient, BlobUploadOptions options, int fileCounter, string? batchFileName, string? tempFilePath, Queue tasks, StreamWriter writer, Stopwatch batchTimer)
{
batchTimer.Stop();
_logger.LogDebug($"Took '{batchTimer.Elapsed}' to parse the batch.");
_logger.LogDebug($"Creating temp file '{tempFilePath}'.");
await writer.FlushAsync();
writer.Close();
await writer.DisposeAsync();

// Ensure batch file is in same (virtual)folder as the source
var batchBlobName = blobName.Replace(blobFinalFileName, batchFileName);
tasks.Enqueue(UploadBatchFileAsync(batchBlobName, tempFilePath, blobContainerClient, options));
fileCounter++;
return fileCounter;
}
}

private async Task UploadBatchFileAsync(string blobName, string filePath, BlobContainerClient containerClient, BlobUploadOptions options)
{
var blobClient = containerClient.GetBlobClient(blobName);

_logger.LogDebug($"Uploading blob: '{blobClient.Uri}'.");

using (var fileStream = File.OpenRead(filePath))
{
await blobClient.UploadAsync(fileStream, options);
}

_logger.LogDebug($"Blob uploaded: '{blobClient.Uri}'.");

//If I do not put Task.Run, delete does not happen after the upload.
await Task.Run(() =>  File.Delete(filePath));
}

Я пробовал несколько вещей, таких как

plain List().Add(UploadBatchFileAsync(...)) + await Task.WhenAll
выполните синхронизацию UploadBatchFile и создайте пул потоков для запуска нескольких (ThreadPool.QueueUserWorkItem)
следуйте https://learn.microsoft. com/en-us/dotnet/api/system.threading.tasks.taskscheduler?view=net-8.0&redirectedfrom=MSDN
Task.Factory.StartNew
Tinkle с BlobUploadOptions.TransferOptions.MaximumConcurrency

В общем, я либо не получу желаемого «параллельного» поведения, либо не увижу производительность CSV это повлияет на чтение/запись.
Мое текущее «решение» оказывает некоторое влияние на чтение/запись, где обычно требуется 45 секунд на каждые 100 тысяч строк, но оно увеличивается до ~ 60 секунд.
Я понимаю, что в какой-то момент, и поскольку я выполняю локальную отладку, мои локальные процессы на компьютере могут оказать некоторое влияние, но я не могу понять, какой способ действительно лучший, и что-то подсказывает мне, что мне следует это сделать. можно добиться более высокой общей производительности или, по крайней мере, загрузить файлы, не влияя на чтение/запись.

Подробнее здесь: https://stackoverflow.com/questions/788 ... -footprint

1722244768

Anonymous

Я пытаюсь разделить большие файлы CSV на файлы меньшего размера и одновременно отправить их в учетную запись хранения Azure.
Я в значительной степени читаю запись большого файла (исходного кода). по записи и записываю его во временный локальный файл.
Когда количество записей достигает определенного предела, я принудительно сбрасываю модуль записи, закрываю его, удаляю, чтобы продолжить чтение. источник и записать в новый.
При переходе к новому файлу я хочу начать отправку сгенерированного временного файла через Интернет.
Цель состоит в том, чтобы я мог читать/анализировать исходный код и загружать пакетные файлы как можно быстрее, занимая при этом минимально возможное место в памяти и на диске.
Мой текущий код выглядит так
[code]public async Task HandleEventAsync(EntityEventMessage message)
{
var executionGuid = Guid.NewGuid();
var uri = new Uri(message.MessageLocation);
var containerName = uri.Segments[1].TrimEnd('/');
var blobName = string.Join("", uri.Segments[2..]);
var entityName = message.EntityName;
var blobFinalFileName = uri.Segments[^1].TrimEnd('/');

var blobServiceClient = new BlobServiceClient(uri, _tokenCredential);
var blobContainerClient = blobServiceClient.GetBlobContainerClient(containerName);
var sourceBlobClient = blobContainerClient.GetBlobClient(blobName);

var blobExists = await sourceBlobClient.ExistsAsync();
if (!blobExists)
{
_logger.LogWarning("The message of the event does not exist.  It might have been processed already.");
throw new NoRetryException();
}

var fileCounter = 1;
var totalRecords = 0;
SetUpBatchNames(executionGuid, blobFinalFileName, fileCounter, out var batchFileName, out var tempFilePath);
var tasks = new Queue();
var processTimer = new Stopwatch();
var options = new BlobUploadOptions
{
TransferOptions = new StorageTransferOptions
{
// Set the maximum number of workers that
// may be used in a parallel transfer.
MaximumConcurrency = 2
}
};

processTimer.Start();

using var sourceBlobStream = await sourceBlobClient.OpenReadAsync();
var writer = new StreamWriter(tempFilePath, true, Encoding.UTF8);
try
{
using var streamReader = new StreamReader(sourceBlobStream, Encoding.UTF8);
using var csvParser = new CsvParser(streamReader, _csvConfiguration);

var batchTimer = new Stopwatch();
batchTimer.Start();

while (await csvParser.ReadAsync())
{
await writer.WriteLineAsync(csvParser.RawRecord);
totalRecords++;

if (totalRecords % _options.Value.RecordsPerFile == 0)
{
fileCounter = await PrepareBatchAndUpload(blobName, blobFinalFileName, blobContainerClient, options, fileCounter, batchFileName, tempFilePath, tasks, writer, batchTimer);

// Prepare for new batch
SetUpBatchNames(executionGuid, blobFinalFileName, fileCounter, out batchFileName, out tempFilePath);
writer = new StreamWriter(tempFilePath, true, Encoding.UTF8);
batchTimer.Restart();
}
}

if (totalRecords % _options.Value.RecordsPerFile != 0)
await PrepareBatchAndUpload(blobName, blobFinalFileName, blobContainerClient, options, fileCounter, batchFileName, tempFilePath, tasks, writer, batchTimer);

await Task.WhenAll(tasks);

processTimer.Stop();
_logger.LogDebug("Took '{TotalSplitTimeMs}' ms to split the original file with '{OriginalTotalRecords}' records.", processTimer.ElapsedMilliseconds, totalRecords);

}
finally
{
writer?.Dispose();

// Ensure no temp file is left behind
var dir = new DirectoryInfo(Path.GetTempPath());
var fileNamesToDelete = blobFinalFileName.Replace(".csv", $"_{executionGuid}_*.csv");
foreach (var file in dir.EnumerateFiles(fileNamesToDelete))
{
file.Delete();
}
}

GC.Collect();

static void SetUpBatchNames(Guid executionGuid, string blobFinalFileName, int fileCounter, out string batchFileName, out string tempFilePath)
{
batchFileName = blobFinalFileName.Replace(".csv", $"_{executionGuid}_{fileCounter}.csv");
tempFilePath = $"{Path.GetTempPath()}{batchFileName}";
}

async Task PrepareBatchAndUpload(string blobName, string blobFinalFileName, BlobContainerClient blobContainerClient, BlobUploadOptions options, int fileCounter, string? batchFileName, string? tempFilePath, Queue tasks, StreamWriter writer, Stopwatch batchTimer)
{
batchTimer.Stop();
_logger.LogDebug($"Took '{batchTimer.Elapsed}' to parse the batch.");
_logger.LogDebug($"Creating temp file '{tempFilePath}'.");
await writer.FlushAsync();
writer.Close();
await writer.DisposeAsync();

// Ensure batch file is in same (virtual)folder as the source
var batchBlobName = blobName.Replace(blobFinalFileName, batchFileName);
tasks.Enqueue(UploadBatchFileAsync(batchBlobName, tempFilePath, blobContainerClient, options));
fileCounter++;
return fileCounter;
}
}

private async Task UploadBatchFileAsync(string blobName, string filePath, BlobContainerClient containerClient, BlobUploadOptions options)
{
var blobClient = containerClient.GetBlobClient(blobName);

_logger.LogDebug($"Uploading blob: '{blobClient.Uri}'.");

using (var fileStream = File.OpenRead(filePath))
{
await blobClient.UploadAsync(fileStream, options);
}

_logger.LogDebug($"Blob uploaded: '{blobClient.Uri}'.");

//If I do not put Task.Run, delete does not happen after the upload.
await Task.Run(() =>  File.Delete(filePath));
}
[/code]
Я пробовал несколько вещей, таких как
[list]
[*]plain List().Add(UploadBatchFileAsync(...)) + await Task.WhenAll
[*]выполните синхронизацию UploadBatchFile и создайте пул потоков для запуска нескольких (ThreadPool.QueueUserWorkItem)
[*]следуйте https://learn.microsoft. com/en-us/dotnet/api/system.threading.tasks.taskscheduler?view=net-8.0&redirectedfrom=MSDN
[*]Task.Factory.StartNew
[*]Tinkle с BlobUploadOptions.TransferOptions.MaximumConcurrency
[/list]
В общем, я либо не получу желаемого «параллельного» поведения, либо не увижу производительность CSV это повлияет на чтение/запись.
Мое текущее «решение» оказывает некоторое влияние на чтение/запись, где обычно требуется 45 секунд на каждые 100 тысяч строк, но оно увеличивается до ~ 60 секунд.
Я понимаю, что в какой-то момент, и поскольку я выполняю локальную отладку, мои локальные процессы на компьютере могут оказать некоторое влияние, но я не могу понять, какой способ действительно лучший, и что-то подсказывает мне, что мне следует это сделать. можно добиться более высокой общей производительности или, по крайней мере, загрузить файлы, не влияя на чтение/запись. 

Подробнее здесь: [url]https://stackoverflow.com/questions/78805965/split-big-csv-file-and-multithread-upload-with-low-footprint[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Почему многопоточная запись большого файла на SSD медленнее при записи со многих ядер, а не на одно и то же ядро?

Последнее сообщение Anonymous « 22 сен 2024, 09:49
Добавлено в форуме C++

Anonymous » 22 сен 2024, 09:49 » в форуме C++

Примечание: вопрос претерпел некоторые правки с учетом многочисленных предложений и выводов комментариев, которые теперь могут показаться устаревшими. Первоначально он был сосредоточен на количестве потоков, в то время как реальная проблема, похоже,...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
22 сен 2024, 09:49
Почему многопоточная запись большого файла на SSD медленнее при записи со многих ядер, а не на одно и то же ядро?

Последнее сообщение Anonymous « 22 сен 2024, 10:21
Добавлено в форуме C++

Anonymous » 22 сен 2024, 10:21 » в форуме C++

Примечание: вопрос претерпел некоторые правки с учетом многочисленных предложений и выводов из комментариев, которые сейчас могут показаться устаревшими. Первоначально он был сосредоточен на количестве потоков, в то время как реальная проблема,...

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
22 сен 2024, 10:21
Получение списка и загрузка файлов в папке в виде большого двоичного объекта с помощью токена SAS уровня большого двоичн

Последнее сообщение Anonymous « 03 окт 2024, 23:21
Добавлено в форуме Python

Anonymous » 03 окт 2024, 23:21 » в форуме Python

Я получил токен SAS, созданный для определенной папки в Azure Datalake Gen2. Цель состоит в том, чтобы загрузить папку со всем ее содержимым.
Я понимаю, что могу создать DataLakeServiceClient, FileSystemClient или DataLakeDirectoryClient следующим...

0 Ответы

28 Просмотры

Последнее сообщение Anonymous
03 окт 2024, 23:21
Поиск строк с минимальными значениями в группе с помощью Criteria API

Последнее сообщение Anonymous « 09 мар 2024, 15:39
Добавлено в форуме JAVA

Anonymous » 09 мар 2024, 15:39 » в форуме JAVA

I am trying to create a filter query using JPA Criteria API that finds all those entities that have a lowest value in their group.
For example given a JPA entity Student mapping a Table similar to:

id
name
grade
class

1
John
1
A

2
Jim
2
A...

0 Ответы

59 Просмотры

Последнее сообщение Anonymous
09 мар 2024, 15:39
Поиск строк с минимальными значениями в группе с помощью Criteria API

Последнее сообщение Гость « 09 мар 2024, 16:39
Добавлено в форуме JAVA

Гость » 09 мар 2024, 16:39 » в форуме JAVA

I am trying to create a filter query using JPA Criteria API that finds all those entities that have a lowest value in their group.
For example given a JPA entity Student mapping a Table similar to:

id
name
grade
class

1
John
1
A

2
Jim
2
A...

0 Ответы

35 Просмотры

Последнее сообщение Гость
09 мар 2024, 16:39

Вернуться в «C#»