Как эффективно обрабатывать миллионы локальных файлов с помощью .NET Framework и асинхронного ввода-вывода? - Цифровое Кемерово

Как эффективно обрабатывать миллионы локальных файлов с помощью .NET Framework и асинхронного ввода-вывода? ⇐ C#

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как эффективно обрабатывать миллионы локальных файлов с помощью .NET Framework и асинхронного ввода-вывода?

Цитата

Сообщение Anonymous » 19 сен 2024, 18:29

Мне нужно обработать один большой репозиторий (репозиторий исходного кода) и создать/обновить (или оставить нетронутыми) около 2 миллионов файлов в другом репозитории (репозиторий метаданных).
Хотя файлов около 2 млн, большинство из них читаются только для того, чтобы убедиться, что их содержимое не нужно изменять. За один запуск процессора на самом деле может быть записано несколько сотен файлов.
Моя текущая реализация НЕ использует асинхронный ввод-вывод, хотя мне бы этого хотелось. Существует сложность, которая не позволяет мне найти хорошее решение.
Действительно, мой код является потребительской частью конвейера производитель/потребитель, где некоторый код создает содержимое файлов метаданных ( обрабатывая исходные файлы, но часть производителя не является предметом этого вопроса), помещает его в блокирующую коллекцию (я называю ее шиной), и мой код потребляет данные из шины одновременно из нескольких потоков .
Но что более важно, он состоит из двух отдельных этапов:

Фаза 1 – Пока выполняется фоновая задача, собирающая имена всех существующих файлов метаданных. На этом этапе:
- Код использует File.Exists для проверки существования файла метаданных (все файлы являются локальными).
- Имена посещенных файлов метаданных записываются в специальную коллекцию с именемprocessedFiles.
Этап 2. После завершения вышеупомянутой фоновой задачи имена всех существующих файлов метаданных собираются в коллекциюexistFiles. На этом этапе:
- Код проверяет, существует ли файл метаданных, выполняя поиск в коллекции suchFiles.
- Имена посещенных файлов метаданных удаляются из коллекции существующих файлов.

Задача заключается в реализации перехода между двумя фазами без потери каких-либо «пакетов» на шине.
Мне удалось относительно легко запрограммировать это с помощью Parallel.ForEach , но теперь я хочу использовать асинхронный ввод-вывод и задаюсь вопросом, какие у меня есть варианты.
У меня есть большое ограничение — я должен использовать .NET Framework. Я сожалею об этом, но это то, что есть.
Я хотел бы показать суть моего кода, главным образом, чтобы показать, как я реализую переход между фазами.

Код: Выделить всё

private class EndWorkItemsParallelState
{
public readonly StringBuilder StringBuilder = new(1000);
public readonly Guid Guid = Guid.NewGuid();
}

private Task GetEndWorkItemsConsumer(BlockingCollection endWorkItems, int concurrency) => Task.Factory.StartNew(() =>
{
ConcurrentDictionary existingFiles = null;
ConcurrentDictionary processedFiles = new(C.IgnoreCase);

ConcurrentDictionary locks = [];
object modeSwitchGuard = new();

Func saveJsonFileIfDirty = (filePath, newContent) => SaveIfDirty1(filePath, newContent, processedFiles);

Parallel.ForEach(endWorkItems.GetConsumingEnumerable(), new ParallelOptions
{
MaxDegreeOfParallelism = concurrency
}, () =>
{
EndWorkItemsParallelState state = new();
if (existingFiles == null)
{
locks[state.Guid] = new ManualResetEventSlim();
}
return state;
}, (endWorkItem, loop, state) =>
{
ProcessEndWorkItem(endWorkItem, saveJsonFileIfDirty);

if (existingFiles == null && m_collectExistingFilesTask.IsCompleted)
{
locks[state.Guid].Set();
lock (modeSwitchGuard)
{
if (existingFiles == null)
{
foreach (var @lock in locks.Values)
{
@lock.Wait();
}

existingFiles = m_collectExistingFilesTask.Result;
foreach (var processedFile in processedFiles.Keys)
{
existingFiles.TryRemove(processedFile, out _);
}
processedFiles = null;

saveJsonFileIfDirty = (filePath, newContent) => SaveIfDirty2(filePath, newContent, existingFiles);
}
}
}

return state;
}, state =>
{
if (locks.TryGetValue(state.Guid, out var @lock))
{
@lock.Set();
}
});

locks.Values.ForEach(o => o.Dispose());

DeleteStaleFiles(existingFiles.Keys);

void ProcessEndWorkItem(EndWorkItem endWorkItem, Func saveJsonFileIfDirty){ ... }
static bool SaveIfDirty1(string filePath, byte[] newContent, ConcurrentDictionary processedFiles){ ... }
static bool SaveIfDirty2(string filePath, byte[] newContent, ConcurrentDictionary existingFiles){ ... }
}, TaskCreationOptions.LongRunning);

Переход реализован здесь:

Код: Выделить всё

if (existingFiles == null && m_collectExistingFilesTask.IsCompleted)
{
locks[state.Guid].Set();
lock (modeSwitchGuard)
{
if (existingFiles == null)
{
foreach (var @lock in locks.Values)
{
@lock.Wait();
}

existingFiles = m_collectExistingFilesTask.Result;
foreach (var processedFile in processedFiles.Keys)
{
existingFiles.TryRemove(processedFile, out _);
}
processedFiles = null;

saveJsonFileIfDirty = (filePath, newContent) => SaveIfDirty2(filePath, newContent, existingFiles);
}
}
}

Когда поток обнаруживает, что фаза 1 должна быть завершена, он пытается войти в критическую секцию (это удается только одному), а затем ждет, пока ВСЕ остальные потоки попадут в критическую секцию и заблокируются. это. Он знает, когда другие потоки достигают его, поскольку каждый поток имеет свой собственный экземпляр ManualResetEventSlim, который они сигнализируют, когда попадают в критическую секцию. Поток, находящийся внутри него, ожидает всех этих сигналов. Как только все установлено, это означает, что все потоки заблокированы в критическом разделе и можно безопасно выполнять переход между фазами.
С момента публикации этого вопроса я нашел решение, но Интересно, можно ли его улучшить.
EDIT 1
Каждый рабочий элемент на шине содержит путь к файлу и новый контент. Обработка проверяет, существует ли файл И действительно ли новый контент отличается (путем чтения существующего файла и сравнения). Если содержимое отличается ИЛИ файл новый - записывается новый контент И создается другой файл в другом репозитории.
В конце мне нужно удалить все устаревшие файлы, т.е. те, которые никогда не посещались. Именно поэтому я собираю все существующие файлы.

Подробнее здесь: https://stackoverflow.com/questions/789 ... k-and-asyn

Реклама

1726759758

Anonymous

Мне нужно обработать один большой репозиторий ([b]репозиторий исходного кода[/b]) и создать/обновить (или оставить нетронутыми) около 2 миллионов файлов в другом репозитории ([b]репозиторий метаданных[/b]). 
Хотя файлов около 2 млн, большинство из них читаются только для того, чтобы убедиться, что их содержимое не нужно изменять. За один запуск процессора на самом деле может быть записано несколько сотен файлов.
Моя текущая реализация НЕ использует асинхронный ввод-вывод, хотя мне бы этого хотелось. Существует сложность, которая не позволяет мне найти хорошее решение.
Действительно, мой код является потребительской частью конвейера производитель/потребитель, где некоторый код создает содержимое файлов метаданных ( обрабатывая исходные файлы, но часть производителя не является предметом этого вопроса), помещает его в блокирующую коллекцию (я называю ее [b]шиной[/b]), и мой код потребляет данные из шины одновременно из нескольких потоков .
Но что более важно, он состоит из двух отдельных этапов:
[list]
[*][b]Фаза 1[/b] – Пока выполняется фоновая задача, собирающая имена всех существующих файлов метаданных. На этом этапе:
[list]
Код использует File.Exists для проверки существования файла метаданных (все файлы являются локальными).
[*]Имена посещенных файлов метаданных записываются в специальную коллекцию с именемprocessedFiles.
[/list]

[*][b]Этап 2[/b]. После завершения вышеупомянутой фоновой задачи имена всех существующих файлов метаданных собираются в коллекциюexistFiles. На этом этапе:
[list]
Код проверяет, существует ли файл метаданных, выполняя поиск в коллекции suchFiles.
[*] Имена посещенных файлов метаданных удаляются из коллекции существующих файлов.
[/list]

[/list]
Задача заключается в реализации перехода между двумя фазами без потери каких-либо «пакетов» на шине.
Мне удалось относительно легко запрограммировать это с помощью Parallel.ForEach , но теперь я хочу использовать асинхронный ввод-вывод и задаюсь вопросом, какие у меня есть варианты.
У меня есть большое ограничение — я должен использовать .NET Framework.  Я сожалею об этом, но это то, что есть.
Я хотел бы показать суть моего кода, главным образом, чтобы показать, как я реализую переход между фазами.[code]private class EndWorkItemsParallelState
{
public readonly StringBuilder StringBuilder = new(1000);
public readonly Guid Guid = Guid.NewGuid();
}

private Task GetEndWorkItemsConsumer(BlockingCollection endWorkItems, int concurrency) => Task.Factory.StartNew(() =>
{
ConcurrentDictionary existingFiles = null;
ConcurrentDictionary processedFiles = new(C.IgnoreCase);

ConcurrentDictionary locks = [];
object modeSwitchGuard = new();

Func saveJsonFileIfDirty = (filePath, newContent) => SaveIfDirty1(filePath, newContent, processedFiles);

Parallel.ForEach(endWorkItems.GetConsumingEnumerable(), new ParallelOptions
{
MaxDegreeOfParallelism = concurrency
}, () =>
{
EndWorkItemsParallelState state = new();
if (existingFiles == null)
{
locks[state.Guid] = new ManualResetEventSlim();
}
return state;
}, (endWorkItem, loop, state) =>
{
ProcessEndWorkItem(endWorkItem, saveJsonFileIfDirty);

if (existingFiles == null && m_collectExistingFilesTask.IsCompleted)
{
locks[state.Guid].Set();
lock (modeSwitchGuard)
{
if (existingFiles == null)
{
foreach (var @lock in locks.Values)
{
@lock.Wait();
}

existingFiles = m_collectExistingFilesTask.Result;
foreach (var processedFile in processedFiles.Keys)
{
existingFiles.TryRemove(processedFile, out _);
}
processedFiles = null;

saveJsonFileIfDirty = (filePath, newContent) => SaveIfDirty2(filePath, newContent, existingFiles);
}
}
}

return state;
}, state =>
{
if (locks.TryGetValue(state.Guid, out var @lock))
{
@lock.Set();
}
});

locks.Values.ForEach(o => o.Dispose());

DeleteStaleFiles(existingFiles.Keys);

void ProcessEndWorkItem(EndWorkItem endWorkItem, Func saveJsonFileIfDirty){ ... }
static bool SaveIfDirty1(string filePath, byte[] newContent, ConcurrentDictionary processedFiles){ ... }
static bool SaveIfDirty2(string filePath, byte[] newContent, ConcurrentDictionary existingFiles){ ... }
}, TaskCreationOptions.LongRunning);
[/code]
Переход реализован здесь:
[code]if (existingFiles == null && m_collectExistingFilesTask.IsCompleted)
{
locks[state.Guid].Set();
lock (modeSwitchGuard)
{
if (existingFiles == null)
{
foreach (var @lock in locks.Values)
{
@lock.Wait();
}

existingFiles = m_collectExistingFilesTask.Result;
foreach (var processedFile in processedFiles.Keys)
{
existingFiles.TryRemove(processedFile, out _);
}
processedFiles = null;

saveJsonFileIfDirty = (filePath, newContent) => SaveIfDirty2(filePath, newContent, existingFiles);
}
}
}
[/code]
Когда поток обнаруживает, что фаза 1 должна быть завершена, он пытается войти в критическую секцию (это удается только одному), а затем ждет, пока ВСЕ остальные потоки попадут в критическую секцию и заблокируются. это. Он знает, когда другие потоки достигают его, поскольку каждый поток имеет свой собственный экземпляр ManualResetEventSlim, который они сигнализируют, когда попадают в критическую секцию. Поток, находящийся внутри него, ожидает всех этих сигналов. Как только все установлено, это означает, что все потоки заблокированы в критическом разделе и можно безопасно выполнять переход между фазами.
С момента публикации этого вопроса я нашел решение, но Интересно, можно ли его улучшить.
[b]EDIT 1[/b]
Каждый рабочий элемент на шине содержит путь к файлу и новый контент.  Обработка проверяет, существует ли файл И действительно ли новый контент отличается (путем чтения существующего файла и сравнения). Если содержимое отличается ИЛИ файл новый - записывается новый контент И создается другой файл в другом репозитории.
В конце мне нужно удалить все устаревшие файлы, т.е. те, которые никогда не посещались. Именно поэтому я собираю все существующие файлы. 

Подробнее здесь: [url]https://stackoverflow.com/questions/78992384/how-to-efficiently-process-millions-of-local-files-using-net-framework-and-asyn[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Sqlite – Как эффективно вставлять или обновлять миллионы строк?

Последнее сообщение Anonymous « 29 фев 2024, 16:55
Добавлено в форуме Python

Anonymous » 29 фев 2024, 16:55 » в форуме Python

У меня есть тысячи текстовых файлов, состоящих из товара и кода поставщика, которые имеют следующий формат:

имя_элемента,код_поставщика Например:

Картофель, 10294 Веревка, 49013 Фасоль,23958 Мыло,12495 Я хочу добавить их в одну таблицу в sqlite...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
29 фев 2024, 16:55
Как эффективно решить миллионы независимых линейных систем 2x2 с дополнительными матрицами

Последнее сообщение Anonymous « 27 май 2025, 13:07
Добавлено в форуме Python

Anonymous » 27 май 2025, 13:07 » в форуме Python

мне нужно решить миллионы до десятков миллионов независимых 2-переменных линейных систем, представленных в форме дополненной матрицы. Вход состоит из коэффициентов векторов A, B, C, A ', B', C '(каждый из которых содержит миллионы до сотен миллионов...

0 Ответы

3 Просмотры

Последнее сообщение Anonymous
27 май 2025, 13:07
Как эффективно решить миллионы независимых линейных систем 2x2 с дополнительными матрицами

Последнее сообщение Anonymous « 27 май 2025, 14:06
Добавлено в форуме Python

Anonymous » 27 май 2025, 14:06 » в форуме Python

мне нужно решить миллионы до десятков миллионов независимых 2-переменных линейных систем, представленных в форме дополненной матрицы. Вход состоит из коэффициентов векторов A, B, C, A ', B', C '(каждый из которых содержит миллионы до сотен миллионов...

0 Ответы

3 Просмотры

Последнее сообщение Anonymous
27 май 2025, 14:06
Как добиться эффективной модели потоков для событий готовности асинхронного ввода-вывода на выбираемых каналах с помощью

Последнее сообщение Anonymous « 21 сен 2024, 09:26
Добавлено в форуме Android

Anonymous » 21 сен 2024, 09:26 » в форуме Android

Ниже мы делимся нашим пониманием Selector и тем, как он работает. Мы поняли, что, хотя некоторые аспекты Selector являются потокобезопасными, реальное действие, когда поток получает готовые события и обрабатывает их, сегодня может быть только в...

0 Ответы

19 Просмотры

Последнее сообщение Anonymous
21 сен 2024, 09:26
Внедрение асинхронного ввода-вывода Flink с помощью клиента Redisson Redis вызвало ошибку «достигнуто максимальное колич

Последнее сообщение Anonymous « 23 окт 2024, 18:31
Добавлено в форуме JAVA

Anonymous » 23 окт 2024, 18:31 » в форуме JAVA

У меня развернуто приложение Flink в AWS Managed Flink, но при попытке реализовать асинхронный ввод-вывод с помощью Redisson (клиент Redis) для подключения к AWS MemoryDB (кластер Redis) я получил ошибку (см. ниже). Мне неясно, как Redisson создает...

0 Ответы

36 Просмотры

Последнее сообщение Anonymous
23 окт 2024, 18:31

Вернуться в «C#»

Programmiererforum