Как избежать нехватки оперативной памяти при одновременной обработке данных? - Цифровое Кемерово

Как избежать нехватки оперативной памяти при одновременной обработке данных? ⇐ C#

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как избежать нехватки оперативной памяти при одновременной обработке данных?

Цитата

Сообщение Anonymous » 19 янв 2025, 09:48

У меня возникла проблема с одновременной обработкой данных. На моем компьютере быстро заканчивается оперативная память. Есть какие-нибудь советы о том, как исправить мою параллельную реализацию?

Общий класс:

Код: Выделить всё

public class CalculationResult
{
public int Count { get; set; }
public decimal[] RunningTotals { get; set; }

public CalculationResult(decimal[] profits)
{
this.Count = 1;
this.RunningTotals = new decimal[12];
profits.CopyTo(this.RunningTotals, 0);
}

public void Update(decimal[] newData)
{
this.Count++;

// summ arrays
for (int i = 0; i < 12; i++)
this.RunningTotals[i] = this.RunningTotals[i] + newData[i];
}

public void Update(CalculationResult otherResult)
{
this.Count += otherResult.Count;

// summ arrays
for (int i = 0; i < 12; i++)
this.RunningTotals[i] = this.RunningTotals[i] + otherResult.RunningTotals[i];
}
}

Одноядерная реализация кода следующая:

Код: Выделить всё

Dictionary combinations = new Dictionary();
foreach (var i in itterations)
{
// do the processing
// ..
string combination = "1,2,3,4,42345,52,523"; // this is determined during the processing

if (combinations.ContainsKey(combination))
combinations[combination].Update(newData);
else
combinations.Add(combination, new CalculationResult(newData));
}

Многоядерная реализация:

Код: Выделить всё

ConcurrentBag results = new ConcurrentBag();
Parallel.ForEach(itterations, (i, state) =>
{
Dictionary combinations = new Dictionary();
// do the processing
// ..
// add combination to combinations -> same logic as in single core implementation
results.Add(combinations);
});
Dictionary combinationsReal = new Dictionary();
foreach (var item in results)
{
foreach (var pair in item)
{
if (combinationsReal.ContainsKey(pair.Key))
combinationsReal[pair.Key].Update(pair.Value);
else
combinationsReal.Add(pair.Key, pair.Value);
}
}

Проблема, с которой я столкнулся, заключается в том, что почти каждый словарь комбинаций заканчивается

Код: Выделить всё

930k

записывает[/b] в него, что в среднем потребляет

Код: Выделить всё

400 [MB]

RAM[/b] память.

Теперь в одноядерной реализации существует только один такой словарь. Все проверки выполняются по одному словарю. Но это медленный подход, и я хочу использовать многоядерную оптимизацию.

В многоядерной реализации создается экземпляр ConcurrentBag, который содержит все комбинации< /код> словари. Как только многопоточная работа завершена — все словари объединяются в один. Этот подход хорошо работает для небольшого количества одновременных итераций. Например, за 4 итерации мое использование ОЗУ составило

Код: Выделить всё

~ 1.5 [GB]. Проблема возникает, когда я устанавливаю полное количество параллельных итераций, а именно 200! Никакого объема оперативной памяти ПК

не хватит, чтобы вместить все словари с миллионом записей в каждом!

Я думал об использовании ConcurrentDictioanary, пока не нашел Выяснилось, что метод «TryAdd» не гарантирует целостность добавленных данных в моей ситуации, так как мне также необходимо запускать обновления текущих итогов.

Единственный настоящий многопоточный метод вариант — вместо добавления всех комбинаций в словарь - это сохранить их в какой-нибудь БД. Тогда агрегирование данных будет выполняться с помощью одного оператора SQL select с предложением group by... но мне не нравится идея создания временной таблицы и запуска экземпляра БД только для этого.

Есть ли способ одновременной обработки данных без нехватки оперативной памяти?[/b]

РЕДАКТИРОВАТЬ:
Может быть, настоящий вопрос должно было быть - как сделать обновление RunningTotals потокобезопасным при использовании ConcurrentDictionary? Я только что столкнулся с этой темой с аналогичной проблемой с ConcurrentDictionary, но моя ситуация кажется более сложной, поскольку у меня есть массив, который необходимо обновить. Я все еще изучаю этот вопрос.

EDIT2: Вот рабочее решение с ConcurrentDictionary. Все, что мне нужно было сделать, это добавить блокировку для ключа словаря.

Код: Выделить всё

ConcurrentDictionary combinations = new ConcurrentDictionary();
Parallel.ForEach(itterations, (i, state) =>
{
// do the processing
// ..
string combination = "1,2,3,4,42345,52,523"; // this is determined during the processing

if (combinations.ContainsKey(combination)) {
lock(combinations[combination])
combinations[combination].Update(newData);
}
else
combinations.TryAdd(combination, new CalculationResult(newData));
});

Время выполнения однопоточного кода составляет 1 м 48 с, тогда как время выполнения этого решения составляет 1 м 7 с для 4 итераций (увеличение производительности на 37 %). . Мне все еще интересно, будет ли подход SQL быстрее с миллионами записей? Возможно, завтра я проверю его и обновлю.

Редактировать 3: Для тех из вас, кому интересно, что не так с обновлениями ConcurrentDictionary значение — запустите этот код с блокировкой и без нее.

Код: Выделить всё

public class Result
{
public int Count { get; set; }
}

class Program
{
static void Main(string[] args)
{
Console.WriteLine("Start");

List keys = new List();
for (int i = 0; i < 100; i++)
keys.Add(i);

ConcurrentDictionary dict = new ConcurrentDictionary();
Parallel.For(0, 8, i =>
{
foreach(var key in keys)
{
if (dict.ContainsKey(key))
{
//lock (dict[key]) // uncomment this
dict[key].Count++;
}
else
dict.TryAdd(key, new Result());
}
});

// any output here is incorrect behavior. best result = no lines
foreach (var item in dict)
if (item.Value.Count != 7) { Console.WriteLine($"{item.Key}; {item.Value.Count}"); }

Console.WriteLine($"Finish");
Console.ReadKey();
}
}

Редактировать 4: После проб и ошибок мне не удалось оптимизировать подход SQL. Это оказалась худшая идея

Я использовал базу данных SQL Lite. В памяти и в файле. С транзакциями и повторно используемыми параметрами команд SQL. Из-за огромного количества записей, которые нужно было вставить - производительности не хватает. Агрегация данных - самая простая часть, но только для вставки 4 миллионов строк требуется огромное количество времени, я даже не могу представить, как можно эффективно обработать 240 миллионов данных.. Пока (и тоже странно) , подход ConcurrentBag кажется самым быстрым на моем ПК. Далее следует подход ConcurrentDictionary. Однако ConcurrentBag требует немного больше памяти. Благодаря работе @Alisson — теперь его можно использовать для большего набора итераций!

Подробнее здесь: https://stackoverflow.com/questions/479 ... roccessing

Реклама

1737269324

Anonymous

У меня возникла проблема с одновременной обработкой данных. На моем компьютере быстро заканчивается оперативная память. Есть какие-нибудь советы о том, как исправить мою параллельную реализацию?

Общий класс:

[code]public class CalculationResult
{
public int Count { get; set; }
public decimal[] RunningTotals { get; set; }

public CalculationResult(decimal[] profits)
{
this.Count = 1;
this.RunningTotals = new decimal[12];
profits.CopyTo(this.RunningTotals, 0);
}

public void Update(decimal[] newData)
{
this.Count++;

// summ arrays
for (int i = 0; i < 12; i++)
this.RunningTotals[i] = this.RunningTotals[i] + newData[i];
}

public void Update(CalculationResult otherResult)
{
this.Count += otherResult.Count;

// summ arrays
for (int i = 0; i < 12; i++)
this.RunningTotals[i] = this.RunningTotals[i] + otherResult.RunningTotals[i];
}
}
[/code]

Одноядерная реализация кода следующая:

[code]Dictionary combinations = new Dictionary();
foreach (var i in itterations)
{
// do the processing
// ..
string combination = "1,2,3,4,42345,52,523"; // this is determined during the processing

if (combinations.ContainsKey(combination))
combinations[combination].Update(newData);
else
combinations.Add(combination, new CalculationResult(newData));
}
[/code]

Многоядерная реализация:

[code]ConcurrentBag results = new ConcurrentBag();
Parallel.ForEach(itterations, (i, state) =>
{
Dictionary combinations = new Dictionary();
// do the processing
// ..
// add combination to combinations -> same logic as in single core implementation
results.Add(combinations);
});
Dictionary combinationsReal = new Dictionary();
foreach (var item in results)
{
foreach (var pair in item)
{
if (combinationsReal.ContainsKey(pair.Key))
combinationsReal[pair.Key].Update(pair.Value);
else
combinationsReal.Add(pair.Key, pair.Value);
}
}
[/code]

Проблема, с которой я столкнулся, заключается в том, что почти каждый словарь комбинаций заканчивается [b][code]930k[/code] записывает[/b] в него, что в среднем потребляет [b][code]400 [MB][/code] RAM[/b] память.

Теперь в одноядерной реализации существует только один такой словарь. Все проверки выполняются по одному словарю. Но это медленный подход, и я хочу использовать многоядерную оптимизацию.

В многоядерной реализации создается экземпляр ConcurrentBag, который содержит все комбинации< /код> словари. Как только многопоточная работа завершена — все словари объединяются в один. Этот подход хорошо работает для небольшого количества одновременных итераций. Например, за 4 итерации мое использование [b]ОЗУ[/b] составило [b][code]~ 1.5 [GB]. Проблема возникает, когда я устанавливаю полное количество параллельных итераций, а именно 200! Никакого объема оперативной памяти ПК[/code] не хватит, чтобы вместить все словари с миллионом записей в каждом!

Я думал об использовании ConcurrentDictioanary, пока не нашел Выяснилось, что метод «TryAdd» не гарантирует целостность добавленных данных в моей ситуации, так как мне также необходимо запускать обновления текущих итогов.

Единственный настоящий многопоточный метод вариант — вместо добавления всех комбинаций в словарь - это сохранить их в какой-нибудь БД. Тогда агрегирование данных будет выполняться с помощью одного оператора SQL select с предложением group by... но мне не нравится идея создания временной таблицы и запуска экземпляра БД только для этого. 

Есть ли способ одновременной обработки данных без нехватки оперативной памяти?[/b]

[b]РЕДАКТИРОВАТЬ[/b]:
Может быть, настоящий вопрос должно было быть - как сделать обновление RunningTotals потокобезопасным при использовании ConcurrentDictionary? Я только что столкнулся с этой [b]темой[/b] с аналогичной проблемой с ConcurrentDictionary, но моя ситуация кажется более сложной, поскольку у меня есть массив, который необходимо обновить.  Я все еще изучаю этот вопрос.

[b]EDIT2:[/b] Вот рабочее решение с ConcurrentDictionary. Все, что мне нужно было сделать, это добавить блокировку для ключа словаря.

[code]ConcurrentDictionary combinations = new ConcurrentDictionary();
Parallel.ForEach(itterations, (i, state) =>
{
// do the processing
// ..
string combination = "1,2,3,4,42345,52,523"; // this is determined during the processing

if (combinations.ContainsKey(combination)) {
lock(combinations[combination])
combinations[combination].Update(newData);
}
else
combinations.TryAdd(combination, new CalculationResult(newData));
});
[/code]

Время выполнения однопоточного кода составляет 1 м 48 с, тогда как время выполнения этого решения составляет 1 м 7 с для 4 итераций (увеличение производительности на 37 %). . Мне все еще интересно, будет ли подход SQL быстрее с миллионами записей? Возможно, завтра я проверю его и обновлю.

[b]Редактировать 3:[/b] Для тех из вас, кому интересно, что не так с обновлениями ConcurrentDictionary значение — запустите этот код с блокировкой и без нее.

[code]public class Result
{
public int Count { get; set; }
}

class Program
{
static void Main(string[] args)
{
Console.WriteLine("Start");

List keys = new List();
for (int i = 0; i < 100; i++)
keys.Add(i);

ConcurrentDictionary dict = new ConcurrentDictionary();
Parallel.For(0, 8, i =>
{
foreach(var key in keys)
{
if (dict.ContainsKey(key))
{
//lock (dict[key]) // uncomment this
dict[key].Count++;
}
else
dict.TryAdd(key, new Result());
}
});

// any output here is incorrect behavior. best result = no lines
foreach (var item in dict)
if (item.Value.Count != 7) { Console.WriteLine($"{item.Key}; {item.Value.Count}"); }

Console.WriteLine($"Finish");
Console.ReadKey();
}
}
[/code]

[b]Редактировать 4:[/b] После проб и ошибок мне не удалось оптимизировать подход SQL. Это оказалась худшая идея :) Я использовал базу данных SQL Lite. В памяти и в файле. С транзакциями и повторно используемыми параметрами команд SQL. Из-за огромного количества записей, которые нужно было вставить - производительности не хватает. Агрегация данных - самая простая часть, но только для вставки 4 миллионов строк требуется огромное количество времени, я даже не могу представить, как можно эффективно обработать 240 миллионов данных.. Пока (и тоже странно) , подход ConcurrentBag кажется самым быстрым на моем ПК. Далее следует подход ConcurrentDictionary. Однако ConcurrentBag требует немного больше памяти. Благодаря работе [b]@Alisson[/b] — теперь его можно использовать для большего набора итераций! 

Подробнее здесь: [url]https://stackoverflow.com/questions/47949128/how-to-avoid-running-out-of-ram-during-a-concurrent-data-proccessing[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как избежать нехватки памяти при чтении сложного PDF-файла через iText7?

Последнее сообщение Anonymous « 03 авг 2024, 20:05
Добавлено в форуме JAVA

Anonymous » 03 авг 2024, 20:05 » в форуме JAVA

Я использую iText7 и Java для чтения PDF-файлов, которые не очень велики (10–30 МБ), но содержат огромное количество объектов, что вызывает проблемы OutOfMemoryError при создании и использовании PdfDocument . (Внутренние таблицы внешних ссылок и...

0 Ответы

31 Просмотры

Последнее сообщение Anonymous
03 авг 2024, 20:05
Как избежать «CUDA нехватки памяти» в PyTorch

Последнее сообщение Anonymous « 29 фев 2024, 19:50
Добавлено в форуме Python

Anonymous » 29 фев 2024, 19:50 » в форуме Python

Я думаю, это довольно распространенное сообщение для пользователей PyTorch с нехваткой памяти графического процессора:

RuntimeError: CUDA не хватает памяти. Попытка выделить X MiB (GPU X; общая емкость X GiB; X GiB уже выделено; X MiB свободно; X...

0 Ответы

52 Просмотры

Последнее сообщение Anonymous
29 фев 2024, 19:50
Преобразование SQL Reader в SequentialAccess, чтобы избежать ошибок нехватки памяти

Последнее сообщение Anonymous « 14 май 2024, 19:38
Добавлено в форуме C#

Anonymous » 14 май 2024, 19:38 » в форуме C#

В настоящее время у меня возникают ошибки нехватки памяти в приведенном ниже коде, и я хотел переместить свой Reader в SequentialAccess, чтобы посмотреть, поможет ли это.
Изначально я наткнулся на это через следующий ответ -
public static void...

0 Ответы

34 Просмотры

Последнее сообщение Anonymous
14 май 2024, 19:38
Преобразование SqlDataReader в SequentialAccess, чтобы избежать ошибок нехватки памяти?

Последнее сообщение Anonymous « 14 май 2024, 22:46
Добавлено в форуме C#

Anonymous » 14 май 2024, 22:46 » в форуме C#

Сейчас у меня возникают ошибки нехватки памяти с помощью приведенного здесь кода, и я хочу переместить свой SqlDataReader в SequentialAccess, чтобы посмотреть, поможет ли это.
Первоначально я наткнулся на это через следующий ответ:
public static...

0 Ответы

32 Просмотры

Последнее сообщение Anonymous
14 май 2024, 22:46
Как избежать сбоя gcc из-за нехватки памяти

Последнее сообщение Anonymous « 14 ноя 2024, 05:37
Добавлено в форуме C++

Anonymous » 14 ноя 2024, 05:37 » в форуме C++

У меня постоянно происходит сбой gcc (из-за нехватки памяти) при попытке скомпилировать класс, который использует множество шаблонов функций, определенных в соответствующем файле .h для моего класса. Когда я начинаю компиляцию этого файла cpp, у...

0 Ответы

25 Просмотры

Последнее сообщение Anonymous
14 ноя 2024, 05:37

Вернуться в «C#»

Programmiererforum