Как избежать нехватки памяти при чтении сложного PDF-файла через iText7? - Цифровое Кемерово

Как избежать нехватки памяти при чтении сложного PDF-файла через iText7? ⇐ JAVA

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как избежать нехватки памяти при чтении сложного PDF-файла через iText7?

Цитата

Сообщение Anonymous » 03 авг 2024, 20:05

Я использую iText7 и Java для чтения PDF-файлов, которые не очень велики (10–30 МБ), но содержат огромное количество объектов, что вызывает проблемы OutOfMemoryError при создании и использовании PdfDocument . (Внутренние таблицы внешних ссылок и объекты Map/Tree/Pdf[Dict/Array] исчисляются миллионами.)

Например, Размер одного PDF-файла может составлять всего 33 МБ, но он содержит одну таблицу с миллионом строк, охватывающую 800 страниц, а объем бухгалтерского учета внутри PdfDocument увеличивается до 400 МБ. Вот пример кода и дамп кучи:

Код: Выделить всё

public static void main(String[] args) throws Exception {

// PDF file is 33MB on disk (one big table over 800 pages)
File pdf = new File("big.pdf"); // Also tried InputStream

PdfReader reader = new PdfReader(pdf); // 35MB heap

PdfDocument document = new PdfDocument(reader); // 400MB+ heap

// do stuff ... assuming we didn't get an OOM above
}

Мы добавили больше памяти в JVM, но не знаем, насколько большими/сложными могут быть некоторые из этих PDF-файлов, поэтому необходимо долгосрочное решение, в идеале такое, которое позволяет нам читать содержимое по частям или в виде обратного вызова в виде событий (например, XML+STAX/SAX).

Есть ли более эффективный способ потоковой передачи PDF-файла или разбить его на вложенные PDF-документы с учетом файла или входного потока? Мы хотим находить и извлекать такие объекты, как формы, таблицы, всплывающие подсказки и т. д.

Обновление: я связался с командой IText и IText7. не позволяет частичное чтение PDF-файлов. Так что в этом случае я мало что могу сделать, кроме как добавить больше оперативной памяти или предварительно проанализировать PDF-файл mysql и поискать «слишком много данных» (много работы). Я также проверил PDFBox, и у него та же проблема.

Подробнее здесь: https://stackoverflow.com/questions/578 ... via-itext7

Реклама

1722704756

Anonymous

Я использую iText7 и Java для чтения PDF-файлов, которые не очень велики (10–30 МБ), но содержат огромное количество объектов, что вызывает проблемы OutOfMemoryError при создании и использовании PdfDocument . (Внутренние таблицы внешних ссылок и объекты Map/Tree/Pdf[Dict/Array] исчисляются миллионами.)

Например, Размер одного PDF-файла может составлять всего 33 МБ, но он содержит одну таблицу с миллионом строк, охватывающую 800 страниц, а объем бухгалтерского учета внутри PdfDocument увеличивается до 400 МБ. Вот пример кода и дамп кучи:

[code]public static void main(String[] args) throws Exception {

// PDF file is 33MB on disk (one big table over 800 pages)
File pdf = new File("big.pdf"); // Also tried InputStream

PdfReader reader = new PdfReader(pdf); // 35MB heap

PdfDocument document = new PdfDocument(reader); // 400MB+ heap

// do stuff ... assuming we didn't get an OOM above
}
[/code]

[img]https://i.sstatic.net/Q9LKq.jpg[/img]


Мы добавили больше памяти в JVM, но не знаем, насколько большими/сложными могут быть некоторые из этих PDF-файлов, поэтому необходимо долгосрочное решение, в идеале такое, которое позволяет нам читать содержимое по частям или в виде обратного вызова в виде событий (например, XML+STAX/SAX).

Есть ли более эффективный способ потоковой передачи PDF-файла или разбить его на вложенные PDF-документы с учетом файла или входного потока? Мы хотим находить и извлекать такие объекты, как формы, таблицы, всплывающие подсказки и т. д.

[b]Обновление:[/b] я связался с командой IText и IText7. не позволяет частичное чтение PDF-файлов. Так что в этом случае я мало что могу сделать, кроме как добавить больше оперативной памяти или предварительно проанализировать PDF-файл mysql и поискать «слишком много данных» (много работы). Я также проверил PDFBox, и у него та же проблема. 

Подробнее здесь: [url]https://stackoverflow.com/questions/57828508/how-to-avoid-running-out-of-memory-reading-a-complex-pdf-via-itext7[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как избежать нехватки оперативной памяти при одновременной обработке данных?

Последнее сообщение Anonymous « 19 янв 2025, 09:48
Добавлено в форуме C#

Anonymous » 19 янв 2025, 09:48 » в форуме C#

У меня возникла проблема с одновременной обработкой данных. На моем компьютере быстро заканчивается оперативная память. Есть какие-нибудь советы о том, как исправить мою параллельную реализацию?

Общий класс:

public class CalculationResult
{...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
19 янв 2025, 09:48
Как избежать «CUDA нехватки памяти» в PyTorch

Последнее сообщение Anonymous « 29 фев 2024, 19:50
Добавлено в форуме Python

Anonymous » 29 фев 2024, 19:50 » в форуме Python

Я думаю, это довольно распространенное сообщение для пользователей PyTorch с нехваткой памяти графического процессора:

RuntimeError: CUDA не хватает памяти. Попытка выделить X MiB (GPU X; общая емкость X GiB; X GiB уже выделено; X MiB свободно; X...

0 Ответы

54 Просмотры

Последнее сообщение Anonymous
29 фев 2024, 19:50
Преобразование SQL Reader в SequentialAccess, чтобы избежать ошибок нехватки памяти

Последнее сообщение Anonymous « 14 май 2024, 19:38
Добавлено в форуме C#

Anonymous » 14 май 2024, 19:38 » в форуме C#

В настоящее время у меня возникают ошибки нехватки памяти в приведенном ниже коде, и я хотел переместить свой Reader в SequentialAccess, чтобы посмотреть, поможет ли это.
Изначально я наткнулся на это через следующий ответ -
public static void...

0 Ответы

35 Просмотры

Последнее сообщение Anonymous
14 май 2024, 19:38
Преобразование SqlDataReader в SequentialAccess, чтобы избежать ошибок нехватки памяти?

Последнее сообщение Anonymous « 14 май 2024, 22:46
Добавлено в форуме C#

Anonymous » 14 май 2024, 22:46 » в форуме C#

Сейчас у меня возникают ошибки нехватки памяти с помощью приведенного здесь кода, и я хочу переместить свой SqlDataReader в SequentialAccess, чтобы посмотреть, поможет ли это.
Первоначально я наткнулся на это через следующий ответ:
public static...

0 Ответы

34 Просмотры

Последнее сообщение Anonymous
14 май 2024, 22:46
Как избежать сбоя gcc из-за нехватки памяти

Последнее сообщение Anonymous « 14 ноя 2024, 05:37
Добавлено в форуме C++

Anonymous » 14 ноя 2024, 05:37 » в форуме C++

У меня постоянно происходит сбой gcc (из-за нехватки памяти) при попытке скомпилировать класс, который использует множество шаблонов функций, определенных в соответствующем файле .h для моего класса. Когда я начинаю компиляцию этого файла cpp, у...

0 Ответы

25 Просмотры

Последнее сообщение Anonymous
14 ноя 2024, 05:37

Вернуться в «JAVA»

Programmiererforum