Обработка огромного XML-файла в Python с использованием LXML

Обработка огромного XML-файла в Python с использованием LXML ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Обработка огромного XML-файла в Python с использованием LXML

Цитата

Сообщение Anonymous » 30 июл 2024, 14:54

Мне нужно обработать большой XML-файл (10 ГБ) с помощью Python. Из-за ограничений памяти я не могу загрузить все сразу, поэтому я узнал о библиотеке LXML и ее возможностях быстрого анализа.
На данный момент это моя установка:

Код: Выделить всё

    context = etree.iterparse(input_file, events=("end",), tag="Product", huge_tree=True)

for event, elem in context:
self.extract_data(elem)

# Clear the element to free memory
elem.clear()
while elem.getprevious() is not None:
del elem.getparent()[0]

extract_data на данный момент является пустой функцией. При такой настройке при обработке XML-файла и элементов с тегом Product проблем с памятью не возникает. Проблема появляется после окончания элементов Product. В XML последняя строка огромна. Я даже не могу его прочитать, потому что Notepad++ не загружает последнюю строку. Он содержит кучу элементов «Service» в одной строке, и я думаю, что когда iterparse пытается проверить, есть ли тег Person, происходит что-то странное, и моя память увеличивается до 12 ГБ, пока скрипт не завершится.
Мой вопрос: как я могу решить эту проблему с памятью, не завершая преждевременно итератор, потому что в будущем мне тоже понадобятся служебные элементы.

Подробнее здесь: https://stackoverflow.com/questions/788 ... using-lxml

1722340443

Anonymous

Мне нужно обработать большой XML-файл (10 ГБ) с помощью Python. Из-за ограничений памяти я не могу загрузить все сразу, поэтому я узнал о библиотеке LXML и ее возможностях быстрого анализа.
На данный момент это моя установка:
[code]    context = etree.iterparse(input_file, events=("end",), tag="Product", huge_tree=True)

for event, elem in context:
self.extract_data(elem)

# Clear the element to free memory
elem.clear()
while elem.getprevious() is not None:
del elem.getparent()[0]
[/code]
extract_data на данный момент является пустой функцией. При такой настройке при обработке XML-файла и элементов с тегом Product проблем с памятью не возникает. Проблема появляется после окончания элементов Product. В XML последняя строка огромна. Я даже не могу его прочитать, потому что Notepad++ не загружает последнюю строку. Он содержит кучу элементов «Service» в одной строке, и я думаю, что когда iterparse пытается проверить, есть ли тег Person, происходит что-то странное, и моя память увеличивается до 12 ГБ, пока скрипт не завершится.
Мой вопрос: как я могу решить эту проблему с памятью, не завершая преждевременно итератор, потому что в будущем мне тоже понадобятся служебные элементы. 

Подробнее здесь: [url]https://stackoverflow.com/questions/78811137/processing-huge-xml-file-in-python-using-lxml[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Обработка огромного XML-файла в Python с использованием LXML

Последнее сообщение Anonymous « 30 июл 2024, 16:17
Добавлено в форуме Python

Anonymous » 30 июл 2024, 16:17 » в форуме Python

Мне нужно обработать большой XML-файл (10 ГБ) с помощью Python. Из-за ограничений памяти я не могу загрузить все сразу, поэтому я узнал о библиотеке LXML и ее возможностях быстрого анализа.
На данный момент это моя установка:
context =...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
30 июл 2024, 16:17
Pandas groupby преобразует среднее значение с датой перед текущей строкой для огромного огромного кадра данных

Последнее сообщение Anonymous « 26 сен 2024, 17:02
Добавлено в форуме Python

Anonymous » 26 сен 2024, 17:02 » в форуме Python

У меня есть фрейм данных Pandas, который выглядит так:
df = pd.DataFrame([ ,
,
,
,
,
,
,
,
],
columns= )

И я хочу создать новую строку под названием «Предыдущеесреднее». В этом столбце указано среднее значение DPD для этого клиента с...

0 Ответы

23 Просмотры

Последнее сообщение Anonymous
26 сен 2024, 17:02
Pandas groupby преобразует среднее значение с датой перед текущей строкой для огромного огромного кадра данных

Последнее сообщение Anonymous « 26 сен 2024, 22:08
Добавлено в форуме Python

Anonymous » 26 сен 2024, 22:08 » в форуме Python

У меня есть фрейм данных Pandas, который выглядит так:
df = pd.DataFrame([ ,
,
,
,
,
,
,
,
],
columns= )

И я хочу создать новую строку под названием «Предыдущеесреднее». В этом столбце указано среднее значение DPD для этого клиента с...

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
26 сен 2024, 22:08
Pandas groupby преобразует среднее значение с датой перед текущей строкой для огромного огромного кадра данных

Последнее сообщение Anonymous « 24 окт 2024, 22:00
Добавлено в форуме Python

Anonymous » 24 окт 2024, 22:00 » в форуме Python

У меня есть фрейм данных Pandas, который выглядит так:
df = pd.DataFrame([ ,
,
,
,
,
,
,
,
],
columns= )

И я хочу создать новую строку под названием «Предыдущеесреднее». В этом столбце указано среднее значение DPD для этого клиента с...

0 Ответы

25 Просмотры

Последнее сообщение Anonymous
24 окт 2024, 22:00
Python lxml.html.parse не читает URL-адрес – или как получить request.get в lxml.html.dom?

Последнее сообщение Anonymous « 09 май 2024, 19:44
Добавлено в форуме Python

Anonymous » 09 май 2024, 19:44 » в форуме Python

Приведенный ниже код работает для многих веб-страниц, но для некоторых, подобных приведенному ниже, он выдает ошибку:

Ошибка: ошибка чтения файла
/>'
не удалось загрузить HTTP-ресурс

Python для воспроизведения:
from lxml.html import parse
import...

0 Ответы

97 Просмотры

Последнее сообщение Anonymous
09 май 2024, 19:44

Вернуться в «Python»