Как лучше всего разобрать линию файла XML в Python, без использования SAX? (`iterParse` ведет себя неожиданно) [Закрыто]

Как лучше всего разобрать линию файла XML в Python, без использования SAX? (`iterParse` ведет себя неожиданно) [Закрыто] ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Как лучше всего разобрать линию файла XML в Python, без использования SAX? (`iterParse` ведет себя неожиданно) [Закрыто]

Цитата

Сообщение Anonymous » 21 фев 2025, 09:13

Вопрос: Как лучше всего разобрать файл XML в линии Python? Для использования итеративными анализаторами, тогда какой размер оптимального чанка? В частности, где выбранные размеры чанков документированы для популярных библиотек LXML и встроенного Python xml.etree.elementtree ?
У меня, кажется, есть Обходной путь для изменения размера чанка по умолчанию (например, на отдельные линии в качестве доказательства концепции), в то же время используя одни и те же итеративные анализаторы и не разрабатывая новый, но я хочу знать, есть ли Лучшее, широко известное решение, чем мой несколько взломанного обходного пути. Код с паттерной пластинкой.
Как iterparse (оба из lxml.etree и xml.etree.elementtre ) Обсуждается, это часто звучит так, как будто он анализирует XML-файлы «итеративно», как в строке по строке. , оба анализатора ищут и анализируют вывод метода .Read этого файлового объекта. (В отличие от вывода .Readline , как я ожидал.) Если этот файл-подобный объект является файловым указателем для файла 8 ГБ, и он работает на узле кластера с памятью 2 ГБ, это, конечно вызвать ошибку OOM. < /p>
Этот вывод основан на этом ответе на связанный вопрос, а также на мое собственное тестирование. Вот MWE: < /p>

Код: Выделить всё

import io
from lxml import etree
import xml.etree.ElementTree as etree2

xml_string = """







Manager

Star Team Member




"""

#### lxml output

for event, element in etree.iterparse(io.BytesIO(xml_string.encode("UTF-8")), recover=True, remove_blank_text=True,
events=("start", "end",)):
print(str((event, element, element.tag,
element.text.strip() if element.text is not None else element.text,
element.tail.strip() if element.tail is not None else element.tail)) + "\n")
print(f"{etree.tostring(element)}\n")

### xml.etree.ElementTree output is the same

for event, element in etree2.iterparse(io.BytesIO(xml_string.encode("UTF-8")),
events=("start", "end",)):
print(str((event, element, element.tag,
element.text.strip() if element.text is not None else element.text,
element.tail.strip() if element.tail is not None else element.tail)) + "\n")
print(f"{etree2.tostring(element)}\n")

Уже на самой первой итерации, строковое представление корневого тега представляет весь документ XML, что предполагает, что весь вывод .Read уже был проанализирован, скорее чем просто первая строка (что я изначально думал, что первая итерация должна была соответствовать на основе обсуждения других итерпара вверх со следующим Обходной путь, который отображает ожидаемое поведение в линии. Тем не менее, мне интересно, есть ли лучшие решения. Например, приведут ли миллионы вызовов в чтении < /code>, которые должны быть сделаны для ~ 8 ГБ файла. ">### for the MWE

class StreamString(object):

def __init__(self, string):
self._io = io.StringIO(string)

def read(self, len=None):
return self._io.readline().encode("UTF-8")

def close(self):
self._io.close()

### closer to what would be used in practice

class StreamFile(object):

def __init__(self, path):
self._file = open(path, "r")

def read(self, len=None):
return self._file.readline().encode("UTF-8")

def close(self):
self._file.close()

### demonstrating the expected line-by-line parsing behavior

iterator = etree.iterparse(StreamString(xml_string), recover=True, remove_blank_text=True,
events=("start", "end",))
event, root = next(iterator)
print(str((event, root, root.tag,
root.text.strip() if root.text is not None else root.text,
root.tail.strip() if root.tail is not None else root.tail)) + "\n")
print(f"{etree.tostring(root)}\n")

for event, element in iterator:
print(str((event, element, element.tag,
element.text.strip() if element.text is not None else element.text,
element.tail.strip() if element.tail is not None else element.tail)) + "\n")
print(f"{etree.tostring(root)}\n")

< /code>
Это демонстрирует ожидаемое поведение, где проанализированное дерево, соответствующее корневому элементу, последовательно растет с каждой итерацией, когда добавляются новые линии. Такое поведение также легче понять и объединять с многочисленными предложениями на этом сайте о том, как очистить следы памяти, соответствующие узлам и их предкам (и все их «старшие» в глубине первого поиска братьев и сестер) после их разбора. Мне неясно, почему это не поведение по умолчанию. Для XML-файлов, которые потенциально являются гигабайтами по размеру на узлах кластера с 1-2 ГБ памяти. (У меня нет контроля над средой Compute, да, я согласен, было бы больше смысла просто масштабироваться вертикально к одному узлу с ~ 64 ГБ памяти.)

Подробнее здесь: https://stackoverflow.com/questions/793 ... hout-using

1740118419

Anonymous

 [b] Вопрос: [/b] Как лучше всего разобрать файл XML в линии Python? Для использования итеративными анализаторами, тогда какой размер оптимального чанка? В частности, где выбранные размеры чанков документированы для популярных библиотек LXML  и встроенного Python xml.etree.elementtree ? 
У меня, кажется, есть Обходной путь для изменения размера чанка по умолчанию (например, на отдельные линии в качестве доказательства концепции), в то же время используя одни и те же итеративные анализаторы и не разрабатывая новый, но я хочу знать, есть ли Лучшее, широко известное решение, чем мой несколько взломанного обходного пути. Код с паттерной пластинкой. 
Как iterparse  (оба из lxml.etree  и xml.etree.elementtre ) Обсуждается, это часто звучит так, как будто он анализирует XML-файлы «итеративно», как в строке по строке. , оба анализатора ищут и анализируют вывод метода .Read  этого файлового объекта. (В отличие от вывода .Readline , как я ожидал.) Если этот файл-подобный объект является файловым указателем для файла 8 ГБ, и он работает на узле кластера с памятью 2 ГБ, это, конечно вызвать ошибку OOM. < /p>
Этот вывод основан на этом ответе на связанный вопрос, а также на мое собственное тестирование. Вот MWE: < /p>
[code]import io
from lxml import etree
import xml.etree.ElementTree as etree2

xml_string = """







Manager

Star Team Member




"""

#### lxml output

for event, element in etree.iterparse(io.BytesIO(xml_string.encode("UTF-8")), recover=True, remove_blank_text=True,
events=("start", "end",)):
print(str((event, element, element.tag,
element.text.strip() if element.text is not None else element.text,
element.tail.strip() if element.tail is not None else element.tail)) + "\n")
print(f"{etree.tostring(element)}\n")

### xml.etree.ElementTree output is the same

for event, element in etree2.iterparse(io.BytesIO(xml_string.encode("UTF-8")),
events=("start", "end",)):
print(str((event, element, element.tag,
element.text.strip() if element.text is not None else element.text,
element.tail.strip() if element.tail is not None else element.tail)) + "\n")
print(f"{etree2.tostring(element)}\n")

[/code]
Уже на самой первой итерации, строковое представление корневого тега представляет весь документ XML, что предполагает, что весь вывод .Read  уже был проанализирован, скорее чем просто первая строка (что я изначально думал, что первая итерация должна была соответствовать на основе обсуждения других итерпара вверх со следующим Обходной путь, который отображает ожидаемое поведение в линии. Тем не менее, мне интересно, есть ли лучшие решения. Например, приведут ли миллионы вызовов в чтении < /code>, которые должны быть сделаны для ~ 8 ГБ файла.  ">### for the MWE

class StreamString(object):

def __init__(self, string):
self._io = io.StringIO(string)

def read(self, len=None):
return self._io.readline().encode("UTF-8")

def close(self):
self._io.close()

### closer to what would be used in practice

class StreamFile(object):

def __init__(self, path):
self._file = open(path, "r")

def read(self, len=None):
return self._file.readline().encode("UTF-8")

def close(self):
self._file.close()

### demonstrating the expected line-by-line parsing behavior

iterator = etree.iterparse(StreamString(xml_string), recover=True, remove_blank_text=True,
events=("start", "end",))
event, root = next(iterator)
print(str((event, root, root.tag,
root.text.strip() if root.text is not None else root.text,
root.tail.strip() if root.tail is not None else root.tail)) + "\n")
print(f"{etree.tostring(root)}\n")

for event, element in iterator:
print(str((event, element, element.tag,
element.text.strip() if element.text is not None else element.text,
element.tail.strip() if element.tail is not None else element.tail)) + "\n")
print(f"{etree.tostring(root)}\n")

< /code>
Это демонстрирует ожидаемое поведение, где проанализированное дерево, соответствующее корневому элементу, последовательно растет с каждой итерацией, когда добавляются новые линии. Такое поведение также легче понять и объединять с многочисленными предложениями на этом сайте о том, как очистить следы памяти, соответствующие узлам и их предкам (и все их «старшие» в глубине первого поиска братьев и сестер) после их разбора. Мне неясно, почему это не поведение по умолчанию. Для XML-файлов, которые потенциально являются гигабайтами по размеру на узлах кластера с 1-2 ГБ памяти. (У меня нет контроля над средой Compute, да, я согласен, было бы больше смысла просто масштабироваться вертикально к одному узлу с ~ 64 ГБ памяти.) 
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79350917/what-is-the-best-way-to-parse-an-xml-file-line-by-line-in-python-without-using[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Каков наилучший способ построчного анализа XML-файла в Python без использования SAX? (iterparse ведет себя неожиданно)

Последнее сообщение Anonymous « 13 янв 2025, 02:54
Добавлено в форуме Python

Anonymous » 13 янв 2025, 02:54 » в форуме Python

Вопрос: Каков наилучший способ построчного анализа XML-файла в Python? Кажется, у меня есть обходной путь, но я хочу знать, есть ли лучшее, широко известное решение, чем мой несколько хакерский обходной путь.
Что я пробовал: Я бы предпочел не...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
13 янв 2025, 02:54
Каков наилучший способ построчного анализа XML-файла в Python без использования SAX? (iterparse ведет себя неожиданно)

Последнее сообщение Anonymous « 13 янв 2025, 04:43
Добавлено в форуме Python

Anonymous » 13 янв 2025, 04:43 » в форуме Python

Вопрос: Каков наилучший способ построчного анализа XML-файла в Python? Кажется, у меня есть обходной путь, но я хочу знать, есть ли лучшее, широко известное решение, чем мой несколько хакерский обходной путь.
Что я пробовал: Я бы предпочел не...

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
13 янв 2025, 04:43
Swiper CreativeEffect ведет себя неожиданно при прокрутке [закрыто]

Последнее сообщение Anonymous « 21 апр 2025, 08:35
Добавлено в форуме CSS

Anonymous » 21 апр 2025, 08:35 » в форуме CSS

Я пытаюсь создать эффект прокрутки и прокрутки, используя swiper.js . Мне удалось заставить это работать, но только при прокрутке вниз. Теперь я хочу применить тот же эффект, но при прокрутке. Проблема заключается в том, что CreativeEffect , но...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
21 апр 2025, 08:35
Метод codeigniter inform () ведет себя неожиданно с `get_where ()` против `get ()`

Последнее сообщение Anonymous « 18 апр 2025, 13:55
Добавлено в форуме Php

Anonymous » 18 апр 2025, 13:55 » в форуме Php

Всякий раз, когда я использую get_where () в модели, это дает мне все записи таблицы баз данных, включая дубликаты. Когда я использую get () только это дает мне только первую запись, но я хочу все различные записи.
controller = site.php:
public...

0 Ответы

8 Просмотры

Последнее сообщение Anonymous
18 апр 2025, 13:55
Страница с @attribute [Authorize] ведет себя неожиданно с @rendermode InteractiveServer

Последнее сообщение Anonymous « 15 июл 2025, 21:54
Добавлено в форуме C#

Anonymous » 15 июл 2025, 21:54 » в форуме C#

Я работаю с Blazor Web App, которое использует .NET 9 для авторизации. Мне нужно применить @rendermode Interactiveserver в Navmenu.razor , чтобы включить взаимодействие на стороне клиента со стороной сервера через код C#:

Products...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
15 июл 2025, 21:54

Вернуться в «Python»