Мне приходится анализировать XML-данные объемом от десяти до ста ТБ (да, я знаю). Вы можете представить каждый XML-документ как набор записей, и цель состоит в том, чтобы выбрать небольшое подмножество полей из каждой записи.
Я использовал функцию iterparse в библиотеке lxml. и следуя советам автора. Мой код похож на версию, работающую в 0,97 с, за исключением более сложной логики. Однако мой парсер на самом деле не так быстр, как мне хотелось бы, и я ищу любые советы, библиотеки и методы, которые могут ускорить анализ - независимо от того, насколько он мал.
Единственное предостережение: рекомендации должны быть для Python или для библиотек, имеющих привязки к Python.
Подробнее здесь: https://stackoverflow.com/questions/788 ... -in-python
Увеличьте скорость синтаксического анализа XML в Python ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
-
-
Может ли кто-нибудь дать код синтаксического анализа этого фрагмента XML в Python?
Anonymous » » в форуме Python - 0 Ответы
- 26 Просмотры
-
Последнее сообщение Anonymous
-
-
-
Атрибут идентификатора синтаксического анализа Python вместо элемента из xml
Anonymous » » в форуме Python - 0 Ответы
- 11 Просмотры
-
Последнее сообщение Anonymous
-