Я работаю над веб-приложением, основанным на колбе, которое обрабатывает многоязычные документы повестки дня. Документы находятся в формате DOC /DOCX и содержат структурированные элементы повестки дня, которые мне нужно извлечь и формат в структурированную таблицу. Я хочу: < /p>
Извлекать только значимый контент при удалении имен, метки времени, номеров страниц и нерелевантных символов.
Обеспечьте последовательную нумерацию для номеров элементов (например, 1,2,3 , 4,5 вместо 3,6,4, ...).
исправить проблемы выравнивания, где некоторые тексты разветвляются в выводе. < /P>
Текущий подход:
Я использую python-docx и win32com.client для извлечения текста и фильтрации на основе текста и режима для очистки нежелательных строк.
Вот упрощенная версия моего кода: < /p>
python
Скопировать
edit
import re
из документа импорта docx < /p>
def wobs_skip_line (line: str) -> bool:
"" "" Пропустите нежелательные строки, содержащие имена, временные метки и другие нерелевантные данные. /> r '\ b \ d {1,2} \ s*(?: Am | pm) \ b', # patterns
r '^page \ s*\ d+$', # номера страниц r '^\ s*$', # пустые пространства
]
Возврат любой (re.search (pattern, line, re.ignorecase) для шаблона в skip_patterns) < /p>
def extract_text_from_docx (filepath):
doc = document (filepath)
content_parts = [] < /p>
for para in doc.paragraphs:
text = para.text.strip()
if text and not should_skip_line(text):
content_parts.append(text)
return '\n'.join(content_parts)
< /code>
Пример использования < /h1>
doc_text = extract_text_from_docx ("example.docx")
print (doc_text)
Проблемы I Я Сторонние:
Некоторые элементы повестки дня отсутствуют или смещены после извлечения.
Нежелательные элементы, такие как имена и временные метки, иногда все еще появляются.
Номера предметов не являются последовательными (они смешиваются из -за нерегулярного форматирования документа) . < /p>
Убедитесь, что надлежащая извлечение только соответствующих элементов повестки дня
сохранить правильную нумерацию при игнорировании номеров страниц или случайного текста
улучшить выравнивание текста, поэтому она правильно отображается в структурированном формате таблицы < /п>
Подробнее здесь: https://stackoverflow.com/questions/794 ... -in-python
Как правильно структурировать и чистить извлеченный текст из Docx в Python? ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
-
-
Как правильно структурировать и чистить извлеченный текст из Docx в Python?
Anonymous » » в форуме Python - 0 Ответы
- 17 Просмотры
-
Последнее сообщение Anonymous
-
-
-
Как правильно структурировать и чистить извлеченный текст из Docx в Python?
Anonymous » » в форуме Python - 0 Ответы
- 9 Просмотры
-
Последнее сообщение Anonymous
-
-
-
Почему Docx-Preview JS в неправильном отображении файла docx правильно?
Anonymous » » в форуме Javascript - 0 Ответы
- 5 Просмотры
-
Последнее сообщение Anonymous
-