Я работаю над веб-приложением, основанным на колбе, которое обрабатывает многоязычные документы повестки дня. Документы находятся в формате DOC /DOCX и содержат структурированные элементы повестки дня, которые мне нужно извлечь и формат в структурированную таблицу. Я хочу: < /p>
Извлекать только значимый контент при удалении имен, метки времени, номеров страниц и нерелевантных символов.
Обеспечьте последовательную нумерацию для номеров элементов (например, 1,2,3 , 4,5 вместо 3,6,4, ...).
исправить проблемы выравнивания, где некоторые тексты разветвляются в выводе. < /P>
Текущий подход:
Я использую Python-Docx и Win32com.client для извлечения фильтрации текста и на основе режима для очистки нежелательных строк.
Вот упрощенная версия моего кода: < /p>
import re
from docx import Document
def should_skip_line(line: str) -> bool:
"""Skip unwanted lines containing names, timestamps, and other irrelevant data."""
skip_patterns = [
r'\b(?:mr|ms|dr|mrs)\b', # Titles
r'\b\d{1,2}\s*(?:am|pm)\b', # Time patterns
r'^Page\s*\d+$', # Page numbers
r'^\s*$', # Empty spaces
]
return any(re.search(pattern, line, re.IGNORECASE) for pattern in skip_patterns)
def extract_text_from_docx(filepath):
doc = Document(filepath)
content_parts = []
for para in doc.paragraphs:
text = para.text.strip()
if text and not should_skip_line(text):
content_parts.append(text)
return '\n'.join(content_parts)
< /code>
Пример использования < /h1>
doc_text = extract_text_from_docx("example.docx")
print(doc_text)
< /code>
Проблемы, с которыми я сталкиваюсь:
Некоторые элементы повестки дня отсутствуют или не смещены после извлечения.
Нежелательные элементы, такие как имена и временные метки, иногда все еще появляются.
item Числа не являются последовательными (они смешиваются из -за нерегулярного форматирования документов). < /p>
Убедитесь, что правильное извлечение только соответствующих элементов повестки дня
Сохраняйте правильную нумерацию при игнорировании чисел страниц или случайный текст < Br /> улучшить выравнивание текста, поэтому оно правильно отображается в формате структурированного таблицы < /p>
Подробнее здесь: https://stackoverflow.com/questions/794 ... -in-python
Как правильно структурировать и чистить извлеченный текст из Docx в Python? ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
-
-
Как правильно структурировать и чистить извлеченный текст из Docx в Python?
Anonymous » » в форуме Python - 0 Ответы
- 25 Просмотры
-
Последнее сообщение Anonymous
-
-
-
Как правильно структурировать и чистить извлеченный текст из Docx в Python?
Anonymous » » в форуме Python - 0 Ответы
- 9 Просмотры
-
Последнее сообщение Anonymous
-
-
-
Почему Docx-Preview JS в неправильном отображении файла docx правильно?
Anonymous » » в форуме Javascript - 0 Ответы
- 5 Просмотры
-
Последнее сообщение Anonymous
-