Как правильно структурировать и чистить извлеченный текст из Docx в Python? - Цифровое Кемерово

Как правильно структурировать и чистить извлеченный текст из Docx в Python? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как правильно структурировать и чистить извлеченный текст из Docx в Python?

Цитата

Сообщение Anonymous » 07 фев 2025, 19:15

Я работаю над веб-приложением, основанным на колбе, которое обрабатывает многоязычные документы повестки дня. Документы находятся в формате DOC /DOCX и содержат структурированные элементы повестки дня, которые мне нужно извлечь и формат в структурированную таблицу. Я хочу: < /p>
Извлекать только значимый контент при удалении имен, метки времени, номеров страниц и нерелевантных символов.
Обеспечьте последовательную нумерацию для номеров элементов (например, 1,2,3 , 4,5 вместо 3,6,4, ...).
исправить проблемы выравнивания, где некоторые тексты разветвляются в выводе. < /P>
Текущий подход:
Я использую Python-Docx и Win32com.client для извлечения фильтрации текста и на основе режима для очистки нежелательных строк.
Вот упрощенная версия моего кода: < /p>
import re
from docx import Document

def should_skip_line(line: str) -> bool:
"""Skip unwanted lines containing names, timestamps, and other irrelevant data."""
skip_patterns = [
r'\b(?:mr|ms|dr|mrs)\b', # Titles
r'\b\d{1,2}\s*(?:am|pm)\b', # Time patterns
r'^Page\s*\d+$', # Page numbers
r'^\s*$', # Empty spaces
]
return any(re.search(pattern, line, re.IGNORECASE) for pattern in skip_patterns)

def extract_text_from_docx(filepath):
doc = Document(filepath)
content_parts = []

for para in doc.paragraphs:
text = para.text.strip()
if text and not should_skip_line(text):
content_parts.append(text)

return '\n'.join(content_parts)
< /code>
Пример использования < /h1>
doc_text = extract_text_from_docx("example.docx")
print(doc_text)
< /code>
Проблемы, с которыми я сталкиваюсь:
Некоторые элементы повестки дня отсутствуют или не смещены после извлечения.
Нежелательные элементы, такие как имена и временные метки, иногда все еще появляются.
item Числа не являются последовательными (они смешиваются из -за нерегулярного форматирования документов). < /p>
Убедитесь, что правильное извлечение только соответствующих элементов повестки дня
Сохраняйте правильную нумерацию при игнорировании чисел страниц или случайный текст < Br /> улучшить выравнивание текста, поэтому оно правильно отображается в формате структурированного таблицы < /p>

Подробнее здесь: https://stackoverflow.com/questions/794 ... -in-python

Реклама

1738944930

Anonymous

 Я работаю над веб-приложением, основанным на колбе, которое обрабатывает многоязычные документы повестки дня. Документы находятся в формате DOC /DOCX и содержат структурированные элементы повестки дня, которые мне нужно извлечь и формат в структурированную таблицу. Я хочу: < /p>
Извлекать только значимый контент при удалении имен, метки времени, номеров страниц и нерелевантных символов.
Обеспечьте последовательную нумерацию для номеров элементов (например, 1,2,3 , 4,5 вместо 3,6,4, ...).
исправить проблемы выравнивания, где некоторые тексты разветвляются в выводе. < /P>
Текущий подход:
Я использую Python-Docx и Win32com.client для извлечения фильтрации текста и на основе режима для очистки нежелательных строк.
Вот упрощенная версия моего кода: < /p>
import re
from docx import Document

def should_skip_line(line: str) -> bool:
"""Skip unwanted lines containing names, timestamps, and other irrelevant data."""
skip_patterns = [
r'\b(?:mr|ms|dr|mrs)\b',  # Titles
r'\b\d{1,2}\s*(?:am|pm)\b',  # Time patterns
r'^Page\s*\d+$',  # Page numbers
r'^\s*$',  # Empty spaces
]
return any(re.search(pattern, line, re.IGNORECASE) for pattern in skip_patterns)

def extract_text_from_docx(filepath):
doc = Document(filepath)
content_parts = []

for para in doc.paragraphs:
text = para.text.strip()
if text and not should_skip_line(text):
content_parts.append(text)

return '\n'.join(content_parts)
< /code>
 Пример использования < /h1>
doc_text = extract_text_from_docx("example.docx")
print(doc_text)
< /code>
Проблемы, с которыми я сталкиваюсь:
Некоторые элементы повестки дня отсутствуют или не смещены после извлечения.
Нежелательные элементы, такие как имена и временные метки, иногда все еще появляются.
item Числа не являются последовательными (они смешиваются из -за нерегулярного форматирования документов). < /p>
Убедитесь, что правильное извлечение только соответствующих элементов повестки дня
Сохраняйте правильную нумерацию при игнорировании чисел страниц или случайный текст < Br /> улучшить выравнивание текста, поэтому оно правильно отображается в формате структурированного таблицы < /p> 

Подробнее здесь: [url]https://stackoverflow.com/questions/79421350/how-to-properly-structure-and-clean-extracted-text-from-docx-in-python[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как правильно структурировать и чистить извлеченный текст из Docx в Python?

Последнее сообщение Anonymous « 07 фев 2025, 18:15
Добавлено в форуме Python

Anonymous » 07 фев 2025, 18:15 » в форуме Python

Я работаю над веб-приложением, основанным на колбе, которое обрабатывает многоязычные документы повестки дня. Документы находятся в формате DOC /DOCX и содержат структурированные элементы повестки дня, которые мне нужно извлечь и формат в...

0 Ответы

25 Просмотры

Последнее сообщение Anonymous
07 фев 2025, 18:15
Как правильно структурировать и чистить извлеченный текст из Docx в Python?

Последнее сообщение Anonymous « 07 фев 2025, 19:22
Добавлено в форуме Python

Anonymous » 07 фев 2025, 19:22 » в форуме Python

Я работаю над веб-приложением, основанным на колбе, которое обрабатывает многоязычные документы повестки дня. Документы находятся в формате DOC /DOCX и содержат структурированные элементы повестки дня, которые мне нужно извлечь и формат в...

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
07 фев 2025, 19:22
Почему Docx-Preview JS в неправильном отображении файла docx правильно?

Последнее сообщение Anonymous « 18 июл 2025, 08:37
Добавлено в форуме Javascript

Anonymous » 18 июл 2025, 08:37 » в форуме Javascript

Я использую docx-preview.js для визуализации моего файла Laravel Project Docx в компоненте LiveWire. Когда я рендерил страницу, она не разжигает, как и ожидалось. Я прикрепил изображения для ссылки. У меня этот код для рендеринга:

JS Code:...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
18 июл 2025, 08:37
Как чистить группы из производства Groupby

Последнее сообщение Anonymous « 12 мар 2025, 12:01
Добавлено в форуме C#

Anonymous » 12 мар 2025, 12:01 » в форуме C#

Я сделал следующий наблюдение, что фильтры только изменения для данного ресурсаида:
var valueChangesObs = events
.GroupBy(e => e.ResourceId)
.SelectMany(e => e.DistinctUntilChanged(e => e.ResouceValue))

Тем не менее, сверхурочно будет слишком...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
12 мар 2025, 12:01
Как чистить группы из производства Groupby

Последнее сообщение Anonymous « 12 мар 2025, 12:30
Добавлено в форуме C#

Anonymous » 12 мар 2025, 12:30 » в форуме C#

Я сделал следующий наблюдение, что фильтры только изменения для данного ресурсаида:
var valueChangesObs = events
.GroupBy(e => e.ResourceId)
.SelectMany(e => e.DistinctUntilChanged(e => e.ResouceValue))

Тем не менее, сверхурочно будет слишком...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
12 мар 2025, 12:30

Вернуться в «Python»

Programmiererforum