Извлечение данных из неструктурированных PDF-файлов, Word и Excel в стандартизированный формат Excel с применением форму

Извлечение данных из неструктурированных PDF-файлов, Word и Excel в стандартизированный формат Excel с применением форму ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Извлечение данных из неструктурированных PDF-файлов, Word и Excel в стандартизированный формат Excel с применением форму

Цитата

Сообщение Anonymous » 23 ноя 2024, 06:58

Я разрабатываю приложение для извлечения ключевой информации и таблиц из контрактов на покупку, предоставляемых различными транспортными компаниями. Эти документы имеют разные форматы и типы файлов:
• Типы файлов: PDF, Word (.docx), Excel (.xlsx)
• Структура: нет единообразного макета; каждая компания использует свой собственный формат
Цель:
• Извлечь соответствующий текст и таблицы из этих документов
• Объединить данные в файл Excel с фиксированным стандартизированным форматом.
• Применение формул в файле Excel на основе извлеченной информации о контракте.
Проблемы:
• Переменные структуры документов: отсутствие единообразного формата делает извлечение на основе шаблонов непрактичным.
• Данные Типы: необходимо извлечь как текст (например, условия контракта, даты), так и таблицы (например, списки позиций, цены).
• Применение формул: необходимо автоматически применять формулы Excel (например, расчеты, условное форматирование) на основе извлеченные данные
Что я пробовал:
• Оптическое распознавание текста для PDF-файлов: используется Tesseract OCR, но точность варьируется в зависимости от сложных макетов.
• Синтаксический анализ. Библиотеки:
• python-docx для документов Word
• pandas и openpyxl для файлов Excel
• Извлечение на основе правил: реализованы регулярные выражения, но их невозможно масштабировать из-за изменчивости формата
• Автоматизация Excel: использовал openpyxl для записи данных в Excel, но не знал, как динамически применять формулы на основе данных.
Вопросы:
1. Какие подходы или инструменты рекомендуются для извлечения данных из документов сильно изменчивых и неструктурированных форматов?
2. Могут ли методы машинного обучения или НЛП помочь интерпретировать и извлечь соответствующую информацию из этих документов?
3. Как я могу точно извлечь таблицы, если их структура в разных документах существенно различается?
4. Каковы наилучшие методы объединения этих извлеченных данных в стандартизированный формат Excel?
5. Как я могу программно применять формулы Excel на основе извлеченной информации о контракте?

Подробнее здесь: https://stackoverflow.com/questions/792 ... ed-excel-f

1732334313

Anonymous

Я разрабатываю приложение для извлечения ключевой информации и таблиц из контрактов на покупку, предоставляемых различными транспортными компаниями. Эти документы имеют разные форматы и типы файлов:
• Типы файлов: PDF, Word (.docx), Excel (.xlsx)
• Структура: нет единообразного макета; каждая компания использует свой собственный формат
Цель:
• Извлечь соответствующий текст и таблицы из этих документов
• Объединить данные в файл Excel с фиксированным стандартизированным форматом.
• Применение формул в файле Excel на основе извлеченной информации о контракте.
Проблемы:
• Переменные структуры документов: отсутствие единообразного формата делает извлечение на основе шаблонов непрактичным.
• Данные Типы: необходимо извлечь как текст (например, условия контракта, даты), так и таблицы (например, списки позиций, цены).
• Применение формул: необходимо автоматически применять формулы Excel (например, расчеты, условное форматирование) на основе извлеченные данные
Что я пробовал:
• Оптическое распознавание текста для PDF-файлов: используется Tesseract OCR, но точность варьируется в зависимости от сложных макетов.
• Синтаксический анализ. Библиотеки:
• python-docx для документов Word
• pandas и openpyxl для файлов Excel
• Извлечение на основе правил: реализованы регулярные выражения, но их невозможно масштабировать из-за изменчивости формата
• Автоматизация Excel: использовал openpyxl для записи данных в Excel, но не знал, как динамически применять формулы на основе данных.
Вопросы:
1.  Какие подходы или инструменты рекомендуются для извлечения данных из документов сильно изменчивых и неструктурированных форматов?
2.  Могут ли методы машинного обучения или НЛП помочь интерпретировать и извлечь соответствующую информацию из этих документов?
3.  Как я могу точно извлечь таблицы, если их структура в разных документах существенно различается?
4.  Каковы наилучшие методы объединения этих извлеченных данных в стандартизированный формат Excel?
5.  Как я могу программно применять формулы Excel на основе извлеченной информации о контракте? 

Подробнее здесь: [url]https://stackoverflow.com/questions/79217090/extract-data-from-unstructured-pdfs-word-and-excel-into-a-standardized-excel-f[/url]