Я разрабатываю приложение для извлечения ключевой информации и таблиц из контрактов на покупку, предоставляемых различными транспортными компаниями. Эти документы имеют разные форматы и типы файлов:
• Типы файлов: PDF, Word (.docx), Excel (.xlsx)
• Структура: нет единообразного макета; каждая компания использует свой собственный формат
Цель:
• Извлечь соответствующий текст и таблицы из этих документов
• Объединить данные в файл Excel с фиксированным стандартизированным форматом.
• Применение формул в файле Excel на основе извлеченной информации о контракте.
Проблемы:
• Переменные структуры документов: отсутствие единообразного формата делает извлечение на основе шаблонов непрактичным.
• Данные Типы: необходимо извлечь как текст (например, условия контракта, даты), так и таблицы (например, списки позиций, цены).
• Применение формул: необходимо автоматически применять формулы Excel (например, расчеты, условное форматирование) на основе извлеченные данные
Что я пробовал:
• Оптическое распознавание текста для PDF-файлов: используется Tesseract OCR, но точность варьируется в зависимости от сложных макетов.
• Синтаксический анализ. Библиотеки:
• python-docx для документов Word
• pandas и openpyxl для файлов Excel
• Извлечение на основе правил: реализованы регулярные выражения, но их невозможно масштабировать из-за изменчивости формата
• Автоматизация Excel: использовал openpyxl для записи данных в Excel, но не знал, как динамически применять формулы на основе данных.
Вопросы:
1. Какие подходы или инструменты рекомендуются для извлечения данных из документов сильно изменчивых и неструктурированных форматов?
2. Могут ли методы машинного обучения или НЛП помочь интерпретировать и извлечь соответствующую информацию из этих документов?
3. Как я могу точно извлечь таблицы, если их структура в разных документах существенно различается?
4. Каковы наилучшие методы объединения этих извлеченных данных в стандартизированный формат Excel?
5. Как я могу программно применять формулы Excel на основе извлеченной информации о контракте?
Подробнее здесь: https://stackoverflow.com/questions/792 ... ed-excel-f
Извлечение данных из неструктурированных PDF-файлов, Word и Excel в стандартизированный формат Excel с применением форму ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
-
-
VTK: извлечение НЕСКОЛЬКИХ данных ячеек из неструктурированных сеток vtk в C++
Anonymous » » в форуме C++ - 0 Ответы
- 70 Просмотры
-
Последнее сообщение Anonymous
-