Извлечение данных из неструктурированных PDF-файлов, Word и Excel в стандартизированный формат Excel с применением формуPython

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Извлечение данных из неструктурированных PDF-файлов, Word и Excel в стандартизированный формат Excel с применением форму

Сообщение Anonymous »

Я разрабатываю приложение для извлечения ключевой информации и таблиц из контрактов на покупку, предоставляемых различными транспортными компаниями. Эти документы имеют разные форматы и типы файлов:
• Типы файлов: PDF, Word (.docx), Excel (.xlsx)
• Структура: нет единообразного макета; каждая компания использует свой собственный формат
Цель:
• Извлечь соответствующий текст и таблицы из этих документов
• Объединить данные в файл Excel с фиксированным стандартизированным форматом.
• Применение формул в файле Excel на основе извлеченной информации о контракте.
Проблемы:
• Переменные структуры документов: отсутствие единообразного формата делает извлечение на основе шаблонов непрактичным.
• Данные Типы: необходимо извлечь как текст (например, условия контракта, даты), так и таблицы (например, списки позиций, цены).
• Применение формул: необходимо автоматически применять формулы Excel (например, расчеты, условное форматирование) на основе извлеченные данные
Что я пробовал:
• Оптическое распознавание текста для PDF-файлов: используется Tesseract OCR, но точность варьируется в зависимости от сложных макетов.
• Синтаксический анализ. Библиотеки:
• python-docx для документов Word
• pandas и openpyxl для файлов Excel
• Извлечение на основе правил: реализованы регулярные выражения, но их невозможно масштабировать из-за изменчивости формата
• Автоматизация Excel: использовал openpyxl для записи данных в Excel, но не знал, как динамически применять формулы на основе данных.
Вопросы:
1. Какие подходы или инструменты рекомендуются для извлечения данных из документов сильно изменчивых и неструктурированных форматов?
2. Могут ли методы машинного обучения или НЛП помочь интерпретировать и извлечь соответствующую информацию из этих документов?
3. Как я могу точно извлечь таблицы, если их структура в разных документах существенно различается?
4. Каковы наилучшие методы объединения этих извлеченных данных в стандартизированный формат Excel?
5. Как я могу программно применять формулы Excel на основе извлеченной информации о контракте?

Подробнее здесь: https://stackoverflow.com/questions/792 ... ed-excel-f
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение
  • VTK: извлечение НЕСКОЛЬКИХ данных ячеек из неструктурированных сеток vtk в C++
    Anonymous » » в форуме C++
    0 Ответы
    70 Просмотры
    Последнее сообщение Anonymous
  • Автоматически загружать панель задач во вновь созданном документе Word из существующего документа Word в проекте Word, д
    Anonymous » » в форуме C#
    0 Ответы
    150 Просмотры
    Последнее сообщение Anonymous
  • Автоматически загружать панель задач во вновь созданном документе Word из существующего документа Word в проекте Word, д
    Anonymous » » в форуме Jquery
    0 Ответы
    100 Просмотры
    Последнее сообщение Anonymous
  • Fastapi Endpoint Stream LLM Вывод Word Word Word
    Anonymous » » в форуме Python
    0 Ответы
    6 Просмотры
    Последнее сообщение Anonymous
  • Fastapi Endpoint Stream LLM Вывод Word Word Word
    Anonymous » » в форуме Python
    0 Ответы
    4 Просмотры
    Последнее сообщение Anonymous

Вернуться в «Python»