Я разрабатываю приложение для извлечения ключевой информации и таблиц из контрактов на покупку, предоставляемых различными транспортными компаниями. Эти документы имеют разные форматы и типы файлов:
• Типы файлов: PDF, Word (.docx), Excel (.xlsx)
• Структура: нет единообразного макета; каждая компания использует свой собственный формат
Цель:
• Извлечь соответствующий текст и таблицы из этих документов
• Объединить данные в файл Excel с фиксированным стандартизированным форматом.
• Применение формул в файле Excel на основе извлеченной информации о контракте.
Проблемы:
• Переменные структуры документов: отсутствие единообразного формата делает извлечение на основе шаблонов непрактичным.
• Данные Типы: необходимо извлечь как текст (например, условия контракта, даты), так и таблицы (например, списки позиций, цены).
• Применение формул: необходимо автоматически применять формулы Excel (например, расчеты, условное форматирование) на основе извлеченные данные
Что я пробовал:
• Оптическое распознавание текста для PDF-файлов: используется Tesseract OCR, но точность варьируется в зависимости от сложных макетов.
• Синтаксический анализ. Библиотеки:
• python-docx для документов Word
• pandas и openpyxl для файлов Excel
• Извлечение на основе правил: реализованы регулярные выражения, но их невозможно масштабировать из-за изменчивости формата
• Автоматизация Excel: использовал openpyxl для записи данных в Excel, но не знал, как динамически применять формулы на основе данных.
Вопросы:
1. Какие подходы или инструменты рекомендуются для извлечения данных из документов сильно изменчивых и неструктурированных форматов?
2. Могут ли методы машинного обучения или НЛП помочь интерпретировать и извлечь соответствующую информацию из этих документов?
3. Как я могу точно извлечь таблицы, если их структура в разных документах существенно различается?
4. Каковы наилучшие методы объединения этих извлеченных данных в стандартизированный формат Excel?
5. Как я могу программно применять формулы Excel на основе извлеченной информации о контракте?
Подробнее здесь: https://stackoverflow.com/questions/792 ... ed-excel-f
Извлечение данных из неструктурированных PDF-файлов, Word и Excel в стандартизированный формат Excel с применением форму ⇐ Python
Программы на Python
1732334313
Anonymous
Я разрабатываю приложение для извлечения ключевой информации и таблиц из контрактов на покупку, предоставляемых различными транспортными компаниями. Эти документы имеют разные форматы и типы файлов:
• Типы файлов: PDF, Word (.docx), Excel (.xlsx)
• Структура: нет единообразного макета; каждая компания использует свой собственный формат
Цель:
• Извлечь соответствующий текст и таблицы из этих документов
• Объединить данные в файл Excel с фиксированным стандартизированным форматом.
• Применение формул в файле Excel на основе извлеченной информации о контракте.
Проблемы:
• Переменные структуры документов: отсутствие единообразного формата делает извлечение на основе шаблонов непрактичным.
• Данные Типы: необходимо извлечь как текст (например, условия контракта, даты), так и таблицы (например, списки позиций, цены).
• Применение формул: необходимо автоматически применять формулы Excel (например, расчеты, условное форматирование) на основе извлеченные данные
Что я пробовал:
• Оптическое распознавание текста для PDF-файлов: используется Tesseract OCR, но точность варьируется в зависимости от сложных макетов.
• Синтаксический анализ. Библиотеки:
• python-docx для документов Word
• pandas и openpyxl для файлов Excel
• Извлечение на основе правил: реализованы регулярные выражения, но их невозможно масштабировать из-за изменчивости формата
• Автоматизация Excel: использовал openpyxl для записи данных в Excel, но не знал, как динамически применять формулы на основе данных.
Вопросы:
1. Какие подходы или инструменты рекомендуются для извлечения данных из документов сильно изменчивых и неструктурированных форматов?
2. Могут ли методы машинного обучения или НЛП помочь интерпретировать и извлечь соответствующую информацию из этих документов?
3. Как я могу точно извлечь таблицы, если их структура в разных документах существенно различается?
4. Каковы наилучшие методы объединения этих извлеченных данных в стандартизированный формат Excel?
5. Как я могу программно применять формулы Excel на основе извлеченной информации о контракте?
Подробнее здесь: [url]https://stackoverflow.com/questions/79217090/extract-data-from-unstructured-pdfs-word-and-excel-into-a-standardized-excel-f[/url]
Ответить
1 сообщение
• Страница 1 из 1
Перейти
- Кемерово-IT
- ↳ Javascript
- ↳ C#
- ↳ JAVA
- ↳ Elasticsearch aggregation
- ↳ Python
- ↳ Php
- ↳ Android
- ↳ Html
- ↳ Jquery
- ↳ C++
- ↳ IOS
- ↳ CSS
- ↳ Excel
- ↳ Linux
- ↳ Apache
- ↳ MySql
- Детский мир
- Для души
- ↳ Музыкальные инструменты даром
- ↳ Печатная продукция даром
- Внешняя красота и здоровье
- ↳ Одежда и обувь для взрослых даром
- ↳ Товары для здоровья
- ↳ Физкультура и спорт
- Техника - даром!
- ↳ Автомобилистам
- ↳ Компьютерная техника
- ↳ Плиты: газовые и электрические
- ↳ Холодильники
- ↳ Стиральные машины
- ↳ Телевизоры
- ↳ Телефоны, смартфоны, плашеты
- ↳ Швейные машинки
- ↳ Прочая электроника и техника
- ↳ Фототехника
- Ремонт и интерьер
- ↳ Стройматериалы, инструмент
- ↳ Мебель и предметы интерьера даром
- ↳ Cантехника
- Другие темы
- ↳ Разное даром
- ↳ Давай меняться!
- ↳ Отдам\возьму за копеечку
- ↳ Работа и подработка в Кемерове
- ↳ Давай с тобой поговорим...
Мобильная версия