Я работаю над конвейером данных, в котором финансовые показатели (например, доход) извлекаются из отчетов компании в формате PDF и передаются моему компоненту в виде необработанных структурированных значений. Эти значения точно отражают то, как они представлены в документах, а это означает, что они очень неоднородны: одни указаны в тысячах, другие в миллионах, валюты могут быть записаны по-разному, а отчетные периоды могут различаться (например, 2023 финансовый год, год, закончившийся 31 декабря 2023 года, и т. д.). Моя обязанность — привести эти значения в единый стандартизированный формат. Моя текущая идея состоит в том, чтобы реализовать логику, основанную на правилах (например, серию условий if/else для определения единиц измерения, валют и форматов периодов), но этот подход кажется хрупким, поскольку постоянно вводятся новые компании и форматы отчетов. Является ли подход, основанный на правилах, по существу единственным практическим решением, или существуют более масштабируемые шаблоны проектирования или архитектуры, обычно используемые для нормализации финансовых данных, извлеченных из документов?
Конвейер будет создан на Python.
Подробнее здесь: https://stackoverflow.com/questions/799 ... lm-from-pd
Конвейер постобработки для нормализации финансовых данных, извлеченных LLM из PDF-файлов. ⇐ Python
Программы на Python
1773072952
Anonymous
Я работаю над конвейером данных, в котором финансовые показатели (например, доход) извлекаются из отчетов компании в формате PDF и передаются моему компоненту в виде необработанных структурированных значений. Эти значения точно отражают то, как они представлены в документах, а это означает, что они очень неоднородны: одни указаны в тысячах, другие в миллионах, валюты могут быть записаны по-разному, а отчетные периоды могут различаться (например, 2023 финансовый год, год, закончившийся 31 декабря 2023 года, и т. д.). Моя обязанность — привести эти значения в единый стандартизированный формат. Моя текущая идея состоит в том, чтобы реализовать логику, основанную на правилах (например, серию условий if/else для определения единиц измерения, валют и форматов периодов), но этот подход кажется хрупким, поскольку постоянно вводятся новые компании и форматы отчетов. Является ли подход, основанный на правилах, по существу единственным практическим решением, или существуют более масштабируемые шаблоны проектирования или архитектуры, обычно используемые для нормализации финансовых данных, извлеченных из документов?
Конвейер будет создан на Python.
Подробнее здесь: [url]https://stackoverflow.com/questions/79903981/post-processing-pipeline-for-normalizing-financial-data-extracted-by-llm-from-pd[/url]
Ответить
1 сообщение
• Страница 1 из 1
Перейти
- Кемерово-IT
- ↳ Javascript
- ↳ C#
- ↳ JAVA
- ↳ Elasticsearch aggregation
- ↳ Python
- ↳ Php
- ↳ Android
- ↳ Html
- ↳ Jquery
- ↳ C++
- ↳ IOS
- ↳ CSS
- ↳ Excel
- ↳ Linux
- ↳ Apache
- ↳ MySql
- Детский мир
- Для души
- ↳ Музыкальные инструменты даром
- ↳ Печатная продукция даром
- Внешняя красота и здоровье
- ↳ Одежда и обувь для взрослых даром
- ↳ Товары для здоровья
- ↳ Физкультура и спорт
- Техника - даром!
- ↳ Автомобилистам
- ↳ Компьютерная техника
- ↳ Плиты: газовые и электрические
- ↳ Холодильники
- ↳ Стиральные машины
- ↳ Телевизоры
- ↳ Телефоны, смартфоны, плашеты
- ↳ Швейные машинки
- ↳ Прочая электроника и техника
- ↳ Фототехника
- Ремонт и интерьер
- ↳ Стройматериалы, инструмент
- ↳ Мебель и предметы интерьера даром
- ↳ Cантехника
- Другие темы
- ↳ Разное даром
- ↳ Давай меняться!
- ↳ Отдам\возьму за копеечку
- ↳ Работа и подработка в Кемерове
- ↳ Давай с тобой поговорим...
Мобильная версия