Конвейер постобработки для нормализации финансовых данных, извлеченных LLM из PDF-файлов.Python

Программы на Python
Ответить
Anonymous
 Конвейер постобработки для нормализации финансовых данных, извлеченных LLM из PDF-файлов.

Сообщение Anonymous »

Я работаю над конвейером данных, в котором финансовые показатели (например, доход) извлекаются из отчетов компании в формате PDF и передаются моему компоненту в виде необработанных структурированных значений. Эти значения точно отражают то, как они представлены в документах, а это означает, что они очень неоднородны: одни указаны в тысячах, другие в миллионах, валюты могут быть записаны по-разному, а отчетные периоды могут различаться (например, 2023 финансовый год, год, закончившийся 31 декабря 2023 года, и т. д.). Моя обязанность — привести эти значения в единый стандартизированный формат. Моя текущая идея состоит в том, чтобы реализовать логику, основанную на правилах (например, серию условий if/else для определения единиц измерения, валют и форматов периодов), но этот подход кажется хрупким, поскольку постоянно вводятся новые компании и форматы отчетов. Является ли подход, основанный на правилах, по существу единственным практическим решением, или существуют более масштабируемые шаблоны проектирования или архитектуры, обычно используемые для нормализации финансовых данных, извлеченных из документов?
Конвейер будет создан на Python.

Подробнее здесь: https://stackoverflow.com/questions/799 ... lm-from-pd
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»