Конвейер постобработки для нормализации финансовых данных, извлеченных LLM из PDF-файлов.

Конвейер постобработки для нормализации финансовых данных, извлеченных LLM из PDF-файлов. ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Конвейер постобработки для нормализации финансовых данных, извлеченных LLM из PDF-файлов.

Цитата

Сообщение Anonymous » 09 мар 2026, 19:15

Я работаю над конвейером данных, в котором финансовые показатели (например, доход) извлекаются из отчетов компании в формате PDF и передаются моему компоненту в виде необработанных структурированных значений. Эти значения точно отражают то, как они представлены в документах, а это означает, что они очень неоднородны: одни указаны в тысячах, другие в миллионах, валюты могут быть записаны по-разному, а отчетные периоды могут различаться (например, 2023 финансовый год, год, закончившийся 31 декабря 2023 года, и т. д.). Моя обязанность — привести эти значения в единый стандартизированный формат. Моя текущая идея состоит в том, чтобы реализовать логику, основанную на правилах (например, серию условий if/else для определения единиц измерения, валют и форматов периодов), но этот подход кажется хрупким, поскольку постоянно вводятся новые компании и форматы отчетов. Является ли подход, основанный на правилах, по существу единственным практическим решением, или существуют более масштабируемые шаблоны проектирования или архитектуры, обычно используемые для нормализации финансовых данных, извлеченных из документов?
Конвейер будет создан на Python.

Подробнее здесь: https://stackoverflow.com/questions/799 ... lm-from-pd

1773072952

Anonymous

Я работаю над конвейером данных, в котором финансовые показатели (например, доход) извлекаются из отчетов компании в формате PDF и передаются моему компоненту в виде необработанных структурированных значений. Эти значения точно отражают то, как они представлены в документах, а это означает, что они очень неоднородны: одни указаны в тысячах, другие в миллионах, валюты могут быть записаны по-разному, а отчетные периоды могут различаться (например, 2023 финансовый год, год, закончившийся 31 декабря 2023 года, и т. д.). Моя обязанность — привести эти значения в единый стандартизированный формат. Моя текущая идея состоит в том, чтобы реализовать логику, основанную на правилах (например, серию условий if/else для определения единиц измерения, валют и форматов периодов), но этот подход кажется хрупким, поскольку постоянно вводятся новые компании и форматы отчетов. Является ли подход, основанный на правилах, по существу единственным практическим решением, или существуют более масштабируемые шаблоны проектирования или архитектуры, обычно используемые для нормализации финансовых данных, извлеченных из документов?
Конвейер будет создан на Python. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79903981/post-processing-pipeline-for-normalizing-financial-data-extracted-by-llm-from-pd[/url]

Ответить

1 сообщение • Страница 1 из 1