Путь к PDF-файлу передается в функцию, которая извлекает текст с помощью ДокТР. Данные форматируются следующим образом:
Код: Выделить всё
data_list.append({
'id':coord_key,
'text':block_list[coord_key],
"x1":float(block["geometry"][0][0]),
"y1":float(block["geometry"][1][0]),
"x2":float(block["geometry"][0][1]),
"y2":float(block["geometry"][1][1])
});
Идея состоит в том, чтобы затем взять эти данные и передать их в Label Studio, где я затем буду использовать Open AI, чтобы помочь мне применить определенные метки, которые я собираюсь использовать. Например: адрес, номер телефона, примечания и т. д. Я, конечно, рассмотрю то, что получится, и внесу исправления по мере анализа информации. Таким образом, модель, которую я тренирую, содержит наилучшую информацию для обучения.
Цель на этом этапе – сгенерировать данные обучения, чтобы я мог что-то написать с использованием Tensorflow и научиться делать. маркировка сама по себе.
Правильен ли такой подход? И есть ли какие-либо дополнительные соображения, которые мне следует принять при создании обучающих данных для моей модели, прежде чем я начну усиленно создавать больше этих данных из документов, которые мне нужно протестировать?
Подробнее здесь: https://stackoverflow.com/questions/792 ... the-future
Мобильная версия