Подход к текстовой маркировке для обучения модели в будущемPython

Программы на Python
Ответить
Anonymous
 Подход к текстовой маркировке для обучения модели в будущем

Сообщение Anonymous »

Я изучаю некоторые концепции машинного обучения, и в последнее время это было очень весело. Я работаю над процессором документов, который будет принимать кучу PDF-файлов и помечать содержащиеся в них данные. Я хочу знать, правильный ли у меня подход к созданию обучающих данных для модели, которую я создам позже.
Путь к PDF-файлу передается в функцию, которая извлекает текст с помощью ДокТР. Данные форматируются следующим образом:

Код: Выделить всё

            data_list.append({
'id':coord_key,
'text':block_list[coord_key],
"x1":float(block["geometry"][0][0]),
"y1":float(block["geometry"][1][0]),
"x2":float(block["geometry"][0][1]),
"y2":float(block["geometry"][1][1])
});
Coord_Key служит идентификатором блока текста. x1,x2,y1,y2 служат координатами ограничивающей рамки документа, поэтому положение известно. Текст, конечно же, является текстом, о котором идет речь.
Идея состоит в том, чтобы затем взять эти данные и передать их в Label Studio, где я затем буду использовать Open AI, чтобы помочь мне применить определенные метки, которые я собираюсь использовать. Например: адрес, номер телефона, примечания и т. д. Я, конечно, рассмотрю то, что получится, и внесу исправления по мере анализа информации. Таким образом, модель, которую я тренирую, содержит наилучшую информацию для обучения.
Цель на этом этапе – сгенерировать данные обучения, чтобы я мог что-то написать с использованием Tensorflow и научиться делать. маркировка сама по себе.
Правильен ли такой подход? И есть ли какие-либо дополнительные соображения, которые мне следует принять при создании обучающих данных для моей модели, прежде чем я начну усиленно создавать больше этих данных из документов, которые мне нужно протестировать?

Подробнее здесь: https://stackoverflow.com/questions/792 ... the-future
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»