Подход к текстовой маркировке для обучения модели в будущем

Подход к текстовой маркировке для обучения модели в будущем ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Подход к текстовой маркировке для обучения модели в будущем

Цитата

Сообщение Anonymous » 08 дек 2024, 13:48

Я изучаю некоторые концепции машинного обучения, и в последнее время это было очень весело. Я работаю над процессором документов, который будет принимать кучу PDF-файлов и помечать содержащиеся в них данные. Я хочу знать, правильный ли у меня подход к созданию обучающих данных для модели, которую я создам позже.
Путь к PDF-файлу передается в функцию, которая извлекает текст с помощью ДокТР. Данные форматируются следующим образом:

Код: Выделить всё

            data_list.append({
'id':coord_key,
'text':block_list[coord_key],
"x1":float(block["geometry"][0][0]),
"y1":float(block["geometry"][1][0]),
"x2":float(block["geometry"][0][1]),
"y2":float(block["geometry"][1][1])
});

Coord_Key служит идентификатором блока текста. x1,x2,y1,y2 служат координатами ограничивающей рамки документа, поэтому положение известно. Текст, конечно же, является текстом, о котором идет речь.
Идея состоит в том, чтобы затем взять эти данные и передать их в Label Studio, где я затем буду использовать Open AI, чтобы помочь мне применить определенные метки, которые я собираюсь использовать. Например: адрес, номер телефона, примечания и т. д. Я, конечно, рассмотрю то, что получится, и внесу исправления по мере анализа информации. Таким образом, модель, которую я тренирую, содержит наилучшую информацию для обучения.
Цель на этом этапе – сгенерировать данные обучения, чтобы я мог что-то написать с использованием Tensorflow и научиться делать. маркировка сама по себе.
Правильен ли такой подход? И есть ли какие-либо дополнительные соображения, которые мне следует принять при создании обучающих данных для моей модели, прежде чем я начну усиленно создавать больше этих данных из документов, которые мне нужно протестировать?

Подробнее здесь: https://stackoverflow.com/questions/792 ... the-future

1733654920

Anonymous

Я изучаю некоторые концепции машинного обучения, и в последнее время это было очень весело. Я работаю над процессором документов, который будет принимать кучу PDF-файлов и помечать содержащиеся в них данные. Я хочу знать, правильный ли у меня подход к созданию обучающих данных для модели, которую я создам позже.
Путь к PDF-файлу передается в функцию, которая извлекает текст с помощью ДокТР. Данные форматируются следующим образом:
[code]            data_list.append({
'id':coord_key,
'text':block_list[coord_key],
"x1":float(block["geometry"][0][0]),
"y1":float(block["geometry"][1][0]),
"x2":float(block["geometry"][0][1]),
"y2":float(block["geometry"][1][1])
});
[/code]
Coord_Key служит идентификатором блока текста. x1,x2,y1,y2 служат координатами ограничивающей рамки документа, поэтому положение известно. Текст, конечно же, является текстом, о котором идет речь.
Идея состоит в том, чтобы затем взять эти данные и передать их в Label Studio, где я затем буду использовать Open AI, чтобы помочь мне применить определенные метки, которые я собираюсь использовать. Например: адрес, номер телефона, примечания и т. д. Я, конечно, рассмотрю то, что получится, и внесу исправления по мере анализа информации. Таким образом, модель, которую я тренирую, содержит наилучшую информацию для обучения.
Цель на этом этапе – сгенерировать данные обучения, чтобы я мог что-то написать с использованием Tensorflow и научиться делать. маркировка сама по себе.
Правильен ли такой подход? И есть ли какие-либо дополнительные соображения, которые мне следует принять при создании обучающих данных для моей модели, прежде чем я начну усиленно создавать больше этих данных из документов, которые мне нужно протестировать? 

Подробнее здесь: [url]https://stackoverflow.com/questions/79261744/text-labeling-approach-to-train-a-model-in-the-future[/url]