Как извлечь ограничивающую коробку с изображения, которое содержит ответ на данное вопрос?Python

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Как извлечь ограничивающую коробку с изображения, которое содержит ответ на данное вопрос?

Сообщение Anonymous »

Я работаю над задачей, в которой мне дают: < /p>

Вопрос < /li>
Изображение (которое может содержать текст, таблицы или визуальный контент). < /li>
< /ul>
Цель - идентифицировать основу (координаты) в изображении, который содержит в образе. область. < /p>
Что я пробовал: < /p>

Я использовал LLMS (openai и антропов) со структурированным выводом для получения координат. Тем не менее, результаты не были надежными, точность составляла около 30%, а ограничивающие ящики часто были отключены или не связаны.class BoundingBox(BaseModel):
top_left: List[int]
bottom_right: List[int]
content: str
confidence: float

class ImageAnalysisResult(BaseModel):
question: str
image_resolution: List[int]
bounding_boxes: List[BoundingBox]
overall_answer: str

response = client.responses.parse(
model=model,
temperature=0.0,
input=[
{
"role": "system",
"content": system_prompt,
},
{
"role": "user",
"content": [
{
"type": "input_text",
"text": user_prompt,
},
{
"type": "input_image",
"image_url": f"data:image/png;base64,{base64_image}",
"detail": "high",
},
],
},
],
text_format=ImageAnalysisResult,
)
< /code>
Что я ищу: < /p>

Предварительная модель или комбинированный метод на основе NLP + CV2, который может найти ответ в изображении, используя ограничительные координаты. /> Любые предложения для моделей, библиотек или рабочих процессов, которые могут помочь? < /p>
Заранее! < /p>

Подробнее здесь: https://stackoverflow.com/questions/796 ... a-given-qu
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»