Библиотека docling_core (с тлешкой) не экспортирует на уценку

Библиотека docling_core (с тлешкой) не экспортирует на уценку ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Библиотека docling_core (с тлешкой) не экспортирует на уценку

Цитата

Сообщение Anonymous » 17 май 2025, 16:59

Я пытаюсь извлечь таблицу из изображения JPEG с использованием нелегко. . Трансформаторы == 4.48.1; Onnxruntime == 1.20.1; Docling-core == 2.30.1
Я могу увидеть выход для переменной doctags , а объект doctagsdocument верен. Похоже, что ошибка находится в load_from_doctags () .
Я подозреваю, что есть проблема с библиотекой docling_core , поскольку я скопировал соответствующие части функции (найденный здесь) и добавил их в свой сценарий, и я получил правильный результат. Модифицированный < /p>
import torch
from transformers import AutoConfig, AutoProcessor
from transformers.image_utils import load_image
import onnxruntime
import numpy as np
import os
from docling_core.types.doc import DoclingDocument
from docling_core.types.doc.document import DocTagsDocument

os.environ["OMP_NUM_THREADS"] = "1"
os.environ["ORT_CUDA_USE_MAX_WORKSPACE"] = "1"

# 1. Load models
## Load config and processor
model_id = "ds4sd/SmolDocling-256M-preview"
config = AutoConfig.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained(model_id)

## Load sessions
# !wget https://huggingface.co/ds4sd/SmolDoclin ... coder.onnx
# !wget https://huggingface.co/ds4sd/SmolDoclin ... okens.onnx
# !wget https://huggingface.co/ds4sd/SmolDoclin ... erged.onnx
# cpu
vision_session = onnxruntime.InferenceSession("./models/smoldocling/vision_encoder.onnx")
embed_session = onnxruntime.InferenceSession("./models/smoldocling/embed_tokens.onnx")
decoder_session = onnxruntime.InferenceSession("./models/smoldocling/decoder_model_merged.onnx")

## Set config values
num_key_value_heads = config.text_config.num_key_value_heads
head_dim = config.text_config.head_dim
num_hidden_layers = config.text_config.num_hidden_layers
eos_token_id = config.text_config.eos_token_id
image_token_id = config.image_token_id
end_of_utterance_id = processor.tokenizer.convert_tokens_to_ids("")

# 2. Prepare inputs
## Create input messages
messages = [
{
"role": "user",
"content": [
{"type": "image"},
{"type": "text", "text": "Convert this page to docling."}
]
},
]

## Load image and apply processor
image = load_image("./data/image-with-table.jpeg")
prompt = processor.apply_chat_template(messages, add_generation_prompt=True)
inputs = processor(text=prompt, images=[image], return_tensors="np")

## Prepare decoder inputs
batch_size = inputs['input_ids'].shape[0]
past_key_values = {
f'past_key_values.{layer}.{kv}': np.zeros([batch_size, num_key_value_heads, 0, head_dim], dtype=np.float32)
for layer in range(num_hidden_layers)
for kv in ('key', 'value')
}
image_features = None
input_ids = inputs['input_ids']
attention_mask = inputs['attention_mask']
position_ids = np.cumsum(inputs['attention_mask'], axis=-1)

# 3. Generation loop
max_new_tokens = 8192
generated_tokens = np.array([[]], dtype=np.int64)
for i in range(max_new_tokens):
inputs_embeds = embed_session.run(None, {'input_ids': input_ids})[0]

if image_features is None:
## Only compute vision features if not already computed
image_features = vision_session.run(
['image_features'], # List of output names or indices
{
'pixel_values': inputs['pixel_values'],
'pixel_attention_mask': inputs['pixel_attention_mask'].astype(np.bool_)
}
)[0]

## Merge text and vision embeddings
inputs_embeds[inputs['input_ids'] == image_token_id] = image_features.reshape(-1, image_features.shape[-1])

logits, *present_key_values = decoder_session.run(None, dict(
inputs_embeds=inputs_embeds,
attention_mask=attention_mask,
position_ids=position_ids,
**past_key_values,
))

## Update values for next generation loop
input_ids = logits[:, -1].argmax(-1, keepdims=True)
attention_mask = np.ones_like(input_ids)
position_ids = position_ids[:, -1:] + 1
for j, key in enumerate(past_key_values):
past_key_values[key] = present_key_values[j]

generated_tokens = np.concatenate([generated_tokens, input_ids], axis=-1)
if (input_ids == eos_token_id).all() or (input_ids == end_of_utterance_id).all():
break # Stop predicting

doctags = processor.batch_decode(
generated_tokens,
skip_special_tokens=False,
)[0].lstrip()

print(doctags) #

Подробнее здесь: https://stackoverflow.com/questions/796 ... o-markdown

1747490359

Anonymous

 Я пытаюсь извлечь таблицу из изображения JPEG с использованием нелегко. . Трансформаторы == 4.48.1; Onnxruntime == 1.20.1; Docling-core == 2.30.1  
Я могу увидеть выход для переменной doctags , а объект doctagsdocument  верен. Похоже, что ошибка находится в load_from_doctags () . 
Я подозреваю, что есть проблема с библиотекой docling_core , поскольку я скопировал соответствующие части функции (найденный здесь) и добавил их в свой сценарий, и я получил правильный результат. Модифицированный < /p>
import torch
from transformers import AutoConfig, AutoProcessor
from transformers.image_utils import load_image
import onnxruntime
import numpy as np
import os
from docling_core.types.doc import DoclingDocument
from docling_core.types.doc.document import DocTagsDocument

os.environ["OMP_NUM_THREADS"] = "1"
os.environ["ORT_CUDA_USE_MAX_WORKSPACE"] = "1"

# 1. Load models
## Load config and processor
model_id = "ds4sd/SmolDocling-256M-preview"
config = AutoConfig.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained(model_id)

## Load sessions
# !wget https://huggingface.co/ds4sd/SmolDocling-256M-preview/resolve/main/onnx/vision_encoder.onnx
# !wget https://huggingface.co/ds4sd/SmolDocling-256M-preview/resolve/main/onnx/embed_tokens.onnx
# !wget https://huggingface.co/ds4sd/SmolDocling-256M-preview/resolve/main/onnx/decoder_model_merged.onnx
# cpu
vision_session = onnxruntime.InferenceSession("./models/smoldocling/vision_encoder.onnx")
embed_session = onnxruntime.InferenceSession("./models/smoldocling/embed_tokens.onnx")
decoder_session = onnxruntime.InferenceSession("./models/smoldocling/decoder_model_merged.onnx")

## Set config values
num_key_value_heads = config.text_config.num_key_value_heads
head_dim = config.text_config.head_dim
num_hidden_layers = config.text_config.num_hidden_layers
eos_token_id = config.text_config.eos_token_id
image_token_id = config.image_token_id
end_of_utterance_id = processor.tokenizer.convert_tokens_to_ids("")

# 2. Prepare inputs
## Create input messages
messages = [
{
"role": "user",
"content": [
{"type": "image"},
{"type": "text", "text": "Convert this page to docling."}
]
},
]

## Load image and apply processor
image = load_image("./data/image-with-table.jpeg")
prompt = processor.apply_chat_template(messages, add_generation_prompt=True)
inputs = processor(text=prompt, images=[image], return_tensors="np")

## Prepare decoder inputs
batch_size = inputs['input_ids'].shape[0]
past_key_values = {
f'past_key_values.{layer}.{kv}': np.zeros([batch_size, num_key_value_heads, 0, head_dim], dtype=np.float32)
for layer in range(num_hidden_layers)
for kv in ('key', 'value')
}
image_features = None
input_ids = inputs['input_ids']
attention_mask = inputs['attention_mask']
position_ids = np.cumsum(inputs['attention_mask'], axis=-1)

# 3.  Generation loop
max_new_tokens = 8192
generated_tokens = np.array([[]], dtype=np.int64)
for i in range(max_new_tokens):
inputs_embeds = embed_session.run(None, {'input_ids': input_ids})[0]

if image_features is None:
## Only compute vision features if not already computed
image_features = vision_session.run(
['image_features'],  # List of output names or indices
{
'pixel_values': inputs['pixel_values'],
'pixel_attention_mask': inputs['pixel_attention_mask'].astype(np.bool_)
}
)[0]

## Merge text and vision embeddings
inputs_embeds[inputs['input_ids'] == image_token_id] = image_features.reshape(-1, image_features.shape[-1])

logits, *present_key_values = decoder_session.run(None, dict(
inputs_embeds=inputs_embeds,
attention_mask=attention_mask,
position_ids=position_ids,
**past_key_values,
))

## Update values for next generation loop
input_ids = logits[:, -1].argmax(-1, keepdims=True)
attention_mask = np.ones_like(input_ids)
position_ids = position_ids[:, -1:] + 1
for j, key in enumerate(past_key_values):
past_key_values[key] = present_key_values[j]

generated_tokens = np.concatenate([generated_tokens, input_ids], axis=-1)
if (input_ids == eos_token_id).all() or (input_ids == end_of_utterance_id).all():
break  # Stop predicting

doctags = processor.batch_decode(
generated_tokens,
skip_special_tokens=False,
)[0].lstrip()

print(doctags) # 

Подробнее здесь: [url]https://stackoverflow.com/questions/79626612/the-docling-core-library-with-smoldocling-fails-to-export-to-markdown[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Библиотека docling_core (с тлешкой) не экспортирует на уценку

Последнее сообщение Anonymous « 17 май 2025, 17:48
Добавлено в форуме Python

Anonymous » 17 май 2025, 17:48 » в форуме Python

Я пытаюсь извлечь таблицу из изображения JPEG с использованием нелегко. . Трансформаторы == 4.48.1; Onnxruntime == 1.20.1; Docling-core == 2.30.1
Я могу увидеть выход для переменной doctags , а объект doctagsdocument верен. Похоже, что ошибка в...

0 Ответы

3 Просмотры

Последнее сообщение Anonymous
17 май 2025, 17:48
Библиотека docling_core (с тлешкой) не экспортирует на уценку

Последнее сообщение Anonymous « 18 май 2025, 12:50
Добавлено в форуме Python

Anonymous » 18 май 2025, 12:50 » в форуме Python

Я пытаюсь извлечь таблицу из изображения JPEG с использованием нелегко. . Трансформаторы == 4.48.1; Onnxruntime == 1.20.1; Docling-core == 2.30.1
Я могу увидеть выход для переменной doctags , а объект doctagsdocument верен. Похоже, что ошибка в...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
18 май 2025, 12:50
Библиотека docling_core (с тлешкой) не экспортирует на уценку

Последнее сообщение Anonymous « 24 июн 2025, 14:57
Добавлено в форуме Python

Anonymous » 24 июн 2025, 14:57 » в форуме Python

Я пытаюсь извлечь таблицу из изображения JPEG с использованием нелегко. . Трансформаторы == 4.48.1; Onnxruntime == 1.20.1; Docling-core == 2.30.1
Я могу увидеть выход для переменной doctags , а объект doctagsdocument верен. Похоже, что ошибка в...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
24 июн 2025, 14:57
Как добавить изображения в уценку HTML градиентом

Последнее сообщение Anonymous « 23 окт 2024, 10:49
Добавлено в форуме Python

Anonymous » 23 окт 2024, 10:49 » в форуме Python

Я добавляю изображения в заголовок Gradio, я изучил документацию и обнаружил, что разрешено сохранять уценку или HTML, загружать изображения и применять к ним CSS, чтобы сделать их стилизованными, однако я пробовал, но это не так. загрузите...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
23 окт 2024, 10:49
Как конвертировать уценку в html, чтобы сделать ее более красивой и красочной с помощью Python

Последнее сообщение Anonymous « 05 дек 2024, 20:31
Добавлено в форуме Python

Anonymous » 05 дек 2024, 20:31 » в форуме Python

Я хочу преобразовать текст уценки в html с помощью Python, но когда я гуглил, я получаю только такой результат о библиотеке Markdown:
import markdown

md_text =
```python
# some Python code
hi = 'Hello'
print(hi)
```

html =...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
05 дек 2024, 20:31

Вернуться в «Python»