Как получить согласованные результаты при анализе табличных PDF-файлов с помощью llama-parse? - Цифровое Кемерово

Как получить согласованные результаты при анализе табличных PDF-файлов с помощью llama-parse? ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Как получить согласованные результаты при анализе табличных PDF-файлов с помощью llama-parse?

Цитата

Сообщение Anonymous » 20 янв 2025, 00:10

Я анализировал некоторые PDF-файлы, используя llama в Python, с помощью кода ниже:

Код: Выделить всё

import os
import pandas as pd

import nest_asyncio
nest_asyncio.apply()

os.environ["LLMA_CLOUD_API_KEY"] = "some_key_id"
key_input = "some_key_id"

from llama_parse import LlamaParse

# running llama parsing
doc_parsed = LlamaParse(result_type="markdown",api_key=key_input
).load_data(r"Path\myfile.pdf")

Результаты анализа одного и того же документа разные, когда я запускаю тот же код сейчас и с тех пор. Разница заключается в | и разделении строк в табличном тексте.
Есть ли способ получить те же старые результаты в llama или исправить некоторые параметры, чтобы это работало использовать одну и ту же модель или один и тот же способ, чтобы всегда снова и снова получать одни и те же согласованные результаты, чтобы я мог построить Аналитику на основе той же логики кода?
Результаты ламы за прошлый месяц:

Код: Выделить всё

print(doc_parsed[5].text[:1000])

Код: Выделить всё

# Information

|Name|: Mr. XXX|
|---|---|
|Age/Sex|: XX YRS/M|
|Lab Id.|: 0124080X|
|Refered By|: Self|
|Sample Collection On|: 03/Aug/2024 08:30AM|
|Collected By|: XXX|
|Sample Lab Rec. On|: 03/Aug/2024 11:50 AM|
|Collection Mode|: HOME COLLECTION|
|Reporting On|: 03/Aug/2024 02:48 PM|
|BarCode|: XXX|

# Test Results

|Test Name|Result|Biological Ref. Int.|Unit|
|---|---|---|---|

Теперь результат «Лама» в том же PDF-файле:

Код: Выделить всё

print(doc_parsed[5].text[:1000])

Код: Выделить всё

# Report

Name: Mr. XXX

Age/Sex: XXX YRS/M

Lab Id: 0124080X

Referred By: Self

Sample Collection On: 03/Aug/2024 08:30 AM

Collected By: XXX

Sample Lab Rec. On: 03/Aug/2024 11:50 AM

Collection Mode: HOME COLLECTION

Reporting On: 03/Aug/2024 02:48 PM

BarCode: XXX

# Test Results

Test Name
Result
Biological Ref. Int.
Unit

Желаемые результаты:

Код: Выделить всё

# Above part doesn't matter but Test Results should be separated by |
# Test Results

|Test Name|Result|Biological Ref. Int.|Unit|

Вызывает ли изменение модель сзади разницу? Могу ли я исправить модель, чтобы получить последовательные результаты?

Подробнее здесь: https://stackoverflow.com/questions/789 ... lama-parse

1737321052

Anonymous

Я анализировал некоторые PDF-файлы, используя llama в Python, с помощью кода ниже:
[code]import os
import pandas as pd

import nest_asyncio
nest_asyncio.apply()

os.environ["LLMA_CLOUD_API_KEY"] = "some_key_id"
key_input = "some_key_id"

from llama_parse import LlamaParse

# running llama parsing
doc_parsed = LlamaParse(result_type="markdown",api_key=key_input
).load_data(r"Path\myfile.pdf")
[/code]
Результаты анализа одного и того же документа разные, когда я запускаю тот же код сейчас и с тех пор. Разница заключается в | и разделении строк в табличном тексте.
Есть ли способ получить те же старые результаты в llama или исправить некоторые параметры, чтобы это работало использовать одну и ту же модель или один и тот же способ, чтобы всегда снова и снова получать одни и те же согласованные результаты, чтобы я мог построить Аналитику на основе той же логики кода?
Результаты ламы за прошлый месяц:[code]print(doc_parsed[5].text[:1000])
[/code]
[code]# Information

|Name|: Mr. XXX|
|---|---|
|Age/Sex|: XX YRS/M|
|Lab Id.|: 0124080X|
|Refered By|: Self|
|Sample Collection On|: 03/Aug/2024 08:30AM|
|Collected By|: XXX|
|Sample Lab Rec. On|: 03/Aug/2024 11:50 AM|
|Collection Mode|: HOME COLLECTION|
|Reporting On|: 03/Aug/2024 02:48 PM|
|BarCode|: XXX|

# Test Results

|Test Name|Result|Biological Ref. Int.|Unit|
|---|---|---|---|
[/code]
Теперь результат «Лама» в том же PDF-файле:
[code]print(doc_parsed[5].text[:1000])
[/code]
[code]# Report

Name: Mr. XXX

Age/Sex: XXX YRS/M

Lab Id: 0124080X

Referred By: Self

Sample Collection On: 03/Aug/2024 08:30 AM

Collected By: XXX

Sample Lab Rec. On: 03/Aug/2024 11:50 AM

Collection Mode: HOME COLLECTION

Reporting On: 03/Aug/2024 02:48 PM

BarCode: XXX

# Test Results

Test Name
Result
Biological Ref. Int.
Unit

[/code]
Желаемые результаты:
[code]# Above part doesn't matter but Test Results should be separated by |
# Test Results

|Test Name|Result|Biological Ref. Int.|Unit|
[/code]
Вызывает ли изменение модель сзади разницу? Могу ли я исправить модель, чтобы получить последовательные результаты? 

Подробнее здесь: [url]https://stackoverflow.com/questions/78980960/how-to-get-consistent-results-in-tabular-pdf-parsing-with-llama-parse[/url]

Ответить

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Вернуться в «Python»