Как получить согласованные результаты при анализе табличных PDF-файлов с помощью llama-parse?Python

Программы на Python
Ответить
Anonymous
 Как получить согласованные результаты при анализе табличных PDF-файлов с помощью llama-parse?

Сообщение Anonymous »

Я анализировал некоторые PDF-файлы, используя llama в Python, с помощью кода ниже:

Код: Выделить всё

import os
import pandas as pd

import nest_asyncio
nest_asyncio.apply()

os.environ["LLMA_CLOUD_API_KEY"] = "some_key_id"
key_input = "some_key_id"

from llama_parse import LlamaParse

# running llama parsing
doc_parsed = LlamaParse(result_type="markdown",api_key=key_input
).load_data(r"Path\myfile.pdf")
Результаты анализа одного и того же документа разные, когда я запускаю тот же код сейчас и с тех пор. Разница заключается в | и разделении строк в табличном тексте.
Есть ли способ получить те же старые результаты в llama или исправить некоторые параметры, чтобы это работало использовать одну и ту же модель или один и тот же способ, чтобы всегда снова и снова получать одни и те же согласованные результаты, чтобы я мог построить Аналитику на основе той же логики кода?
Результаты ламы за прошлый месяц:

Код: Выделить всё

print(doc_parsed[5].text[:1000])

Код: Выделить всё

# Information

|Name|: Mr. XXX|
|---|---|
|Age/Sex|: XX YRS/M|
|Lab Id.|: 0124080X|
|Refered By|: Self|
|Sample Collection On|: 03/Aug/2024 08:30AM|
|Collected By|: XXX|
|Sample Lab Rec. On|: 03/Aug/2024 11:50 AM|
|Collection Mode|: HOME COLLECTION|
|Reporting On|: 03/Aug/2024 02:48 PM|
|BarCode|: XXX|

# Test Results

|Test Name|Result|Biological Ref. Int.|Unit|
|---|---|---|---|
Теперь результат «Лама» в том же PDF-файле:

Код: Выделить всё

print(doc_parsed[5].text[:1000])

Код: Выделить всё

# Report

Name: Mr. XXX

Age/Sex: XXX YRS/M

Lab Id: 0124080X

Referred By: Self

Sample Collection On: 03/Aug/2024 08:30 AM

Collected By: XXX

Sample Lab Rec. On: 03/Aug/2024 11:50 AM

Collection Mode: HOME COLLECTION

Reporting On: 03/Aug/2024 02:48 PM

BarCode: XXX

# Test Results

Test Name
Result
Biological Ref. Int.
Unit

Желаемые результаты:

Код: Выделить всё

# Above part doesn't matter but Test Results should be separated by |
# Test Results

|Test Name|Result|Biological Ref. Int.|Unit|
Вызывает ли изменение модель сзади разницу? Могу ли я исправить модель, чтобы получить последовательные результаты?

Подробнее здесь: https://stackoverflow.com/questions/789 ... lama-parse
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»