Эффективно анализируйте многоуровневую таблицу из PDF-документа с помощью библиотек Python.

Эффективно анализируйте многоуровневую таблицу из PDF-документа с помощью библиотек Python. ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Эффективно анализируйте многоуровневую таблицу из PDF-документа с помощью библиотек Python.

Цитата

Сообщение Anonymous » 10 май 2024, 05:09

Таблица для анализа
Может ли кто-нибудь посоветовать, как эффективно извлечь эту таблицу (ссылка выше) из PDF-файла? В основном я работаю с таблицами, поскольку это лучшая библиотека Python для идентификации и извлечения таблиц.
Я хотел бы извлечь данные в фрейм данных со структурой ячеек, как показано на изображении ниже:
csv
Я готов заполнить нанс подзаголовками выше/ниже.
Документ («doc») представляет собой годовой отчет Marshalls plc за 2023 год (номер страницы в фактическом документе = 92), доступный по этой ссылке:
https://www.marshalls.co.uk/investor/ результаты-отчеты-и-презентации
Я придумал следующий код для извлечения элементов каждой строки, но он объединяет некоторые элементы, например пятый элемент в строке 1 (начиная с нуля) должен фактически представлять собой два элемента («MIP A» и «MIP B»), а не один («MIP A MIP B»). Как видите, в каждой строке должно быть 19 элементов, включая имя руководителя в первом столбце. Сейчас в каждом из выходных данных кода есть только 10 элементов.
import tabula

dfs = tabula.read_pdf(doc, pages='94') # multiple_tables=True
dfs

row_number = 1 # Row number you want to access (zero-based)

# Iterate over each DataFrame in the list and access a specified row of actual data
for i, df in enumerate(dfs):
if not df.empty: # Ensure DataFrame is not empty
if len(df) > row_number: # Check if DataFrame has enough rows
specified_row = df.iloc[row_number] # Access the specified row of data
print(f"Data from row {row_number + 1} in Table {i+1}:")
print(specified_row.values) # Print only the values from the specified row
print(f"\nNumber of elements in row {row_number + 1} of Table {i+1}: {len(specified_row.values)}")
else:
print(f"Table {i+1} does not contain row {row_number + 1}.")
else:
print(f"Table {i+1} is empty.")

Я должен добавить, что мне нужно иметь возможность применять к другим таблицам и аналогичным образом определять границы между ячейками, поэтому бесполезно иметь конкретные ссылки, подобные следующим:
def split_specific_items(row_values):
updated_values = []
for item in row_values:
if item == 'MIP A MIP B':
updated_values.extend(['MIP A', 'MIP B'])
else:
updated_values.append(item)
return updated_values

Подробнее здесь: https://stackoverflow.com/questions/784 ... -libraries

1715306947

Anonymous

Таблица для анализа
Может ли кто-нибудь посоветовать, как эффективно извлечь эту таблицу (ссылка выше) из PDF-файла? В основном я работаю с таблицами, поскольку это лучшая библиотека Python для идентификации и извлечения таблиц.
Я хотел бы извлечь данные в фрейм данных со структурой ячеек, как показано на изображении ниже: 
csv
Я готов заполнить нанс подзаголовками выше/ниже.
Документ («doc») представляет собой годовой отчет Marshalls plc за 2023 год (номер страницы в фактическом документе = 92), доступный по этой ссылке:
https://www.marshalls.co.uk/investor/ результаты-отчеты-и-презентации
Я придумал следующий код для извлечения элементов каждой строки, но он объединяет некоторые элементы, например пятый элемент в строке 1 (начиная с нуля) должен фактически представлять собой два элемента («MIP A» и «MIP B»), а не один («MIP A MIP B»). Как видите, в каждой строке должно быть 19 элементов, включая имя руководителя в первом столбце. Сейчас в каждом из выходных данных кода есть только 10 элементов.
import tabula

dfs = tabula.read_pdf(doc, pages='94')     # multiple_tables=True
dfs

row_number = 1   # Row number you want to access (zero-based)

# Iterate over each DataFrame in the list and access a specified row of actual data
for i, df in enumerate(dfs):
if not df.empty:  # Ensure DataFrame is not empty
if len(df) > row_number:  # Check if DataFrame has enough rows
specified_row = df.iloc[row_number]  # Access the specified row of data
print(f"Data from row {row_number + 1} in Table {i+1}:")
print(specified_row.values)  # Print only the values from the specified row
print(f"\nNumber of elements in row {row_number + 1} of Table {i+1}: {len(specified_row.values)}")
else:
print(f"Table {i+1} does not contain row {row_number + 1}.")
else:
print(f"Table {i+1} is empty.")

Я должен добавить, что мне нужно иметь возможность применять к другим таблицам и аналогичным образом определять границы между ячейками, поэтому бесполезно иметь конкретные ссылки, подобные следующим:
def split_specific_items(row_values):
updated_values = []
for item in row_values:
if item == 'MIP A MIP B':
updated_values.extend(['MIP A', 'MIP B'])
else:
updated_values.append(item)
return updated_values
 

Подробнее здесь: [url]https://stackoverflow.com/questions/78455006/efficiently-parse-multi-level-table-from-a-pdf-document-using-python-libraries[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Анализируйте XML и пропускайте неизвестные атрибуты с помощью Ktor

Последнее сообщение Anonymous « 14 янв 2025, 01:21
Добавлено в форуме Android

Anonymous » 14 янв 2025, 01:21 » в форуме Android

Я работаю над анализом XML-файла следующей структуры: RSS
ContentNegotiation :
install(ContentNegotiation) {
xml(
format = XML {
xmlDeclMode = XmlDeclMode.Charset
},
contentType = ContentType.Text.Xml
)
}

Затем я вызываю его следующим образом:...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
14 янв 2025, 01:21
Анализируйте многоязычные журналы информации о рейсах и извлекайте потенциально разделенные пробелами номера рейсов.

Последнее сообщение Anonymous « 26 июл 2024, 20:35
Добавлено в форуме Php

Anonymous » 26 июл 2024, 20:35 » в форуме Php

У меня есть такие данные
1 #VS 5 J9 C9 D9 I9 Z9 W9 S9 H9 LHRMIA 1235 1705 744 0E
K9 Y9 B9 R9 L9 U9 M9 E9 Q9 X9 N9 O9
2 #IB4637 F9 A9 J9 C9 D9 R9 I. W9 LHRMIA 1415 1825 * 744 0E
Z. Y9 B9 H9 K. M. L. V. S. N. Q. O.
3*O#AA 57 F7 A7 P7 J7 R7 D7 I7...

0 Ответы

17 Просмотры

Последнее сообщение Anonymous
26 июл 2024, 20:35
Pydantic - анализируйте список объектов из файла конфигурации YAML

Последнее сообщение Anonymous « 31 янв 2025, 20:27
Добавлено в форуме Python

Anonymous » 31 янв 2025, 20:27 » в форуме Python

Я хочу прочитать список объектов из файла yaml:
- entry1:
attribute: Test1
amount: 1
price: 123.45
- entry2:
attribute: Test1
amount: 10
price: 56.78

Для этой структуры данных я создал три вложенные модели следующим образом:
# Models
class...

0 Ответы

25 Просмотры

Последнее сообщение Anonymous
31 янв 2025, 20:27
Отобразить многоуровневую подкатегорию категории с помощью json и jquery.

Последнее сообщение Anonymous « 08 окт 2024, 14:50
Добавлено в форуме Php

Anonymous » 08 окт 2024, 14:50 » в форуме Php

Привет всем!
найдите приведенный ниже код для анализа данных json с помощью jquery на нескольких уровнях подкатегорий.
В настоящее время существует 3 подкатегории, я хочу предложить сценарий, как мы можно сделать его динамическим сценарием для...

0 Ответы

19 Просмотры

Последнее сообщение Anonymous
08 окт 2024, 14:50
Как создать простую многоуровневую диаграмму Санки с помощью Plotly?

Последнее сообщение Anonymous « 10 янв 2025, 21:09
Добавлено в форуме Python

Anonymous » 10 янв 2025, 21:09 » в форуме Python

У меня есть такой DataFrame, который я пытаюсь описать с помощью диаграммы Сэнки:
import pandas as pd

pd.DataFrame({
'animal': ,
'sex': ,
'status': ,
'count':
})

animal sex status count
0 dog male wild 8
1 cat female domesticated 10
2 cat...

0 Ответы

17 Просмотры

Последнее сообщение Anonymous
10 янв 2025, 21:09

Вернуться в «Python»