Как точно извлечь заголовок, заголовки и подзаголовки из исследовательских статей в формате PDF? - Цифровое Кемерово

Как точно извлечь заголовок, заголовки и подзаголовки из исследовательских статей в формате PDF? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как точно извлечь заголовок, заголовки и подзаголовки из исследовательских статей в формате PDF?

Цитата

Сообщение Anonymous » 12 окт 2024, 02:38

Я пытаюсь извлечь заголовок, заголовки и подзаголовки из научных статей в формате PDF. Я пробовал различные подходы, но не смог получить точных результатов. Вот шаги, которые я предпринял:
1. Пробовал использовать PyMuPDF (fitz)
Я использовал PyMuPDF (fitz) для извлечения текста из PDF-файлов. Хотя мне удалось получить текст, проблема в том, что форматирование потеряно (например, заголовки и подзаголовки не различимы). Также присутствует лишний шум в других частях документа, таких как цитаты и сноски.
2. Использование языковых моделей
Я также экспериментировал с языковыми моделями подсказок (LLM) для анализа извлеченного текста. Я использовал Ollama для автономной обработки, но результаты оказались недостаточно точными. Когда я попробовал GPT и Gemini от OpenAI, они предоставили точные результаты, но мне нужно решение, работающее в автономном режиме.
Что я пробовал:

PyMuPDF (fitz)
Ollama (llama3.1, gemma)
OpenAI GPT и Gemini для точного извлечения, но они требуют использования в Интернете.
PyPDF2 и аналогичные библиотеки, но они также возвращают неструктурированный текст.

Что мне нужно:

Точное извлечение заголовка, заголовков и подзаголовков из научных статей в формате PDF.
Офлайн-решение.
Минимальный шум от дополнительного контента, такого как цитаты, номера страниц и т. д.

Есть ли надежный офлайн-метод или какие-то дополнительные шаги, которые я могу предпринять, чтобы:

Определить и точно извлечь заголовок, заголовки и подзаголовки.
Сведите к минимуму шум и ненужный контент в выходных данных.

Подробнее здесь: https://stackoverflow.com/questions/790 ... search-pap

Реклама

1728689886

Anonymous

Я пытаюсь извлечь заголовок, заголовки и подзаголовки из научных статей в формате PDF. Я пробовал различные подходы, но не смог получить точных результатов. Вот шаги, которые я предпринял:
[b]1. Пробовал использовать PyMuPDF (fitz)[/b]
Я использовал PyMuPDF (fitz) для извлечения текста из PDF-файлов. Хотя мне удалось получить текст, проблема в том, что форматирование потеряно (например, заголовки и подзаголовки не различимы). Также присутствует лишний шум в других частях документа, таких как цитаты и сноски.
[b]2. Использование языковых моделей[/b]
Я также экспериментировал с языковыми моделями подсказок (LLM) для анализа извлеченного текста. Я использовал Ollama для автономной обработки, но результаты оказались недостаточно точными. Когда я попробовал GPT и Gemini от OpenAI, они предоставили точные результаты, но мне нужно решение, работающее в автономном режиме.
[b]Что я пробовал:[/b]
[list]
[*]PyMuPDF (fitz)
[*]Ollama (llama3.1, gemma)
[*]OpenAI GPT и Gemini для точного извлечения, но они требуют использования в Интернете.
[*]PyPDF2 и аналогичные библиотеки, но они также возвращают неструктурированный текст.
[/list]
[b]Что мне нужно:[/b]
[list]
[*]Точное извлечение заголовка, заголовков и подзаголовков из научных статей в формате PDF.
Офлайн-решение.
[*]Минимальный шум от дополнительного контента, такого как цитаты, номера страниц и т. д.
[/list][b]Есть ли надежный офлайн-метод или какие-то дополнительные шаги, которые я могу предпринять, чтобы:[/b]
[list]
[*]Определить и точно извлечь заголовок, заголовки и подзаголовки.
[*]Сведите к минимуму шум и ненужный контент в выходных данных.
[/list] 

Подробнее здесь: [url]https://stackoverflow.com/questions/79050147/how-to-accurately-extract-title-headings-and-subheadings-from-pdf-research-pap[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как точно извлечь заголовок, заголовки и подзаголовки из исследовательских статей в формате PDF?

Последнее сообщение Anonymous « 03 окт 2024, 13:37
Добавлено в форуме Python

Anonymous » 03 окт 2024, 13:37 » в форуме Python

Я пытаюсь извлечь заголовок, заголовки и подзаголовки из научных статей в формате PDF. Я пробовал различные подходы, но не смог получить точных результатов. Вот шаги, которые я предпринял:
1. Пробовал использовать PyMuPDF (fitz).
Я использовал...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
03 окт 2024, 13:37
Как точно извлечь заголовок, заголовки и подзаголовки из исследовательских статей в формате PDF?

Последнее сообщение Anonymous « 12 окт 2024, 02:10
Добавлено в форуме Python

Anonymous » 12 окт 2024, 02:10 » в форуме Python

Я пытаюсь извлечь заголовок, заголовки и подзаголовки из научных статей в формате PDF. Я пробовал различные подходы, но не смог получить точных результатов. Вот шаги, которые я предпринял:
1. Пробовал использовать PyMuPDF (fitz)
Я использовал...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
12 окт 2024, 02:10
Извлечение данных из веб-адресов исследовательских статей

Последнее сообщение Anonymous « 03 дек 2024, 18:29
Добавлено в форуме Python

Anonymous » 03 дек 2024, 18:29 » в форуме Python

Мне нужна помощь с приложением, которое может извлекать ключевые сведения из журнальных статей. Например, абстрактное doi и другие соответствующие поля. Статьи могут находиться где угодно в Интернете. Соскребать красивый суп - очень длительная...

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
03 дек 2024, 18:29
Должен ли я хранить большое количество статей блога в MySql или хранить их индивидуально в файлах в формате .php или .ht

Последнее сообщение Anonymous « 21 окт 2023, 17:45
Добавлено в форуме Php

Anonymous » 21 окт 2023, 17:45 » в форуме Php

У меня есть более 1000 написанных статей в блоге, которые мне нужно продемонстрировать в блоге. Проблема, с которой я столкнулся (как новичок во всем этом), заключается в том, где мне их хранить? Я использую MySql (PhpMyAdmin) для хранения...

0 Ответы

118 Просмотры

Последнее сообщение Anonymous
21 окт 2023, 17:45
Запись словарных статей в правильном формате csv

Последнее сообщение Anonymous « 18 янв 2025, 08:52
Добавлено в форуме Python

Anonymous » 18 янв 2025, 08:52 » в форуме Python

У меня есть элемент словаря, в котором есть вопрос, ответ-0, ответ-1 и т. д. до 10. Числа ответов варьируются от 1 до 10.

например

{u'answer-0': u'Im the H4 visa holder (expiring Jun2018).\xa0 However I\u2019m a Class A misdemeanor, to offense...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
18 янв 2025, 08:52

Вернуться в «Python»

Programmiererforum