MarkItDown: недостающая документация – как использовать функции конвертации

MarkItDown: недостающая документация – как использовать функции конвертации ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

MarkItDown: недостающая документация – как использовать функции конвертации

Цитата

Сообщение Anonymous » 03 янв 2025, 15:15

Microsoft недавно выпустила MarkItDown, но документация по Python API довольно короткая (или мне не удалось ее найти).
Любая помощь в том, как разобраться в различных функциях он предлагает?
На данный момент единственная документация (на GitHub или PyPi):

Код: Выделить всё

from markitdown import MarkItDown

markitdown = MarkItDown()
result = markitdown.convert("")
print(result.text_content)

Это работает, но есть некоторые проблемы, которые преобразуются плохо — например, (1) если в PDF-файле есть несколько столбцов на каждой странице (например, научная статья), абзацы не всегда преобразовано правильно (даже нет пустого места при преобразовании между последним символом предыдущего и первым символом следующего); или (2) особенности таблиц/для таблиц.
Мне хотелось бы знать, например, как мне решить эти (и другие подобные) проблемы?

Помощь по набору текста (MarkItDown) также невелика.

Подробнее здесь: https://stackoverflow.com/questions/793 ... n-features

1735906502

Anonymous

Microsoft недавно выпустила MarkItDown, но документация по Python API довольно короткая (или мне не удалось ее найти).
Любая помощь в том, как разобраться в различных функциях он предлагает?
На данный момент единственная документация (на GitHub или PyPi):
[code]from markitdown import MarkItDown

markitdown = MarkItDown()
result = markitdown.convert("")
print(result.text_content)
[/code]
Это работает, но есть некоторые проблемы, которые преобразуются плохо — например, (1) если в PDF-файле есть несколько столбцов на каждой странице (например, научная статья), абзацы не всегда преобразовано правильно (даже нет пустого места при преобразовании между последним символом предыдущего и первым символом следующего); или (2) особенности таблиц/для таблиц.
Мне хотелось бы знать, например, как мне решить эти (и другие подобные) проблемы?

Помощь по набору текста (MarkItDown) также невелика. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79326433/markitdown-missing-documentation-how-to-use-conversion-features[/url]