MarkItDown: недостающая документация – как использовать функции конвертацииPython

Программы на Python
Ответить
Anonymous
 MarkItDown: недостающая документация – как использовать функции конвертации

Сообщение Anonymous »

Microsoft недавно выпустила MarkItDown, но документация по Python API довольно короткая (или мне не удалось ее найти).
Любая помощь в том, как разобраться в различных функциях он предлагает?
На данный момент единственная документация (на GitHub или PyPi):

Код: Выделить всё

from markitdown import MarkItDown

markitdown = MarkItDown()
result = markitdown.convert("")
print(result.text_content)
Это работает, но есть некоторые проблемы, которые преобразуются плохо — например, (1) если в PDF-файле есть несколько столбцов на каждой странице (например, научная статья), абзацы не всегда преобразовано правильно (даже нет пустого места при преобразовании между последним символом предыдущего и первым символом следующего); или (2) особенности таблиц/для таблиц.
Мне хотелось бы знать, например, как мне решить эти (и другие подобные) проблемы?

Помощь по набору текста (MarkItDown) также невелика.

Подробнее здесь: https://stackoverflow.com/questions/793 ... n-features
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»