Клиентское однофайловое JS-решение для извлечения текста DOCX и PDF Vanilla JS/Lightweight LibHtml

Программисты Html
Ответить
Anonymous
 Клиентское однофайловое JS-решение для извлечения текста DOCX и PDF Vanilla JS/Lightweight Lib

Сообщение Anonymous »

Я работаю над приложением на чистом HTML/JavaScript (Vanilla JS, однофайловая установка), которое должно работать без серверной части Node или сложных инструментов сборки.
Цель состоит в том, чтобы добиться извлечения текста на стороне клиента из файлов DOCX и PDF сразу после того, как пользователь выбирает файл с помощью элемента . Извлеченный открытый текст необходимо загрузить в простой элемент .
Я осознаю всю сложность этого (декодирование двоичного формата в браузере) и уже рассмотрел обычные подозреваемые, такие как pdf.js-dist и mammoth.js. Однако эти библиотеки часто слишком громоздки для установки одного файла или требуют сложных механизмов импорта, которые неосуществимы в этой среде.
Мой вопрос:
Существует ли текущее, облегченное или нетрадиционное решение/библиотека JavaScript (в идеале такое, которое можно включить с помощью одного тега или интегрировать непосредственно в HTML), которое позволяет надежно извлекать текст из следующих форматы:
1.      DOCX: Извлечение основного текста.
2.      PDF: Извлечение простого текстового содержимого (желательно без сложного рендеринга Canvas, только необработанный текст).
Будем очень признательны за любые указания на современное, производительное решение, которое сводит к минимуму зависимости.
Заранее благодарим вас за ваше время и опыт. С уважением, Михаил

Подробнее здесь: https://stackoverflow.com/questions/798 ... vanilla-js
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Html»