Клиентское однофайловое JS-решение для извлечения текста DOCX и PDF Vanilla JS/Lightweight Lib

Клиентское однофайловое JS-решение для извлечения текста DOCX и PDF Vanilla JS/Lightweight Lib ⇐ Html

1 сообщение • Страница 1 из 1

Anonymous

Клиентское однофайловое JS-решение для извлечения текста DOCX и PDF Vanilla JS/Lightweight Lib

Сообщение Anonymous » 21 ноя 2025, 23:50

Я работаю над приложением на чистом HTML/JavaScript (Vanilla JS, однофайловая установка), которое должно работать без серверной части Node или сложных инструментов сборки.
Цель состоит в том, чтобы добиться извлечения текста на стороне клиента из файлов DOCX и PDF сразу после того, как пользователь выбирает файл с помощью элемента . Извлеченный открытый текст необходимо загрузить в простой элемент .
Я осознаю всю сложность этого (декодирование двоичного формата в браузере) и уже рассмотрел обычные подозреваемые, такие как pdf.js-dist и mammoth.js. Однако эти библиотеки часто слишком громоздки для установки одного файла или требуют сложных механизмов импорта, которые неосуществимы в этой среде.
Мой вопрос:
Существует ли текущее, облегченное или нетрадиционное решение/библиотека JavaScript (в идеале такое, которое можно включить с помощью одного тега или интегрировать непосредственно в HTML), которое позволяет надежно извлекать текст из следующих форматы:
1. DOCX: Извлечение основного текста.
2. PDF: Извлечение простого текстового содержимого (желательно без сложного рендеринга Canvas, только необработанный текст).
Будем очень признательны за любые указания на современное, производительное решение, которое сводит к минимуму зависимости.
Заранее благодарим вас за ваше время и опыт. С уважением, Михаил

Подробнее здесь: https://stackoverflow.com/questions/798 ... vanilla-js

Anonymous

1 сообщение • Страница 1 из 1

Вернуться в «Html»