Setlanguage не работает в TeesseerActocrparser для Apache TikaJAVA

Программисты JAVA общаются здесь
Anonymous
Setlanguage не работает в TeesseerActocrparser для Apache Tika

Сообщение Anonymous »

Я пытаюсь использовать метод Setlanguage Tesseractocrparser в Apache Tika в Java. Когда я передаю какой -либо индийский язык, такой как хинди, маратхи, тамильский и т. Д., Это не работает и до сих пор отображает данные на английском языке.TesseractOCRParser tesserparser= new TesseractOCRParser();

tesserparser.setTessdataPath("C:\\Program Files\\Tesseract-OCR\\tessdata");

tesserparser.setLanguage("hin");

BodyContentHandler handler = new BodyContentHandler();

Metadata metadata = new Metadata();

ParseContext context = new ParseContext();

context.set(TesseractOCRParser.class, tesserparser);

// AutoDetectParser will examine the file type and invoke the OCR parser if it sees an image
AutoDetectParser parser = new AutoDetectParser();

parser.parse(input, handler, metadata, context);
< /code>
Моя версия Java - 17.0.14
maven - 3.9.9
tesseract - 5.5 < /p>

Подробнее здесь: https://stackoverflow.com/questions/795 ... pache-tika

Вернуться в «JAVA»