Я пытаюсь использовать метод Setlanguage Tesseractocrparser в Apache Tika в Java. Когда я передаю какой -либо индийский язык, такой как хинди, маратхи, тамильский и т. Д., Это не работает и до сих пор отображает данные на английском языке.TesseractOCRParser tesserparser= new TesseractOCRParser();
tesserparser.setTessdataPath("C:\\Program Files\\Tesseract-OCR\\tessdata");
tesserparser.setLanguage("hin");
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
ParseContext context = new ParseContext();
context.set(TesseractOCRParser.class, tesserparser);
// AutoDetectParser will examine the file type and invoke the OCR parser if it sees an image
AutoDetectParser parser = new AutoDetectParser();
parser.parse(input, handler, metadata, context);
< /code>
Моя версия Java - 17.0.14
maven - 3.9.9
tesseract - 5.5 < /p>
Подробнее здесь: https://stackoverflow.com/questions/795 ... pache-tika