Мой код:
Код: Выделить всё
pipeline_options = PdfPipelineOptions()
pipeline_options.do_ocr = True
pipeline_options.do_table_structure = True
pipeline_options.table_structure_options.do_cell_matching = True
pipeline_options.ocr_options = TesseractOcrOptions()
doc_converter = DocumentConverter(
format_options={
InputFormat.PDF: PdfFormatOption(pipeline_options=pipeline_options)
}
)
Код: Выделить всё
self.reader = tesserocr.PyTessBaseAPI(
lang=lang,
psm=main_psm,
**tesserocr_kwargs,
)
Подробнее здесь: https://stackoverflow.com/questions/798 ... -wont-init
Мобильная версия