Как извлечь чистый японский текст из папки PDF в Python

Как извлечь чистый японский текст из папки PDF в Python ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Как извлечь чистый японский текст из папки PDF в Python

Цитата

Сообщение Anonymous » 07 ноя 2024, 09:19

Это мой код

Код: Выделить всё

import os

import PyPDF2

# set the directory where the PDF files are located
pdf_directory = '/Users/humnerohit/Desktop/test_pdf_files'

# loop through each file in the directory
for filename in os.listdir(pdf_directory):
if filename.endswith('.pdf'):
# create a PDF file object
pdf_file = open(os.path.join(pdf_directory, filename), 'rb')

# create a PDF reader object
pdf_reader = PyPDF2.PdfFileReader(pdf_file)

# loop through each page in the PDF file
text = ''
for page_num in range(pdf_reader.numPages):
# extract the text from the page
page = pdf_reader.getPage(page_num)
text += page.extractText()

# close the PDF file object
pdf_file.close()

# create a text file object
text_file = open(os.path.join(pdf_directory, filename[:-4] + '.txt'), 'w')

# write the extracted text to the text file
text_file.write(text)

# close the text file object
text_file.close()

вывод

Код: Выделить всё

gai003/gai003/gai004/gai003/gai003/gai004/gai003/gai003/gai004/gai003/gai003/gai004/gai003/gai003/gai004/gai003/gai003/gai004/gai003/gai003/gai004/gai003/gai003/gai004/gai003/gai003/gai004/gai003/gai003/gai004/gai003/gai003/gai004/gai003
಩খ຀ࢢදொͷ࠶։ൃϏϧɾαϯϓϥβớຊࣾ಩খ຀Ờͷখࢁ౻ࢢ࿠ձ௕ͱ੪౻ਗ਼ࣾ௕͕Ұ೔ỏब೚͍͋ͭ͞ͷͨΊ಩খ຀ຽใࣾΛ๚Εỏ த୔ࣾ࣍ܒ௕ͱ࠙ஊỐủத৺֗ͷ֩ళฮͱͯ͠ỏ
ޙࠓ΋ؤுΓ·͢Ứͱ๊ෛΛड़΂ͨỐ
Ӻલ࠶։ൃϏϧͱͯ͠Ұࣣࣣ۝೥ʹΦồϓϯͨ͠αϯϓϥβ͸ỏࠓ೥૑ۀೋेೋ೥໨Ố֩ςφϯτͷμΠΤồͱͷे೥ؒͷܖ໿Λऴ
͑ỏࡢ೥શؗϦχỿồΞϧͨ͠ỐҰ෦ỏςφϯτ༠க͕஗Ε͕ͨỏ͜ͷ΄ͲΊͲ͕͍ͭͨͨΊỏখࢁલࣾ௕͸ࡢ೥ेೋ݄ͷגओ૯ձͰୀ೚Λਃ͠ೖΕỐࡾ݄ࡾे೔ͷऔక໾ձͰঝೝ͞ΕͨỐ৽ࣾ௕ʹ͸ࡾ੕ͷ੪౻ਗ਼ࠪ؂໾Λબ೚Ốখࢯࢁ͸ձ௕ʹब೚ͨ͠Ố
খࢁձ௕͸ủࢥ͍ग़Λ࿩ͤ͹͖Γ͕ͳ͍Ứͱ໨ΛࡉΊủαϯϓϥβ͸మೆͷ֩Ͱͳ͚Ε͹ͳΒͳ͍Ứͱޙࠓͷళͮ͘ΓʹҙཉỐ੪౻ࣾ௕΋ủখࢁձ௕ͷԿ෼ͷҰ΋Ͱ͖ͳ͍ͱࢥ͏͕ỏैۀһʹڠྗͯ͠΋Βỳͯؤுỳ͍͖͍ͯͨỨͱܾҙΛड़΂ͨỐ଍ݩ͔Β஍ٿͷ۱
ʑ
·Ͱỏڥ؀ѱԽ͕ਂࠁͷ౓߹͍Λ૿͍ͯ͠ΔỐμΠΦΩγϯỏ ԹஆԽỏࢎੑӍỏΦκϯ૚ഁյỏੜ෺छݮগỏީؾมಈ
/gai007ỐڥࠃΛ௒͑ỏͦ͢໺Λ޿͛ͯ࣍ʑʹಥ͖෇͚ΒΕΔҟมʹỏ஍Ҭ͸Ͳ͏ཱͪ޲͔͏͔Ố͔ͭͯ͸ओʹ֐ެۀ࢈ͷࢹ؂ʹ஫ҙΛ෷͏͚ͩͩ

Текст извлекается из PDF-файла и сохраняется в той же папке с тем же именем и расширением .txt.
но кажется, что данные не преобразуется в японский текст.
Ожидается получение чистого японского текста в текстовый файл.
код, отображающий японский символ с нежелательными символами< /p>

Код: Выделить всё

import fitz
from mecab_text_cleaner import to_reading, to_ascii_clean

def pdf_to_text(pdf_path, txt_path):
# Open the PDF
pdf_document = fitz.open(pdf_path)

# Create a text file to store the extracted text
with open(txt_path, "w", encoding="utf-8") as text_file:
for page_number in range(len(pdf_document)):
page = pdf_document.load_page(page_number)
text = page.get_text()
text_file.write(text)

# Close the PDF
pdf_document.close()

# Example usage
pdf_path = "/Users/humnerohit/python_pdf_to_text/S19990401A10010001001.pdf"
txt_path = "/Users/humnerohit/python_pdf_to_text/S19990401A10010001001.txt"
pdf_to_text(pdf_path, txt_path)
print("PDF converted to text successfully!")

Подробнее здесь: https://stackoverflow.com/questions/791 ... -in-python

1730960383

Anonymous

Это мой код
[code]import os

import PyPDF2

# set the directory where the PDF files are located
pdf_directory = '/Users/humnerohit/Desktop/test_pdf_files'

# loop through each file in the directory
for filename in os.listdir(pdf_directory):
if filename.endswith('.pdf'):
# create a PDF file object
pdf_file = open(os.path.join(pdf_directory, filename), 'rb')

# create a PDF reader object
pdf_reader = PyPDF2.PdfFileReader(pdf_file)

# loop through each page in the PDF file
text = ''
for page_num in range(pdf_reader.numPages):
# extract the text from the page
page = pdf_reader.getPage(page_num)
text += page.extractText()

# close the PDF file object
pdf_file.close()

# create a text file object
text_file = open(os.path.join(pdf_directory, filename[:-4] + '.txt'), 'w')

# write the extracted text to the text file
text_file.write(text)

# close the text file object
text_file.close()

[/code]
вывод
[code]gai003/gai003/gai004/gai003/gai003/gai004/gai003/gai003/gai004/gai003/gai003/gai004/gai003/gai003/gai004/gai003/gai003/gai004/gai003/gai003/gai004/gai003/gai003/gai004/gai003/gai003/gai004/gai003/gai003/gai004/gai003/gai003/gai004/gai003
಩খ຀ࢢදொͷ࠶։ൃϏϧɾαϯϓϥβớຊࣾ಩খ຀Ờͷখࢁ౻ࢢ࿠ձ௕ͱ੪౻ਗ਼ࣾ௕͕Ұ೔ỏब೚͍͋ͭ͞ͷͨΊ಩খ຀ຽใࣾΛ๚Εỏ த୔ࣾ࣍ܒ௕ͱ࠙ஊỐủத৺֗ͷ֩ళฮͱͯ͠ỏ
ޙࠓ΋ؤுΓ·͢Ứͱ๊ෛΛड़΂ͨỐ
Ӻલ࠶։ൃϏϧͱͯ͠Ұࣣࣣ۝೥ʹΦồϓϯͨ͠αϯϓϥβ͸ỏࠓ೥૑ۀೋेೋ೥໨Ố֩ςφϯτͷμΠΤồͱͷे೥ؒͷܖ໿Λऴ
͑ỏࡢ೥શؗϦχỿồΞϧͨ͠ỐҰ෦ỏςφϯτ༠க͕஗Ε͕ͨỏ͜ͷ΄ͲΊͲ͕͍ͭͨͨΊỏখࢁલࣾ௕͸ࡢ೥ेೋ݄ͷגओ૯ձͰୀ೚Λਃ͠ೖΕỐࡾ݄ࡾे೔ͷऔక໾ձͰঝೝ͞ΕͨỐ৽ࣾ௕ʹ͸ࡾ੕ͷ੪౻ਗ਼ࠪ؂໾Λબ೚Ốখࢯࢁ͸ձ௕ʹब೚ͨ͠Ố
খࢁձ௕͸ủࢥ͍ग़Λ࿩ͤ͹͖Γ͕ͳ͍Ứͱ໨ΛࡉΊủαϯϓϥβ͸మೆͷ֩Ͱͳ͚Ε͹ͳΒͳ͍Ứͱޙࠓͷళͮ͘ΓʹҙཉỐ੪౻ࣾ௕΋ủখࢁձ௕ͷԿ෼ͷҰ΋Ͱ͖ͳ͍ͱࢥ͏͕ỏैۀһʹڠྗͯ͠΋Βỳͯؤுỳ͍͖͍ͯͨỨͱܾҙΛड़΂ͨỐ଍ݩ͔Β஍ٿͷ۱
ʑ
·Ͱỏڥ؀ѱԽ͕ਂࠁͷ౓߹͍Λ૿͍ͯ͠ΔỐμΠΦΩγϯỏ ԹஆԽỏࢎੑӍỏΦκϯ૚ഁյỏੜ෺छݮগỏީؾมಈ
/gai007ỐڥࠃΛ௒͑ỏͦ͢໺Λ޿͛ͯ࣍ʑʹಥ͖෇͚ΒΕΔҟมʹỏ஍Ҭ͸Ͳ͏ཱͪ޲͔͏͔Ố͔ͭͯ͸ओʹ֐ެۀ࢈ͷࢹ؂ʹ஫ҙΛ෷͏͚ͩͩ
[/code]
Текст извлекается из PDF-файла и сохраняется в той же папке с тем же именем и расширением .txt.
но кажется, что данные не преобразуется в японский текст.
Ожидается получение чистого японского текста в текстовый файл.
код, отображающий японский символ с нежелательными символами< /p>
[code]import fitz
from mecab_text_cleaner import to_reading, to_ascii_clean

def pdf_to_text(pdf_path, txt_path):
# Open the PDF
pdf_document = fitz.open(pdf_path)

# Create a text file to store the extracted text
with open(txt_path, "w", encoding="utf-8") as text_file:
for page_number in range(len(pdf_document)):
page = pdf_document.load_page(page_number)
text = page.get_text()
text_file.write(text)

# Close the PDF
pdf_document.close()

# Example usage
pdf_path = "/Users/humnerohit/python_pdf_to_text/S19990401A10010001001.pdf"
txt_path = "/Users/humnerohit/python_pdf_to_text/S19990401A10010001001.txt"
pdf_to_text(pdf_path, txt_path)
print("PDF converted to text successfully!")
[/code]
[img]https://i.sstatic.net/pBMLR3pf.png[/img]
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79102087/how-to-extract-clean-japanese-text-from-the-pdf-folder-in-python[/url]