Как сохранить строки в строках в спискеPython

Программы на Python
Ответить
Anonymous
 Как сохранить строки в строках в списке

Сообщение Anonymous »

Я пытаюсь создать набор данных для обучения Llama3, точнее набор данных с примерами экзаменационных вопросов.
Но когда я пытаюсь добавить удаленные вопросы в файл, который я использовал для тонкой настройки вопрос весь в одной строке, а не в переносах строк.

Код: Выделить всё

import pytesseract
import cv2
import pypdf
import re

reader = pypdf.PdfReader(r'C:\Users\kenco\OneDrive\Desktop\AI Stuff\llms\exam_emulation\papers\example_pdf.pdf')

questions = []
found = False
question = """"""
for page in reader.pages:
text = page.extract_text()
text = re.sub(r'[^\x20-\x7E]', '', text)
lines = text.splitlines()
start = 0
for line in text.splitlines():
question += line + '\n'
if 'Q u e s t i o n' in line:
questions.append(question)
question = """"""

with open('extracted_text.txt', 'w') as file:
for question in questions:
file.write(question)
file.write('\n')
Как видите, я пытался добавить новую строку после добавления каждой строки, но это все равно не сработало. Вот пример вывода (игнорируйте отсутствие пробелов)

Код: Выделить всё

 (50marks)(a) AnewLeisureCentreiso peninginyourareaandanumberofpositions(jobs)willhavetobefilledwithinthecentre.NamethreepositionsthatwillhavetobefilledintheLeisureCentreanddescribeoned u t y  o f  e a c h  p o s i t i o n .  (14marks)Position Duty1. 2. 3. (b)  (12marks)ListthreeActiveLeisureactivitiesthatattracttouriststoFrance.1.________________________________________________________________________2._______________________________
Вместо того, чтобы пытаться добавить новую строку, я попытался заменить ее специальным символом (\uf0fc), чтобы затем заменить ее при записи в файл с помощью

Код: Выделить всё

question.replace('\uf0fc', '\n')
Но все равно не повезло

Подробнее здесь: https://stackoverflow.com/questions/793 ... hin-a-list
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»