Как использовать Python-Docx для извлечения абзацев между заголовком и таблицей

Как использовать Python-Docx для извлечения абзацев между заголовком и таблицей ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Как использовать Python-Docx для извлечения абзацев между заголовком и таблицей

Цитата

Сообщение Anonymous » 10 июл 2024, 21:36

Я использую Python-docx для работы с несколькими большими текстовыми документами, извлечения заголовков, абзацев и содержимого таблиц и помещения их в Excel. Код работает хорошо, ЗА ИСКЛЮЧЕНИЕМ случаев, когда между заголовком и таблицей имеется несколько абзацев. Я порылся в документации и безуспешно искал решение в Google.
Когда содержимое Word выглядит так, мой код работает нормально.
< ol>
[*]Первый абзац – это текст со стилем заголовка 1, начинающийся с '['
[*]Второй абзац – "обычный" текст
< li>Таблица с несколькими полями текста

Когда содержимое Word выглядит так, мой код не работает должным образом. Код помещает второй, третий и четвертый абзацы не в то место.

Первый абзац представляет собой текст со стилем заголовка 1, который начинается с '[' >
Второй абзац — «обычный» текст.
Третий абзац — «обычный» текст.
Четвертый абзац — «обычный». text
Таблица с несколькими полями текста

Что я хочу:

Первый абзац представляет собой текст со стилем заголовка 1, который начинается с '[' и записывается в мой список заголовков
Объедините эти абзацы в один фрагмент текста
2) Второй абзац это «обычный» текст
3) Третий абзац — «обычный» текст
4) Четвертый абзац — «обычный» текст
Таблица с несколькими полями текста для записи мой список строковых данных работает отлично

Вот фрагмент кода, который читается в заголовках и абзацах.

Код: Выделить всё

#######################################################################################################
# Define the function that will read in the headings from the Word document
def iter_headings(paragraphs):
for paragraph in paragraphs:
if paragraph.style.name.startswith('Heading') and paragraph.text.startswith('['):
Req_Name.append(paragraph.text)
return Req_Name

#######################################################################################################
# Define the function that will read in the paragraph text from the Word document
def iter_text(paragraphs):
for paragraph in paragraphs:
if paragraph.style.name.startswith('Normal') and paragraph.text:
Req_Text.append(paragraph.text)
return Req_Text

#######################################################################################################

for paragraph in iter_headings(doc.paragraphs):
Req_Name

Req_Name=pd.DataFrame(Req_Name)
Req_Name.to_excel('req_name.xlsx')

# # Read in the requirement text
for paragraph in iter_text(doc.paragraphs):
Req_Text

Req_Name=pd.DataFrame(Req_Name)

# Read in the tabular data from word
for i in range(0, tableCount):
table = doc.tables[i]
if table.cell(0, 0).text != 'Rationale': continue
print('i = ', i)
reqCount=reqCount+1

# Extract cell contents
Rationale = table.cell(0, 1).text
Crit_Cat = table.cell(1, 1).text
Defining = table.cell(2, 1).text
Complying = table.cell(3, 1).text
Conflicting = table.cell(4, 1).text
Valid_Strat = table.cell(5, 1).text
Valid_Result = table.cell(6, 1).text
Valid_Status = table.cell(7, 1).text
Verify_Strat = table.cell(8, 1).text
Verify_Result = table.cell(9, 1).text
Verify_Status = table.cell(10, 1).text

lineData=(Rationale, Crit_Cat, Defining, Complying, Conflicting, Valid_Strat,
Valid_Result, Valid_Status, Verify_Strat, Verify_Strat, Verify_Result, Verify_Status)

Я думаю, что мне нужно определить, когда начинается таблица, а затем объединить все абзацы между заголовком начала таблицы в один фрагмент текста, но я не могу понять, как определить начало таблицы.
Как далеко я от базы и есть ли более простой способ??

Подробнее здесь: https://stackoverflow.com/questions/787 ... and-a-tabl

1720636591

Anonymous

Я использую Python-docx для работы с несколькими большими текстовыми документами, извлечения заголовков, абзацев и содержимого таблиц и помещения их в Excel.  Код работает хорошо, ЗА ИСКЛЮЧЕНИЕМ случаев, когда между заголовком и таблицей имеется несколько абзацев.  Я порылся в документации и безуспешно искал решение в Google.
Когда содержимое Word выглядит так, мой код работает нормально.
< ol>
[*]Первый абзац – это текст со стилем заголовка 1, начинающийся с '['
[*]Второй абзац – "обычный" текст
< li>Таблица с несколькими полями текста

Когда содержимое Word выглядит так, мой код не работает должным образом.  Код помещает второй, третий и четвертый абзацы не в то место.
[list]
[*]Первый абзац представляет собой текст со стилем заголовка 1, который начинается с '[' >
[*]Второй абзац — «обычный» текст.
[*]Третий абзац — «обычный» текст.
[*]Четвертый абзац — «обычный». text
[*]Таблица с несколькими полями текста
[/list]
Что я хочу:
[list]
[*]Первый абзац представляет собой текст со стилем заголовка 1, который начинается с '[' и записывается в мой список заголовков
Объедините эти абзацы в один фрагмент текста
2) Второй абзац это «обычный» текст
3) Третий абзац — «обычный» текст
4) Четвертый абзац — «обычный» текст
[*]Таблица с несколькими полями текста для записи мой список строковых данных работает отлично
[/list]
Вот фрагмент кода, который читается в заголовках и абзацах.
[code]#######################################################################################################
# Define the function that will read in the headings from the Word document
def iter_headings(paragraphs):
for paragraph in paragraphs:
if paragraph.style.name.startswith('Heading') and paragraph.text.startswith('['):
Req_Name.append(paragraph.text)
return Req_Name

#######################################################################################################
# Define the function that will read in the paragraph text from the Word document
def iter_text(paragraphs):
for paragraph in paragraphs:
if paragraph.style.name.startswith('Normal') and paragraph.text:
Req_Text.append(paragraph.text)
return Req_Text

#######################################################################################################

for paragraph in iter_headings(doc.paragraphs):
Req_Name

Req_Name=pd.DataFrame(Req_Name)
Req_Name.to_excel('req_name.xlsx')

# # Read in the requirement text
for paragraph in iter_text(doc.paragraphs):
Req_Text

Req_Name=pd.DataFrame(Req_Name)

# Read in the tabular data from word
for i in range(0, tableCount):
table = doc.tables[i]
if table.cell(0, 0).text != 'Rationale': continue
print('i = ', i)
reqCount=reqCount+1

# Extract cell contents
Rationale = table.cell(0, 1).text
Crit_Cat = table.cell(1, 1).text
Defining = table.cell(2, 1).text
Complying = table.cell(3, 1).text
Conflicting = table.cell(4, 1).text
Valid_Strat = table.cell(5, 1).text
Valid_Result = table.cell(6, 1).text
Valid_Status = table.cell(7, 1).text
Verify_Strat = table.cell(8, 1).text
Verify_Result = table.cell(9, 1).text
Verify_Status = table.cell(10, 1).text

lineData=(Rationale, Crit_Cat, Defining, Complying, Conflicting, Valid_Strat,
Valid_Result, Valid_Status, Verify_Strat, Verify_Strat, Verify_Result, Verify_Status)
[/code]
Я думаю, что мне нужно определить, когда начинается таблица, а затем объединить все абзацы между заголовком начала таблицы в один фрагмент текста, но я не могу понять, как определить начало таблицы.
Как далеко я от базы и есть ли более простой способ?? 

Подробнее здесь: [url]https://stackoverflow.com/questions/78732253/how-to-use-python-docx-to-extract-the-paragraphs-in-between-a-heading-and-a-tabl[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

OpenXML body.Elements() пуст при извлечении абзацев из DOCX в .NET 8

Последнее сообщение Anonymous « 20 окт 2024, 17:04
Добавлено в форуме C#

Anonymous » 20 окт 2024, 17:04 » в форуме C#

Я работаю над проектом .NET 8, где мне нужно прочитать содержимое файла DOCX с точным форматированием (пробелы, разрыв строки и разрыв абзаца), используя класс WordprocessingDocument из DocumentFormat.OpenXml. Пространство имен упаковки.
Я...

0 Ответы

25 Просмотры

Последнее сообщение Anonymous
20 окт 2024, 17:04
Используйте pdfplumber для извлечения абзацев

Последнее сообщение Anonymous « 27 июн 2024, 16:39
Добавлено в форуме Python

Anonymous » 27 июн 2024, 16:39 » в форуме Python

Я использую pdfplumber для извлечения текста из PDF-файла. Я могу извлечь строки текста, но у меня возникли проблемы с извлечением абзаца. Вот текущий код, который у меня есть.
Пример текста, который я хочу извлечь:
Название абзаца
Боль сама по себе...

0 Ответы

25 Просмотры

Последнее сообщение Anonymous
27 июн 2024, 16:39
Как применить разницу между основным заголовком оси Y и заголовком подграфика по оси Y

Последнее сообщение Anonymous « 16 июл 2024, 14:47
Добавлено в форуме Python

Anonymous » 16 июл 2024, 14:47 » в форуме Python

Я создал два объекта тепловой карты и хочу объединить их в один подграфик. Пока что отследить их и собрать вместе удалось. Однако я не могу добавить интервал между make_subplot y_title и присутствующими заголовками подзаголовков. В документации по...

0 Ответы

42 Просмотры

Последнее сообщение Anonymous
16 июл 2024, 14:47
Совместите значок с заголовком, пока текст начинается под заголовком

Последнее сообщение Anonymous « 16 май 2025, 20:15
Добавлено в форуме Html

Anonymous » 16 май 2025, 20:15 » в форуме Html

Я хочу выравнивать иконку с головой , чтобы оба элемента были вертикально выровнены друг с другом, в то время как текст все еще начинается под заголовком:

align-items: center работает, если элемент text не существует. Я ценю любую помощь!
Мой...

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
16 май 2025, 20:15
Совместите значок с заголовком, пока текст начинается под заголовком

Последнее сообщение Anonymous « 16 май 2025, 20:15
Добавлено в форуме CSS

Anonymous » 16 май 2025, 20:15 » в форуме CSS

Я хочу выравнивать иконку с головой , чтобы оба элемента были вертикально выровнены друг с другом, в то время как текст все еще начинается под заголовком:

align-items: center работает, если элемент text не существует. Я ценю любую помощь!
Мой...

0 Ответы

8 Просмотры

Последнее сообщение Anonymous
16 май 2025, 20:15

Вернуться в «Python»