Необходимо извлечь встроенные файлы из документа Word, где в файле доступны pdf, word, xslx, zip.

Необходимо извлечь встроенные файлы из документа Word, где в файле доступны pdf, word, xslx, zip. ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Необходимо извлечь встроенные файлы из документа Word, где в файле доступны pdf, word, xslx, zip.

Цитата

Сообщение Anonymous » 04 дек 2024, 14:38

Я извлек встроенные файлы с помощью lxml docx в содержимое xml и проверил наличие слов/вложений. Я могу извлечь файлы docx, xslx, поскольку они сохранены в том же формате в xml. Но для файлов pdf и zip он извлекается из встроенных файлов как формат .bin. Я попробовал извлечь файлы PDF из файлов формата .bin и сохранить. Но я не могу сделать то же самое для zip-файла. В настоящее время внутри моего zip-файла есть файл изображения (tif), но это может быть что угодно в формате PDF или что-то еще, что мне нужно извлечь в формате .zip и сохранить.

Код: Выделить всё

def extract_embedded_files_from_docx(self,docx_file):
"""
Extracts embedded files from a DOCX file.
"""
embedded_files = {}

azure_func = Azure()

blob_data = azure_func.read_file(
file_path=docx_file, is_text_content=False
)

# Open the DOCX file (which is a ZIP archive)
with zipfile.ZipFile(BytesIO(blob_data), 'r') as docx_zip:
# Iterate through files in the DOCX zip to find embedded files
for file in docx_zip.namelist():
if file.startswith('word/embeddings/'):
file_name = os.path.basename(file)
bin_file_data = docx_zip.read(file)
# Check if the file is an oleObject*.bin (which could be PDFs or other file types)
if file_name.startswith('oleObject') and file_name.endswith('.bin'):
# Use python-magic to detect the file type

mime = magic.Magic(mime=True)
file_type = mime.from_buffer(bin_file_data)

if file_type == 'application/CDFV2':
# Open the CDFV2 (OLE) file using olefile
ole = olefile.OleFileIO(BytesIO(bin_file_data))

embedded_file_name = self.extract_file_name_from_ole(ole)

# List the available storages/streams in the CDFV2 file
storages = ole.listdir()
print("Storages in CDFV2 file:", storages)

# Extract from the 'CONTENTS' stream
if ['CONTENTS'] in storages:
# Extract the file content from the 'CONTENTS' stream
file_data = ole.openstream(['CONTENTS']).read()
print(f"Extracted content from 'CONTENTS' stream.")
else:
# Try extracting data from '\x01Ole' or '\x01Ole10Native'
file_data = None
for storage in storages:
if storage in [['\x01Ole'], ['\x01Ole10Native']]:
print(f"Found embedded file in {storage}.  Extracting data...")
file_data = ole.openstream(storage).read()
break
# Use magic to check file type (e.g., PDF, Excel, etc.)
embedded_file_type = magic.Magic(mime=True).from_buffer(file_data)

if embedded_file_type == 'application/octet-stream':
if len(storages) 

Подробнее здесь: [url]https://stackoverflow.com/questions/79251011/need-to-extract-embedded-files-from-word-document-where-pdf-word-xslx-zip-a[/url]

1733312339

Anonymous

Я извлек встроенные файлы с помощью lxml docx в содержимое xml и проверил наличие слов/вложений. Я могу извлечь файлы docx, xslx, поскольку они сохранены в том же формате в xml. Но для файлов pdf и zip он извлекается из встроенных файлов как формат .bin. Я попробовал извлечь файлы PDF из файлов формата .bin и сохранить. Но я не могу сделать то же самое для zip-файла. В настоящее время внутри моего zip-файла есть файл изображения (tif), но это может быть что угодно в формате PDF или что-то еще, что мне нужно извлечь в формате .zip и сохранить.
[code]def extract_embedded_files_from_docx(self,docx_file):
"""
Extracts embedded files from a DOCX file.
"""
embedded_files = {}

azure_func = Azure()

blob_data = azure_func.read_file(
file_path=docx_file, is_text_content=False
)

# Open the DOCX file (which is a ZIP archive)
with zipfile.ZipFile(BytesIO(blob_data), 'r') as docx_zip:
# Iterate through files in the DOCX zip to find embedded files
for file in docx_zip.namelist():
if file.startswith('word/embeddings/'):
file_name = os.path.basename(file)
bin_file_data = docx_zip.read(file)
# Check if the file is an oleObject*.bin (which could be PDFs or other file types)
if file_name.startswith('oleObject') and file_name.endswith('.bin'):
# Use python-magic to detect the file type

mime = magic.Magic(mime=True)
file_type = mime.from_buffer(bin_file_data)

if file_type == 'application/CDFV2':
# Open the CDFV2 (OLE) file using olefile
ole = olefile.OleFileIO(BytesIO(bin_file_data))

embedded_file_name = self.extract_file_name_from_ole(ole)

# List the available storages/streams in the CDFV2 file
storages = ole.listdir()
print("Storages in CDFV2 file:", storages)

# Extract from the 'CONTENTS' stream
if ['CONTENTS'] in storages:
# Extract the file content from the 'CONTENTS' stream
file_data = ole.openstream(['CONTENTS']).read()
print(f"Extracted content from 'CONTENTS' stream.")
else:
# Try extracting data from '\x01Ole' or '\x01Ole10Native'
file_data = None
for storage in storages:
if storage in [['\x01Ole'], ['\x01Ole10Native']]:
print(f"Found embedded file in {storage}.  Extracting data...")
file_data = ole.openstream(storage).read()
break
# Use magic to check file type (e.g., PDF, Excel, etc.)
embedded_file_type = magic.Magic(mime=True).from_buffer(file_data)

if embedded_file_type == 'application/octet-stream':
if len(storages) 

Подробнее здесь: [url]https://stackoverflow.com/questions/79251011/need-to-extract-embedded-files-from-word-document-where-pdf-word-xslx-zip-a[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Автоматически загружать панель задач во вновь созданном документе Word из существующего документа Word в проекте Word, д

Последнее сообщение Anonymous « 07 окт 2024, 21:22
Добавлено в форуме C#

Anonymous » 07 окт 2024, 21:22 » в форуме C#

Я создал новый документ Word на основе существующего документа Word в проекте надстройки Word Blazor. Я хочу добавить содержимое в новый документ Word, а также загрузить панель задач в новый документ Word, аналогичный существующей панели задач Word....

0 Ответы

155 Просмотры

Последнее сообщение Anonymous
07 окт 2024, 21:22
Автоматически загружать панель задач во вновь созданном документе Word из существующего документа Word в проекте Word, д

Последнее сообщение Anonymous « 07 окт 2024, 21:22
Добавлено в форуме Jquery

Anonymous » 07 окт 2024, 21:22 » в форуме Jquery

Я создал новый документ Word на основе существующего документа Word в проекте надстройки Word Blazor. Я хочу добавить содержимое в новый документ Word, а также загрузить панель задач в новый документ Word, аналогичный существующей панели задач Word....

0 Ответы

105 Просмотры

Последнее сообщение Anonymous
07 окт 2024, 21:22
Ниже приведен код. Я использую библиотеку XSLX для группировки моей строки с уровнями структуры, с которыми она работает

Последнее сообщение Гость « 25 сен 2023, 09:44
Добавлено в форуме Javascript

Гость » 25 сен 2023, 09:44 » в форуме Javascript

В приведенном ниже коде я использую библиотеку XSLX для группировки моей строки с уровнями структуры, с которыми она работает - петь, но я хочу сделать + петь с уже свернутым.
let a = 4, b = 11; for (let indexrow = 0; indexrow <...

0 Ответы

77 Просмотры

Последнее сообщение Гость
25 сен 2023, 09:44
Как я могу извлечь таблицы из изображения в PDF-файле или отсканированном PDF-файле?

Последнее сообщение Anonymous « 17 дек 2024, 18:30
Добавлено в форуме Python

Anonymous » 17 дек 2024, 18:30 » в форуме Python

Задание состоит в том, чтобы извлечь таблицу из отсканированного PDF-файла. Я пробовал использовать Camelot/tabula, но ничего не помогло.
Есть предложения по извлечению таблиц?
Пример

Камелот/tabula ни один из они обнаруживают стол.

Прикрепил...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
17 дек 2024, 18:30
Как удалить дизайн таблицы со страницы документа Word с помощью JavaScript? Надстройка Word JS

Последнее сообщение Гость « 25 сен 2023, 09:28
Добавлено в форуме Javascript

Гость » 25 сен 2023, 09:28 » в форуме Javascript

Я вставляю дизайн таблицы в документ Word на последнюю страницу из таблицы html. как я могу удалить это это мой код

асинхронная функция NewMap() { пытаться { await Word.run(async (context) => { /*--html в word- //-- word в html--- * / вар тело =...

0 Ответы

124 Просмотры

Последнее сообщение Гость
25 сен 2023, 09:28

Вернуться в «Python»