Как обнаружить тип MIME из файлового буфера в Python, особенно для устаревших офисных форматов, таких как .xls, .doc, .p

Как обнаружить тип MIME из файлового буфера в Python, особенно для устаревших офисных форматов, таких как .xls, .doc, .p ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Как обнаружить тип MIME из файлового буфера в Python, особенно для устаревших офисных форматов, таких как .xls, .doc, .p

Цитата

Сообщение Anonymous » 25 апр 2025, 22:52

Я строю библиотеку Python общего назначения для извлечения текста, которая должна поддерживать ввод из любого:

Путь файла (например, STR, указывающий на локальный файл), < /li>
< /ul>
или 

или 

< /ul>
Чтобы решить, какую функцию извлечения вызывает, мне нужно обнаружить тип файла MIME.
Код: Выделить всё
```
import magic

file_input.seek(0)
mime_type = magic.Magic(mime=True).from_buffer(file_input.read(2048))
file_input.seek(0)
< /code>
Это хорошо работает для современных форматов, таких как PDF, DOCX, XLSX и т. Д., Но не для устаревших форматов офиса Microsoft, таких как .xls, .doc, .ppt. 
Для них обнаруженный тип Mime всегда: 
application/x-ole-storage
```
Это означает, что я не могу различать .doc и .xls из буфера, если я уже не знаю исходное имя файла или расширение - что может быть недоступно (например, если файл транслируется или загружается). /> magic.from_file(path) работает хорошо-но, очевидно, требует реального файла
path < /li>
FileType легкий, но не поддерживает .xls /.doc < /li>
mimeTypes.gyess_type (). parsing with xlrd, or looking for streams
inside the OLE2 structure

This works, but is fragile and a bit ugly

[*]Embedding extension in metadata (e.g., as a side-channel) — not ideal
for generic libraries
< /ul>

Вопрос 
Есть ли лучший способ обнаружить тип типа MIME файла, данный только буфер Bytesio, особенно для устаревших форматов, таких как .xls, .doc и .ppt? Работает даже в потоковых или основанных на загрузке контекстах и не зависит от расширений файлов? Только.

Подробнее здесь: https://stackoverflow.com/questions/795 ... egacy-offi

1745610761

Anonymous

 Я строю библиотеку Python общего назначения для извлечения текста, которая должна поддерживать ввод из любого: < /p>
[list]
[*] Путь файла (например, STR, указывающий на локальный файл), < /li>
< /ul>
или < /p>


или < /p>


< /ul>
Чтобы решить, какую функцию извлечения вызывает, мне нужно обнаружить тип файла MIME.[code]import magic

file_input.seek(0)
mime_type = magic.Magic(mime=True).from_buffer(file_input.read(2048))
file_input.seek(0)
< /code>
Это хорошо работает для современных форматов, таких как PDF, DOCX, XLSX и т. Д., Но не для устаревших форматов офиса Microsoft, таких как .xls, .doc, .ppt. < /p>
Для них обнаруженный тип Mime всегда: < /p>
application/x-ole-storage
[/code]
Это означает, что я не могу различать .doc и .xls из буфера, если я уже не знаю исходное имя файла или расширение - что может быть недоступно (например, если файл транслируется или загружается). /> magic.from_file(path) работает хорошо-но, очевидно, требует реального файла
path < /li>
 FileType легкий, но не поддерживает .xls /.doc < /li>
 mimeTypes.gyess_type (). parsing with xlrd, or looking for streams
inside the OLE2 structure

This works, but is fragile and a bit ugly
[/list]

[*]Embedding extension in metadata (e.g., as a side-channel) — not ideal
for generic libraries
< /ul>
❓  Вопрос < /strong>
Есть ли лучший способ обнаружить тип типа MIME файла, данный только буфер Bytesio, особенно для устаревших форматов, таких как .xls, .doc и .ppt? Работает даже в потоковых или основанных на загрузке контекстах и не зависит от расширений файлов? Только. 🚀  

Подробнее здесь: [url]https://stackoverflow.com/questions/79593227/how-to-detect-mime-type-from-a-file-buffer-in-python-especially-for-legacy-offi[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как обнаружить тип MIME из файлового буфера в Python, особенно для устаревших офисных форматов, таких как .xls, .doc, .p

Последнее сообщение Anonymous « 07 май 2025, 19:30
Добавлено в форуме Python

Anonymous » 07 май 2025, 19:30 » в форуме Python

Я строю библиотеку Python общего назначения для извлечения текста, которая должна поддерживать ввод из любого:

Путь файла (например, STR, указывающий на локальный файл),

или

или

Чтобы решить, какую функцию извлечения вызывает, мне...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
07 май 2025, 19:30
Включена строгая проверка типа mime, отказ выполнять скрипт из '<url>', его тип mime («text/plain») не является исполняе

Последнее сообщение Гость « 12 мар 2024, 07:48
Добавлено в форуме CSS

Гость » 12 мар 2024, 07:48 » в форуме CSS

Я новичок в Django и работал над приложением Django. И я использовал папку «media», чтобы хранить файлы CSS и JavaScript (я знаю, что это не очень хорошая практика), но это работало. Несколько строк кода

However what happened i don't...

0 Ответы

91 Просмотры

Последнее сообщение Гость
12 мар 2024, 07:48
Строгая проверка типа MIME включена, отказалась выполнить сценарий из '<url>' его тип MIME ('Text/Plain') не является ис

Последнее сообщение Anonymous « 02 апр 2025, 20:41
Добавлено в форуме Html

Anonymous » 02 апр 2025, 20:41 » в форуме Html

Я новичок в Джанго, и я работал над приложением Django. И я использовал папку Media , чтобы сохранить мои файлы CSS и JavaScript (я знаю, что это не хорошая практика), но она работала. Некоторые строки кода

Однако то, что произошло, я...

0 Ответы

17 Просмотры

Последнее сообщение Anonymous
02 апр 2025, 20:41
Строгая проверка типа MIME включена, отказалась выполнить сценарий из '<url>' его тип MIME ('Text/Plain') не является ис

Последнее сообщение Anonymous « 02 апр 2025, 20:41
Добавлено в форуме CSS

Anonymous » 02 апр 2025, 20:41 » в форуме CSS

Я новичок в Джанго, и я работал над приложением Django. И я использовал папку Media , чтобы сохранить мои файлы CSS и JavaScript (я знаю, что это не хорошая практика), но она работала. Некоторые строки кода

Однако то, что произошло, я...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
02 апр 2025, 20:41
Как бороться со всплывающими окнами во время преобразования doc в docx/xls в xlsx с помощью Win32

Последнее сообщение Anonymous « 06 дек 2024, 14:57
Добавлено в форуме Python

Anonymous » 06 дек 2024, 14:57 » в форуме Python

При преобразовании большого количества старых документов MS Office регулярно возникают всплывающие окна с запросом паролей документов, разрешения на сохранение файла без макросов или намека на то, что файлы содержат комментарии или исправления....

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
06 дек 2024, 14:57

Вернуться в «Python»