PHP: Определите, является ли строка либо текстом, либо бинарным, на строках без байтов NUL

PHP: Определите, является ли строка либо текстом, либо бинарным, на строках без байтов NUL ⇐ Php

1 сообщение • Страница 1 из 1

Anonymous

PHP: Определите, является ли строка либо текстом, либо бинарным, на строках без байтов NUL

Цитата

Сообщение Anonymous » 07 фев 2025, 19:41

А именно, как бы вы сообщили строку, которая содержит бинарные данные из text в строке, которая не имеет nul байты? Я пытаюсь реализовать: < /p>

A Полный PHP < /strong> Solution < /li>
С Нет внешние библиотеки
кодирование-aware
Последовательный
и быстро достаточно, чтобы справиться с длинными потоками

Вот лучшее решение, которое я столкнулся (среди всех неработающих), которое полагается на MBString Семейство функций:

Код: Выделить всё

function isBinaryStream(string $stream) : bool {
// 1) Try to detect encoding
// $encoding is a prioritized list of encodings (from less widely used to most widely used) for many Western and East Asian applications
$encoding = mb_detect_encoding($stream, [
'UTF-8', 'GB18030', 'BIG-5', 'EUC-JP', 'SJIS', 'ASCII', 'Windows-1252', 'ISO-8859-1', 'Windows-1251', 'KOI8-R',
], true);
if ($encoding !== 'UTF-8') {
$stream = mb_convert_encoding($stream, 'UTF-8', $encoding);
}

// 2) Split into characters and convert to code points
$chars = mb_str_split($stream, 1, 'UTF-8');
if (! $chars) {
return true;
}
$ordValues = array_map('mb_ord', $chars);

// 3) Disallow control chars except \t(9), \n(10), \r(13) and disallow code points above 0x10FFFF (invalid Unicode)
foreach ($ordValues as $ord) {
if ($ord < 0x20 && ! in_array($ord, [9, 10, 13], true)) {
return true;
}
if ($ord > 0x10FFFF) {
return true;
}
}

// If we are here, we consider $stream textual
return false;
}
< /code>
попробовал это решение с помощью ctype_print, и это также дало мне много ложных срабатываний. < /p>
факт, что я намеренно работаю над Строки, которые не имеют никакого NUL

байт (по дизайну), и я чувствую, что моя реализация Isbinarystream отсутствует. Я не совсем уверен, что это будет работать только для текстовых потоков на незападных кодировках. Кроме того, я клянусь, что это может быть чрезвычайно оптимизировано. < /P>
Что вы предлагаете? Спасибо за совет.

Подробнее здесь: https://stackoverflow.com/questions/794 ... o-nul-byte

1738946462

Anonymous

 А именно, как бы вы сообщили строку, которая содержит  бинарные  данные из  text  в строке, которая не имеет  nul  байты? Я пытаюсь реализовать: < /p>
[list]
[*] A [b] Полный PHP < /strong> Solution < /li>
 С  Нет [/b] внешние библиотеки
[*] кодирование-aware
[*] Последовательный
[*] и [b] быстро [/b] достаточно, чтобы справиться с длинными потоками
[/list]
Вот лучшее решение, которое я столкнулся (среди всех неработающих), которое полагается на MBString  Семейство функций: 
[code]function isBinaryStream(string $stream) : bool {
// 1) Try to detect encoding
// $encoding is a prioritized list of encodings (from less widely used to most widely used) for many Western and East Asian applications
$encoding = mb_detect_encoding($stream, [
'UTF-8', 'GB18030', 'BIG-5', 'EUC-JP', 'SJIS', 'ASCII', 'Windows-1252', 'ISO-8859-1', 'Windows-1251', 'KOI8-R',
], true);
if ($encoding !== 'UTF-8') {
$stream = mb_convert_encoding($stream, 'UTF-8', $encoding);
}

// 2) Split into characters and convert to code points
$chars = mb_str_split($stream, 1, 'UTF-8');
if (! $chars) {
return true;
}
$ordValues = array_map('mb_ord', $chars);

// 3) Disallow control chars except \t(9), \n(10), \r(13) and disallow code points above 0x10FFFF (invalid Unicode)
foreach ($ordValues as $ord) {
if ($ord < 0x20 && ! in_array($ord, [9, 10, 13], true)) {
return true;
}
if ($ord > 0x10FFFF) {
return true;
}
}

// If we are here, we consider $stream textual
return false;
}
< /code>
попробовал это решение с помощью ctype_print, и это также дало мне много ложных срабатываний. < /p>
факт, что я намеренно работаю над Строки, которые не имеют никакого NUL [/code] байт (по дизайну), и я чувствую, что моя реализация Isbinarystream  отсутствует. Я не совсем уверен, что это будет работать только для текстовых потоков на незападных кодировках. Кроме того, я клянусь, что это может быть чрезвычайно оптимизировано. < /P>
Что вы предлагаете? Спасибо за совет.  

Подробнее здесь: [url]https://stackoverflow.com/questions/79420986/php-determine-if-a-string-is-either-text-or-binary-on-strings-with-no-nul-byte[/url]