PHP: Определите, является ли строка либо текстом, либо двоичным

PHP: Определите, является ли строка либо текстом, либо двоичным ⇐ Php

1 сообщение • Страница 1 из 1

Anonymous

PHP: Определите, является ли строка либо текстом, либо двоичным

Цитата

Сообщение Anonymous » 07 фев 2025, 16:05

А именно, как бы вы рассказали строку, которая содержит бинарные данные из данных text ? Я пытаюсь реализовать: < /p>

[*] Полный php < /strong> solution < /li>
с Нет внешние библиотеки
[*] кодирование-aware
[*] согласованно
и быстро < /strong> достаточно, чтобы справиться с длинными потоками < /li>
< /ul>
Вот лучшее решение, которое я столкнулся (среди всех неработающих), которое опирается на MBString Семейство функций:

Код: Выделить всё

function isBinaryStream(string $stream) : bool {
// 1) Try to detect encoding
// $encoding is a prioritized list of encodings (from less widely used to most widely used) for many Western and East Asian applications
$encoding = mb_detect_encoding($stream, [
'UTF-8', 'GB18030', 'BIG-5', 'EUC-JP', 'SJIS', 'ASCII', 'Windows-1252', 'ISO-8859-1', 'Windows-1251', 'KOI8-R',
], true);
if ($encoding !== 'UTF-8') {
$stream = mb_convert_encoding($stream, 'UTF-8', $encoding);
}

// 2) Split into characters and convert to code points
$chars = mb_str_split($stream, 1, 'UTF-8');
if (! $chars) {
return true;
}
$ordValues = array_map('mb_ord', $chars);

// 3) Disallow control chars except \t(9), \n(10), \r(13) and disallow code points above 0x10FFFF (invalid Unicode)
foreach ($ordValues as $ord) {
if ($ord < 0x20 && ! in_array($ord, [9, 10, 13], true)) {
return true;
}
if ($ord > 0x10FFFF) {
return true;
}
}

// If we are here, we consider $stream textual
return false;
}
< /code>
попытался спросить AI, но его реализация дала мне много ложных срабатываний на огромном наборе текстовых файлов, которые содержали разреженные ошибочные символы. < /p>
// ATTENTION: this code is AI-generated. Don't blindly copy-paste it.
function syntheticIsBinaryStream(string $stream) : bool {
// ATTENTION: this code is AI-generated. Don't blindly copy-paste it.

// Define a prioritized list of encodings.
$encodings = ['UTF-8', 'ASCII', 'Windows-1252', 'ISO-8859-1'];
$validEncoding = false;
foreach ($encodings as $enc) {
// Strict check: only return true if the sample is valid in the encoding.
if (mb_check_encoding($stream, $enc)) {
$validEncoding = $enc;
break;
}
}

if ($validEncoding === false) {
// If none of our encodings validate the sample, assume binary.
return true;
}

// If encoding is not UTF-8, convert to UTF-8 for consistent further processing.
if ($validEncoding !== 'UTF-8') {
$stream = mb_convert_encoding($stream, 'UTF-8', $validEncoding);
}

// Now, count disallowed control characters (any Cc that is not tab, newline, or carriage return)
// Using Unicode properties, this regex matches any control char except \r, \n, \t.
if (preg_match_all('/[\p{Cc}&&[^\r\n\t]]/u', $stream, $matches)) {
$controlCount = count($matches[0]);
} else {
$controlCount = 0;
}

// Compute total number of characters in the stream.
$totalChars = mb_strlen($stream, 'UTF-8');
if ($totalChars === 0) {
return true;
}
$ratio = $controlCount / $totalChars;

// If the ratio of disallowed control characters is above 10%, we consider the sample as binary.
return $ratio > 0.10;
}
< /code>
также попробовал это решение с ctype_print, и это также дало мне много ложных срабатываний. < /p>
факт, я чувствую, что моя реализация IsbinaryStream

Отсутствие последовательности. Я не совсем уверен, что это будет работать только для текстовых потоков на незападных кодировках. Кроме того, я клянусь, что это может быть чрезвычайно оптимизировано. < /P>
Что вы предлагаете? Спасибо за совет.

Подробнее здесь: https://stackoverflow.com/questions/794 ... -or-binary

1738933517

Anonymous

 А именно, как бы вы рассказали строку, которая содержит  бинарные  данные из данных  text ? Я пытаюсь реализовать: < /p>

[*] [b] Полный php < /strong> solution < /li>
 с  Нет [/b] внешние библиотеки
[*] кодирование-aware
[*] согласованно
 и  быстро < /strong> достаточно, чтобы справиться с длинными потоками < /li>
< /ul>
Вот лучшее решение, которое я столкнулся (среди всех неработающих), которое опирается на MBString  Семейство функций: 
[code]function isBinaryStream(string $stream) : bool {
// 1) Try to detect encoding
// $encoding is a prioritized list of encodings (from less widely used to most widely used) for many Western and East Asian applications
$encoding = mb_detect_encoding($stream, [
'UTF-8', 'GB18030', 'BIG-5', 'EUC-JP', 'SJIS', 'ASCII', 'Windows-1252', 'ISO-8859-1', 'Windows-1251', 'KOI8-R',
], true);
if ($encoding !== 'UTF-8') {
$stream = mb_convert_encoding($stream, 'UTF-8', $encoding);
}

// 2) Split into characters and convert to code points
$chars = mb_str_split($stream, 1, 'UTF-8');
if (! $chars) {
return true;
}
$ordValues = array_map('mb_ord', $chars);

// 3) Disallow control chars except \t(9), \n(10), \r(13) and disallow code points above 0x10FFFF (invalid Unicode)
foreach ($ordValues as $ord) {
if ($ord < 0x20 && ! in_array($ord, [9, 10, 13], true)) {
return true;
}
if ($ord > 0x10FFFF) {
return true;
}
}

// If we are here, we consider $stream textual
return false;
}
< /code>
попытался спросить AI, но его реализация дала мне много ложных срабатываний на огромном наборе текстовых файлов, которые содержали разреженные ошибочные символы. < /p>
// ATTENTION: this code is AI-generated. Don't blindly copy-paste it.
function syntheticIsBinaryStream(string $stream) : bool {
// ATTENTION: this code is AI-generated. Don't blindly copy-paste it.

// Define a prioritized list of encodings.
$encodings = ['UTF-8', 'ASCII', 'Windows-1252', 'ISO-8859-1'];
$validEncoding = false;
foreach ($encodings as $enc) {
// Strict check: only return true if the sample is valid in the encoding.
if (mb_check_encoding($stream, $enc)) {
$validEncoding = $enc;
break;
}
}

if ($validEncoding === false) {
// If none of our encodings validate the sample, assume binary.
return true;
}

// If encoding is not UTF-8, convert to UTF-8 for consistent further processing.
if ($validEncoding !== 'UTF-8') {
$stream = mb_convert_encoding($stream, 'UTF-8', $validEncoding);
}

// Now, count disallowed control characters (any Cc that is not tab, newline, or carriage return)
// Using Unicode properties, this regex matches any control char except \r, \n, \t.
if (preg_match_all('/[\p{Cc}&&[^\r\n\t]]/u', $stream, $matches)) {
$controlCount = count($matches[0]);
} else {
$controlCount = 0;
}

// Compute total number of characters in the stream.
$totalChars = mb_strlen($stream, 'UTF-8');
if ($totalChars === 0) {
return true;
}
$ratio = $controlCount / $totalChars;

// If the ratio of disallowed control characters is above 10%, we consider the sample as binary.
return $ratio > 0.10;
}
< /code>
также попробовал это решение с ctype_print, и это также дало мне много ложных срабатываний. < /p>
факт, я чувствую, что моя реализация IsbinaryStream [/code] Отсутствие последовательности. Я не совсем уверен, что это будет работать только для текстовых потоков на незападных кодировках. Кроме того, я клянусь, что это может быть чрезвычайно оптимизировано. < /P>
Что вы предлагаете? Спасибо за совет.  

Подробнее здесь: [url]https://stackoverflow.com/questions/79420986/php-determine-if-a-string-is-either-text-or-binary[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

PHP: Определите, является ли строка либо текстом, либо двоичным

Последнее сообщение Anonymous « 07 фев 2025, 18:11
Добавлено в форуме Php

Anonymous » 07 фев 2025, 18:11 » в форуме Php

А именно, как бы вы рассказали строку, которая содержит бинарные данные из данных text ? Я пытаюсь реализовать:

Полный php solution
с Нет внешние библиотеки
кодирование-aware
согласованно
и быстро достаточно, чтобы справиться с длинными...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
07 фев 2025, 18:11
В функции, предназначенной для проверки того, является ли дерево двоичным деревом (а не двоичным деревом поиска), есть о

Последнее сообщение Anonymous « 18 сен 2024, 16:01
Добавлено в форуме Python

Anonymous » 18 сен 2024, 16:01 » в форуме Python

Я работаю над университетским проектом, включающим двоичные деревья, представленные в виде словарей. Я реализовал функции для проверки того, являются ли эти деревья полными, завершенными и двоичными, но моя проверка двоичного дерева не работает...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
18 сен 2024, 16:01
В функции, предназначенной для проверки того, является ли дерево двоичным деревом (а не двоичным деревом поиска), есть о

Последнее сообщение Anonymous « 18 сен 2024, 18:59
Добавлено в форуме Python

Anonymous » 18 сен 2024, 18:59 » в форуме Python

Я работаю над университетским проектом, включающим двоичные деревья, представленные в виде словарей. Я реализовал функции для проверки того, являются ли эти деревья полными, завершенными и двоичными, но моя проверка двоичного дерева не работает...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
18 сен 2024, 18:59
PHP: Определите, является ли строка либо текстом, либо бинарным, на строках без байтов NUL

Последнее сообщение Anonymous « 07 фев 2025, 19:10
Добавлено в форуме Php

Anonymous » 07 фев 2025, 19:10 » в форуме Php

А именно, как бы вы сообщили строку, которая содержит бинарные данные из text в строке, которая не имеет nul байты? Я пытаюсь реализовать:

A Полный PHP Solution
С Нет внешние библиотеки
кодирование-aware
Последовательный
и быстро...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
07 фев 2025, 19:10
PHP: Определите, является ли строка либо текстом, либо бинарным, на строках без байтов NUL

Последнее сообщение Anonymous « 07 фев 2025, 19:41
Добавлено в форуме Php

Anonymous » 07 фев 2025, 19:41 » в форуме Php

А именно, как бы вы сообщили строку, которая содержит бинарные данные из text в строке, которая не имеет nul байты? Я пытаюсь реализовать:

A Полный PHP Solution
С Нет внешние библиотеки
кодирование-aware
Последовательный
и быстро...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
07 фев 2025, 19:41

Вернуться в «Php»