Проблемы с кодировкой символов в PHP-плагине WordPress

Проблемы с кодировкой символов в PHP-плагине WordPress ⇐ Php

1 сообщение • Страница 1 из 1

Anonymous

Проблемы с кодировкой символов в PHP-плагине WordPress

Цитата

Сообщение Anonymous » 07 янв 2025, 23:49

Я пытаюсь написать плагин WordPress для извлечения строки об авторских правах по URL-адресу веб-сайта. Строка, содержащаяся на HTML-странице данного веб-сайта:

Код: Выделить всё

"© 2024   •   Printing & Publishing Co., Inc.   •   All Rights Reserved"

и в моем плагине PHP он закодирован как:

Код: Выделить всё

"u00a9 2024 u00a0 u2022 u00a0 Printing & Publishing Co., Inc. u00a0 u2022 u00a0 All Rights Reserved"

Это похоже на кодировку UTF-16 без начального "\" или "0x". Конфигурация расширения iconv, возвращаемая iconv_get_encoding:

Код: Выделить всё

[input_encoding] => UTF-8
[output_encoding] => UTF-8
[internal_encoding] => UTF-8

В HTML-коде веб-сайта указан набор символов charset="UTF-8".
Я пробовал всевозможные варианты html_entity_decode. , mb_convert_encoding и даже сопоставление регулярных выражений для "'/u([0-9a-fA-F]{4})/'" для перехвата этих, казалось бы, символов в кодировке UTF-16, но все безрезультатно. Я продолжаю получать:

Код: Выделить всё

"u00a9 2024 u00a0 u2022 u00a0 Printing & Publishing Co., Inc. u00a0 u2022 u00a0 All Rights Reserved"

или

Код: Выделить всё

"u00a9 2024 u00a0 u2022 u00a0 Printing u0026 Publishing Co., Inc. u00a0 u2022 u00a0 All Rights Reserved"

в зависимости от того, использовал ли я html_entity_decode или нет.
Я заметил, что следующий код дает аналогичный результат:

Код: Выделить всё

$char = "©";
$result[] = "# ©";
$result[] = "# " . $char;
$result[] = "# \u00a9";

На выходе я получаю:

Код: Выделить всё

# u00a9
# u00a9
# u00a9

Я считаю, что это три разных способа получить один и тот же результат.
Вот как я пытался использовать preg_replace_callback для решения этой проблемы:

Код: Выделить всё

$string = "© 2024   •  Printing & Publishing Co., Inc.   •   All Rights Reserved";
$result[] = $string;
$result[] = preg_replace_callback('/u([0-9a-fA-F]{4})/', 'unicodeToUtf8', $string);

function unicodeToUtf8($matches) {
$codepoint = hexdec($matches[1]);
return mb_convert_encoding("&#{$codepoint};", 'UTF-8', 'HTML-ENTITIES');
}

Вывод остается:

Код: Выделить всё

[0] => u00a9 2024 u00a0 u2022 u00a0 Printing & Publishing Co., Inc. u00a0 u2022 u00a0 All Rights Reserved
[1] => u00a9 2024 u00a0 u2022 u00a0 Printing & Publishing Co., Inc. u00a0 u2022 u00a0 All Rights Reserved

Я тоже пробовал:

Код: Выделить всё

$result[] = str_replace("u00a9", "©", $string);
$result[] = str_replace("\u00a9", "©", $string);

С теми же результатами:

Код: Выделить всё

[0] => u00a9 2024 u00a0 u2022 u00a0 Printing & Publishing Co., Inc. u00a0 u2022 u00a0 All Rights Reserved
[1] => u00a9 2024 u00a0 u2022 u00a0 Printing & Publishing Co., Inc. u00a0 u2022 u00a0 All Rights Reserved

Будем очень признательны за любую информацию о том, как обращаться с этими кодировками символов. Я предполагаю, что мой основной вопрос заключается в том, что если внутренняя_кодировка - UTF-8, почему эти кодовые точки состоят из 4 символов вместо 2?
Я нашел очень неуклюжий подход, определенно не мое предпочтительное решение:
Я нашел очень неуклюжий подход, определенно не мое предпочтительное решение:
р>

Код: Выделить всё

$string = "© 2024   •  Printing & Publishing Co., Inc.   •   All Rights Reserved";
$result = html_entity_decode($string);
$result = str_replace('©', '(c)', $result);
$result = str_replace('•', '-', $result);
$result = str_replace('–', '-', $result);
$result = str_replace('&', '&', $result);
$result = str_replace('®', '(r)', $result);

Генерирует следующее:

Код: Выделить всё

"(c) 2024   -  Printing & Publishing Co., Inc.    -   All Rights Reserved"

Мне определенно хотелось бы найти более элегантное решение.
Кодирование и декодирование строки осуществляется с помощью следующего кода (обычно совпадение только одно):

Код: Выделить всё

$response = wp_remote_get($url);
$html = wp_remote_retrieve_body($response);
$regex = "/>[^>]*© [0-9]{4}[^

Подробнее здесь: [url]https://stackoverflow.com/questions/79331177/problems-with-character-encoding-in-wordpress-php-plugin[/url]

1736282944

Anonymous

Я пытаюсь написать плагин WordPress для извлечения строки об авторских правах по URL-адресу веб-сайта. Строка, содержащаяся на HTML-странице данного веб-сайта:
[code]"© 2024   •   Printing & Publishing Co., Inc.   •   All Rights Reserved"
[/code]
и в моем плагине PHP он закодирован как:
[code]"u00a9 2024 u00a0 u2022 u00a0 Printing & Publishing Co., Inc. u00a0 u2022 u00a0 All Rights Reserved"
[/code]
Это похоже на кодировку UTF-16 без начального "\" или "0x". Конфигурация расширения iconv, возвращаемая iconv_get_encoding:
[code][input_encoding] => UTF-8
[output_encoding] => UTF-8
[internal_encoding] => UTF-8
[/code]
В HTML-коде веб-сайта указан набор символов charset="UTF-8".
Я пробовал всевозможные варианты html_entity_decode. , mb_convert_encoding и даже сопоставление регулярных выражений для "'/u([0-9a-fA-F]{4})/'" для перехвата этих, казалось бы, символов в кодировке UTF-16, но все безрезультатно. Я продолжаю получать:
[code]"u00a9 2024 u00a0 u2022 u00a0 Printing & Publishing Co., Inc. u00a0 u2022 u00a0 All Rights Reserved"
[/code]
или
[code]"u00a9 2024 u00a0 u2022 u00a0 Printing u0026 Publishing Co., Inc. u00a0 u2022 u00a0 All Rights Reserved"
[/code]
в зависимости от того, использовал ли я html_entity_decode или нет.
Я заметил, что следующий код дает аналогичный результат:
[code]$char = "©";
$result[] = "# ©";
$result[] = "# " . $char;
$result[] = "# \u00a9";
[/code]
На выходе я получаю:
[code]# u00a9
# u00a9
# u00a9
[/code]
Я считаю, что это три разных способа получить один и тот же результат.
Вот как я пытался использовать preg_replace_callback для решения этой проблемы:
[code]$string = "© 2024   •  Printing & Publishing Co., Inc.   •   All Rights Reserved";
$result[] = $string;
$result[] = preg_replace_callback('/u([0-9a-fA-F]{4})/', 'unicodeToUtf8', $string);

function unicodeToUtf8($matches) {
$codepoint = hexdec($matches[1]);
return mb_convert_encoding("&#{$codepoint};", 'UTF-8', 'HTML-ENTITIES');
}
[/code]
Вывод остается:
[code][0] => u00a9 2024 u00a0 u2022 u00a0 Printing & Publishing Co., Inc. u00a0 u2022 u00a0 All Rights Reserved
[1] => u00a9 2024 u00a0 u2022 u00a0 Printing & Publishing Co., Inc. u00a0 u2022 u00a0 All Rights Reserved
[/code]
Я тоже пробовал:
[code]$result[] = str_replace("u00a9", "©", $string);
$result[] = str_replace("\u00a9", "©", $string);
[/code]
С теми же результатами:
[code][0] => u00a9 2024 u00a0 u2022 u00a0 Printing & Publishing Co., Inc. u00a0 u2022 u00a0 All Rights Reserved
[1] => u00a9 2024 u00a0 u2022 u00a0 Printing & Publishing Co., Inc. u00a0 u2022 u00a0 All Rights Reserved
[/code]
Будем очень признательны за любую информацию о том, как обращаться с этими кодировками символов. Я предполагаю, что мой основной вопрос заключается в том, что если внутренняя_кодировка - UTF-8, почему эти кодовые точки состоят из 4 символов вместо 2?
Я нашел очень неуклюжий подход, определенно не мое предпочтительное решение:
Я нашел очень неуклюжий подход, определенно не мое предпочтительное решение:
р>
[code]$string = "© 2024   •  Printing & Publishing Co., Inc.   •   All Rights Reserved";
$result = html_entity_decode($string);
$result = str_replace('©', '(c)', $result);
$result = str_replace('•', '-', $result);
$result = str_replace('–', '-', $result);
$result = str_replace('&', '&', $result);
$result = str_replace('®', '(r)', $result);
[/code]
Генерирует следующее:
[code]"(c) 2024   -  Printing & Publishing Co., Inc.    -   All Rights Reserved"
[/code]
Мне определенно хотелось бы найти более элегантное решение.
Кодирование и декодирование строки осуществляется с помощью следующего кода (обычно совпадение только одно):
[code]$response = wp_remote_get($url);
$html = wp_remote_retrieve_body($response);
$regex = "/>[^>]*© [0-9]{4}[^

Подробнее здесь: [url]https://stackoverflow.com/questions/79331177/problems-with-character-encoding-in-wordpress-php-plugin[/url]