Код: Выделить всё
"© 2024 • Printing & Publishing Co., Inc. • All Rights Reserved"
Код: Выделить всё
"u00a9 2024 u00a0 u2022 u00a0 Printing & Publishing Co., Inc. u00a0 u2022 u00a0 All Rights Reserved"
Код: Выделить всё
[input_encoding] => UTF-8
[output_encoding] => UTF-8
[internal_encoding] => UTF-8
Я пробовал всевозможные варианты html_entity_decode. , mb_convert_encoding и даже сопоставление регулярных выражений для "'/u([0-9a-fA-F]{4})/'" для перехвата этих, казалось бы, символов в кодировке UTF-16, но все безрезультатно. Я продолжаю получать:
Код: Выделить всё
"u00a9 2024 u00a0 u2022 u00a0 Printing & Publishing Co., Inc. u00a0 u2022 u00a0 All Rights Reserved"
Код: Выделить всё
"u00a9 2024 u00a0 u2022 u00a0 Printing u0026 Publishing Co., Inc. u00a0 u2022 u00a0 All Rights Reserved"
Я заметил, что следующий код дает аналогичный результат:
Код: Выделить всё
$char = "©";
$result[] = "# ©";
$result[] = "# " . $char;
$result[] = "# \u00a9";
Код: Выделить всё
# u00a9
# u00a9
# u00a9
Вот как я пытался использовать preg_replace_callback для решения этой проблемы:
Код: Выделить всё
$string = "© 2024 • Printing & Publishing Co., Inc. • All Rights Reserved";
$result[] = $string;
$result[] = preg_replace_callback('/u([0-9a-fA-F]{4})/', 'unicodeToUtf8', $string);
function unicodeToUtf8($matches) {
$codepoint = hexdec($matches[1]);
return mb_convert_encoding("&#{$codepoint};", 'UTF-8', 'HTML-ENTITIES');
}
Код: Выделить всё
[0] => u00a9 2024 u00a0 u2022 u00a0 Printing & Publishing Co., Inc. u00a0 u2022 u00a0 All Rights Reserved
[1] => u00a9 2024 u00a0 u2022 u00a0 Printing & Publishing Co., Inc. u00a0 u2022 u00a0 All Rights Reserved
Код: Выделить всё
$result[] = str_replace("u00a9", "©", $string);
$result[] = str_replace("\u00a9", "©", $string);
Код: Выделить всё
[0] => u00a9 2024 u00a0 u2022 u00a0 Printing & Publishing Co., Inc. u00a0 u2022 u00a0 All Rights Reserved
[1] => u00a9 2024 u00a0 u2022 u00a0 Printing & Publishing Co., Inc. u00a0 u2022 u00a0 All Rights Reserved
Я нашел очень неуклюжий подход, определенно не мое предпочтительное решение:
Я нашел очень неуклюжий подход, определенно не мое предпочтительное решение:
р>
Код: Выделить всё
$string = "© 2024 • Printing & Publishing Co., Inc. • All Rights Reserved";
$result = html_entity_decode($string);
$result = str_replace('©', '(c)', $result);
$result = str_replace('•', '-', $result);
$result = str_replace('–', '-', $result);
$result = str_replace('&', '&', $result);
$result = str_replace('®', '(r)', $result);
Код: Выделить всё
"(c) 2024 - Printing & Publishing Co., Inc. - All Rights Reserved"
Кодирование и декодирование строки осуществляется с помощью следующего кода (обычно совпадение только одно):
Код: Выделить всё
$response = wp_remote_get($url);
$html = wp_remote_retrieve_body($response);
$regex = "/>[^>]*© [0-9]{4}[^
Подробнее здесь: [url]https://stackoverflow.com/questions/79331177/problems-with-character-encoding-in-wordpress-php-plugin[/url]