У меня есть строка, закодированная в UTF-8. Например:
Хорошая шутка



Мне нужно извлечь все смайлы, присутствующие в предложении. И смайлик может быть любым.
Когда это предложение просматривается в терминале с помощью команды less text.txt, оно рассматривается как:
Это хорошая шутка Это соответствующий код UTF для смайлика. Все коды для смайлов можно найти на сайте emojitracker.
Чтобы найти все вхождения, я использовал шаблон регулярного выражения (), но он не работал для строки в кодировке UTF-8.
>
Ниже приведен мой код:
String s = "Это хорошая шутка



"; Шаблон шаблона = Pattern.compile("()"); Сопоставитель = шаблон.Сопоставитель(и); List matchList = новый ArrayList(); в то время как (matcher.find()) { matchList.add(matcher.group()); } for (int i = 0; i < matchList.size(); i++) { System.out.println(matchList.get(i)); } В этом PDF-файле указано Диапазон: 1F300–1F5FF для разных символов и пиктограмм. Поэтому я хочу захватить любой символ, находящийся в этом диапазоне.