У меня есть тексты, проанализированные с веб-сайтов, и мне нужно очистить их на Python для последующего использования в НЛП. Они на польском, а не на английском языке, поэтому у меня есть символы UTF-8, такие как ą, ł, ó и т. д. Мне нужно оставить только обычные знаки препинания (
и т. д.) и буквы (включая польские символы) и удалите все «странные», нестандартные символы, такие как, например, •. Как мне это сделать? Я думаю, что мне нужно регулярное выражение и заменить эти нестандартные символы на "" (без символов), но я не знаю, как фильтровать только "обычные" символы. Здесь проблема с UTF-8, получить алфавит ASCII легко.
Подробнее здесь:
https://stackoverflow.com/questions/620 ... characters