Итак, у меня есть некоторые текстовые данные, которые были беспорядочно проанализированы, и из-за этого я получаю имена, смешанные с реальными данными. Существует ли какой-либо пакет/библиотека, которая помогает определить, является ли слово именем или нет? (В данном случае я бы предположил американские/западные/евроцентричные названия)
Иначе, как можно было бы отметить это? Может быть, обучить модель на корпусе имен и присвоить каждому слову в наборе данных классификацию? Просто не уверен, как лучше всего подойти к этой проблеме/какая модель подойдет и существует ли уже решение
Подробнее здесь: https://stackoverflow.com/questions/641 ... human-name
Как узнать, является ли строка человеческим именем? ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение