Как создать стабильные идентификаторы людей, если имена меняются в разные годыPython

Программы на Python
Ответить
Anonymous
 Как создать стабильные идентификаторы людей, если имена меняются в разные годы

Сообщение Anonymous »

Я работаю с набором данных о зарплатах преподавателей университета, в котором на протяжении многих лет фигурирует один и тот же человек, но строки его имен непоследовательны. Набор данных содержит около 8000 уникальных людей и лет с 2000 по 2024 год. Каждая строка представляет собой одно наблюдение за факультет-год-университет, примерно так:



university
year
name




Университет Вайоминга
2012
Джеффри А. Роджерс


Университет Вайоминга
2013
Джефф Роджерс


Университет штата Мичиган
2014
Джефф Роджерс



Он также содержит переменные, такие как звание и зарплата, но это ненадежно.
Моя цель — создать уникальный идентификатор человека для всего набора данных, чтобы я мог отслеживать, как преподаватели перемещаются по годам и университетам, даже если их имена не совпадают.
Я использую библиотеку Recordlinkage. На данный момент моя логика очень проста: блокировка по фамилии, нечеткое сравнение строк по полному имени. Но только действительно по названию сравнивать нереально. Я уверен, что для этого есть лучшие библиотеки/шаблоны.

Подробнее здесь: https://stackoverflow.com/questions/798 ... ross-years
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»