Polars/Spark/SQL Стандартизируйте похожие названия компаний в столбце таблицы.Python

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Polars/Spark/SQL Стандартизируйте похожие названия компаний в столбце таблицы.

Сообщение Anonymous »

У меня есть таблица со столбцом названий компаний. Одна и та же компания может появляться под разными именами (например, «Чао», «Чиао Inc», «Пользователь Ciao Inc»).
Я хочу предоставить одной и той же компании под разными именами уникальный идентификатор. , как в следующем примере (предположим, что массивы являются столбцами):

Код: Выделить всё

['Ciao', 'Ciao Inc', 'HB', 'Ciao Inc User', 'HB lmtd'] -> [1, 1, 2, 1, 2]
Я хотел бы добиться этого с помощью Polars, Spark или простого SQL.
Знаете ли вы какой-нибудь простой способ достигли этого?
Большое спасибо

Подробнее здесь: https://stackoverflow.com/questions/788 ... ble-column
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»