Как получить хеш строкового столбца в Polars или PyarrowPython

Программы на Python
Ответить
Anonymous
 Как получить хеш строкового столбца в Polars или Pyarrow

Сообщение Anonymous »

У меня есть таблица данных Pandas DataFrame/Polars/Pyarrow со строковым ключевым столбцом. Вы можете предположить, что строки случайны. Я хочу разделить этот фрейм данных на N меньших фреймов данных на основе этого ключевого столбца.
Для целочисленного столбца я могу просто использовать df1 = df[df.key % N == 1], df2 = df[df.key % N == 2] и т. д.
Мое лучшее предположение о том, как вы собираетесь сделать это со строковым столбцом, - это применить хэш-функцию (например, суммирование значения ascii строки), чтобы преобразовать его в целочисленный столбец, а затем использовать модуль.
Пожалуйста, дайте мне знать, какой наиболее эффективный способ это можно сделать в Pandas, Polars или Pyarrow, в идеале с чистыми столбчатыми операциями в API. Выполнение df.apply, вероятно, будет слишком медленным для моего варианта использования.

Подробнее здесь: https://stackoverflow.com/questions/721 ... or-pyarrow
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»