Оптимизированный расчет Polars NDCGPython

Программы на Python
Ответить
Anonymous
 Оптимизированный расчет Polars NDCG

Сообщение Anonymous »

Проблема здесь заключается в том, чтобы реализовать расчет NDCG на полярах, который был бы эффективен для огромных наборов данных.
Основная идея NDCG заключается в вычислении DCG и IDCG, давайте пропустим часть усиления и ограничимся только подумайте о части скидки, которая зависит от рангов идеального и предложенного заказов.
Поэтому для меня сложнее всего правильно и эффективно рассчитать позиции похожих товаров из идеальных и предлагаемых частей, то есть:

Код: Выделить всё

ideal:   a b c d e f
propsed: d b g e h
поэтому у нас есть пересечение элементов {b, d, e с idx_ideal=[2,4,5] (начиная с 1) и idx_propsed= [2,1,4]
Итак, я хочу вычислить эти idx_propose и idx_ideal для фрейма данных со столбцами (пользовательский, идеальный, предложенный),так что результирующий DF будет иметь столбцы: (пользователь, идеальный, предложенный, idx_ideal, idx_propsed)

Код: Выделить всё

# so its only ideal idx, then I create extra for proposed idx and join them
(
df
.explode('ideal')
.with_columns(idx=pl.int_range(pl.len()).over('user'))
.filter(pl.col('ideal').is_in(pl.col('proposed')))
.group_by('user', maintain_order=True)
.agg(pl.col('idx'))
)
Я разбиваю Ideal по пользователю и нахожу позицию, добавляя дополнительный столбец idx и оставляя только Ideal=proposition строки, но это приводит к дополнительному DF с подмножеством строк, к которым мне придется присоединиться назад, что, вероятно, не очень оптимально. Затем мне нужно еще раз вычислить его для предложенной стороны.
Более того, на следующем шаге мне придется развернуть (idx_ideal, idx_propose), чтобы вычислить IDCG пользователя, DCG и NDCG.
Не могли бы вы помочь мне оптимизировать эти вычисления?
Я думаю, мне следует использовать так, чтобы пользователи не взаимодействовали друг с другом и отдельные строки могли обрабатываться отдельно.

Подробнее здесь: https://stackoverflow.com/questions/791 ... alculation
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»