Оптимизация комбинаций переменных для максимизации классификации

Оптимизация комбинаций переменных для максимизации классификации ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Оптимизация комбинаций переменных для максимизации классификации

Цитата

Сообщение Anonymous » 14 окт 2024, 20:49

Я работаю с набором данных, в котором пользователи взаимодействуют через приложение или веб-сайт, и мне нужно определить оптимальную комбинацию переменных (x1, x2, ... xn), которая позволит максимизировать количество пользователей классифицируются как «Любители приложений». Согласно бизнес-правилу, пользователь считается «любителем приложений», если он использует приложение более 66 % времени.
Вот упрощенный пример структуры данных:
Вот упрощенный пример структуры данных:
Вот упрощенный пример структуры данных:
р>

Код: Выделить всё

import polars as pl
df = pl.DataFrame({
"ID": [1, 2, 3, 1, 2, 3, 1, 2, 3],
"variable": ["x1", "x1", "x1", "x2", "x2", "x2", "x3", "x3", "x3"],
"Favourite": ["APP", "APP", "WEB", "APP", "WEB", "APP", "APP", "APP", "WEB"]
})

В этом наборе данных каждый идентификатор представляет пользователя, а переменная относится к функции (например, x1, x2, x3), причем Избранное указывает, была ли функция выполнена через приложение или через веб-сайт.
Я поворачиваю данные, чтобы подсчитать, сколько действий было выполнено через приложение или через Интернет:

Код: Выделить всё

(
df
.pivot(
index=["ID"],
on="Favourite",
values=["variable"],
aggregate_function=pl.col("Favourite").len()
).fill_null(0)
)

Выход:

Код: Выделить всё

shape: (3, 3)
┌─────┬─────┬─────┐
│ ID  ┆ APP ┆ WEB │
│ --- ┆ --- ┆ --- │
│ i64 ┆ u32 ┆ u32 │
╞═════╪═════╪═════╡
│ 1   ┆ 3   ┆ 0   │
│ 2   ┆ 2   ┆ 1   │
│ 3   ┆ 1   ┆ 2   │
└─────┴─────┴─────┘

Далее я рассчитываю долю использования приложения каждым пользователем и классифицирую их:

Код: Выделить всё

(
df2
.with_columns(
Total = pl.col("APP") + pl.col("WEB")
)
.with_columns(
Proportion = pl.col("APP") / pl.col("Total")
)
.with_columns(
pl
.when(pl.col("Proportion") >= 0.6).then(pl.lit("APP Lover"))
.when(pl.col("Proportion") > 0.1).then(pl.lit("BOTH"))
.otherwise(pl.lit("Inactive"))
)
)

shape: (3, 6)
┌─────┬─────┬─────┬───────┬────────────┬───────────┐
│ ID  ┆ APP ┆ WEB ┆ Total ┆ Proportion ┆ literal   │
│ --- ┆ --- ┆ --- ┆ ---   ┆ ---        ┆ ---       │
│ i64 ┆ u32 ┆ u32 ┆ u32   ┆ f64        ┆ str       │
╞═════╪═════╪═════╪═══════╪════════════╪═══════════╡
│ 1   ┆ 3   ┆ 0   ┆ 3     ┆ 1.0        ┆ APP Lover │
│ 2   ┆ 2   ┆ 1   ┆ 3     ┆ 0.666667   ┆ APP Lover │
│ 3   ┆ 1   ┆ 2   ┆ 3     ┆ 0.333333   ┆ BOTH      │
└─────┴─────┴─────┴───────┴────────────┴───────────┘

Задача: в моем реальном наборе данных есть как минимум 19 различных переменных x. Вчера меня спросили: я попробовал перебрать все возможные комбинации этих переменных, чтобы отфильтровать те, которые приводят к наибольшему количеству «Любителей приложений», но количество комбинаций (2^19) слишком велико для эффективного вычисления. .
Вопрос: Как мне эффективно определить наилучшую комбинацию переменных xn, которая максимизирует число «любителей приложений»? Мне нужны рекомендации о том, как подойти к этому с точки зрения алгоритмической оптимизации или более эффективных итераций.

Подробнее здесь: https://stackoverflow.com/questions/790 ... sification

1728928167

Anonymous

Я работаю с набором данных, в котором пользователи взаимодействуют через приложение или веб-сайт, и мне нужно определить оптимальную комбинацию переменных (x1, x2, ... xn), которая позволит максимизировать количество пользователей классифицируются как «Любители приложений». Согласно бизнес-правилу, пользователь считается «любителем приложений», если он использует приложение более 66 % времени.
Вот упрощенный пример структуры данных:
Вот упрощенный пример структуры данных:
Вот упрощенный пример структуры данных:
р>
[code]import polars as pl
df = pl.DataFrame({
"ID": [1, 2, 3, 1, 2, 3, 1, 2, 3],
"variable": ["x1", "x1", "x1", "x2", "x2", "x2", "x3", "x3", "x3"],
"Favourite": ["APP", "APP", "WEB", "APP", "WEB", "APP", "APP", "APP", "WEB"]
})
[/code]
В этом наборе данных каждый идентификатор представляет пользователя, а переменная относится к функции (например, x1, x2, x3), причем Избранное указывает, была ли функция выполнена через приложение или через веб-сайт.
Я поворачиваю данные, чтобы подсчитать, сколько действий было выполнено через приложение или через Интернет:
[code](
df
.pivot(
index=["ID"],
on="Favourite",
values=["variable"],
aggregate_function=pl.col("Favourite").len()
).fill_null(0)
)
[/code]
Выход:
[code]shape: (3, 3)
┌─────┬─────┬─────┐
│ ID  ┆ APP ┆ WEB │
│ --- ┆ --- ┆ --- │
│ i64 ┆ u32 ┆ u32 │
╞═════╪═════╪═════╡
│ 1   ┆ 3   ┆ 0   │
│ 2   ┆ 2   ┆ 1   │
│ 3   ┆ 1   ┆ 2   │
└─────┴─────┴─────┘
[/code]
Далее я рассчитываю долю использования приложения каждым пользователем и классифицирую их:
[code](
df2
.with_columns(
Total = pl.col("APP") + pl.col("WEB")
)
.with_columns(
Proportion = pl.col("APP") / pl.col("Total")
)
.with_columns(
pl
.when(pl.col("Proportion") >= 0.6).then(pl.lit("APP Lover"))
.when(pl.col("Proportion") > 0.1).then(pl.lit("BOTH"))
.otherwise(pl.lit("Inactive"))
)
)

shape: (3, 6)
┌─────┬─────┬─────┬───────┬────────────┬───────────┐
│ ID  ┆ APP ┆ WEB ┆ Total ┆ Proportion ┆ literal   │
│ --- ┆ --- ┆ --- ┆ ---   ┆ ---        ┆ ---       │
│ i64 ┆ u32 ┆ u32 ┆ u32   ┆ f64        ┆ str       │
╞═════╪═════╪═════╪═══════╪════════════╪═══════════╡
│ 1   ┆ 3   ┆ 0   ┆ 3     ┆ 1.0        ┆ APP Lover │
│ 2   ┆ 2   ┆ 1   ┆ 3     ┆ 0.666667   ┆ APP Lover │
│ 3   ┆ 1   ┆ 2   ┆ 3     ┆ 0.333333   ┆ BOTH      │
└─────┴─────┴─────┴───────┴────────────┴───────────┘
[/code]
Задача: в моем реальном наборе данных есть как минимум 19 различных переменных x. Вчера меня спросили: я попробовал перебрать все возможные комбинации этих переменных, чтобы отфильтровать те, которые приводят к наибольшему количеству «Любителей приложений», но количество комбинаций (2^19) слишком велико для эффективного вычисления. .
Вопрос: Как мне эффективно определить наилучшую комбинацию переменных xn, которая максимизирует число «любителей приложений»? Мне нужны рекомендации о том, как подойти к этому с точки зрения алгоритмической оптимизации или более эффективных итераций. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79071739/optimizing-variable-combinations-to-maximize-a-classification[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Оптимизация комбинаций переменных для максимизации классификации

Последнее сообщение Anonymous « 09 окт 2024, 22:10
Добавлено в форуме Python

Anonymous » 09 окт 2024, 22:10 » в форуме Python

Я работаю с набором данных, в котором пользователи взаимодействуют через приложение или веб-сайт, и мне нужно определить оптимальную комбинацию переменных (x1, x2,... xn), которая позволит максимизировать количество пользователей классифицируются...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
09 окт 2024, 22:10
Оптимизация комбинаций переменных для максимизации классификации

Последнее сообщение Anonymous « 09 окт 2024, 22:35
Добавлено в форуме Python

Anonymous » 09 окт 2024, 22:35 » в форуме Python

Я работаю с набором данных, в котором пользователи взаимодействуют через приложение или веб-сайт, и мне нужно определить оптимальную комбинацию переменных (x1, x2,... xn), которая позволит максимизировать количество пользователей классифицируются...

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
09 окт 2024, 22:35
Оптимизация комбинаций переменных для максимизации классификации

Последнее сообщение Anonymous « 11 окт 2024, 00:03
Добавлено в форуме Python

Anonymous » 11 окт 2024, 00:03 » в форуме Python

Я работаю с набором данных, в котором пользователи взаимодействуют через приложение или веб-сайт, и мне нужно определить оптимальную комбинацию переменных (x1, x2,... xn), которая позволит максимизировать количество пользователей классифицируются...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
11 окт 2024, 00:03
Оптимизация комбинаций переменных для максимизации классификации

Последнее сообщение Anonymous « 14 окт 2024, 18:29
Добавлено в форуме Python

Anonymous » 14 окт 2024, 18:29 » в форуме Python

Я работаю с набором данных, в котором пользователи взаимодействуют через приложение или веб-сайт, и мне нужно определить оптимальную комбинацию переменных (x1, x2, ... xn), которая позволит максимизировать количество пользователей классифицируются...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
14 окт 2024, 18:29
Оптимизация фильтрованных комбинаций комбинаций

Последнее сообщение Anonymous « 10 фев 2025, 15:13
Добавлено в форуме Python

Anonymous » 10 фев 2025, 15:13 » в форуме Python

Я пытаюсь создать программное обеспечение, чтобы помочь организовать Mixed Padel Tourments, чтобы сделать это, я создаю функцию, которая генерирует раунды. Игроки X (x as evel), функция должна генерировать раунд матчей X/2, причем ни один игрок не...

0 Ответы

20 Просмотры

Последнее сообщение Anonymous
10 фев 2025, 15:13

Вернуться в «Python»