Обработка поведенческих оценок с помощью смешанных шкал: лучшие практики кодирования и упорядочивания рангов

Обработка поведенческих оценок с помощью смешанных шкал: лучшие практики кодирования и упорядочивания рангов ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Обработка поведенческих оценок с помощью смешанных шкал: лучшие практики кодирования и упорядочивания рангов

Цитата

Сообщение Anonymous » 24 окт 2024, 07:53

Описание проблемы:
Я работаю над конвейером обработки данных, который включает обработку данных поведенческих опросов из нескольких шкал (например, шкалы Лайкерта, оценки частоты и категориальные данные). Моя цель — правильно закодировать эти смешанные шкалы, сохраняя при этом правильный ранг/порядок (например, гарантируя, что более высокие оценки Лайкерта указывают на более сильное согласие).
Однако я столкнулся с несколькими проблемами. с кодированием и сохранением ранга.
Вопрос:
Каковы надежные методы или лучшие практики для:

Кодирование поведенческих шкал смешанного типа (например, шкалы Лайкерта, категориальные оценки, оценки частоты) с сохранением порядка и ранга.
Обработка противоречивых наборов ответов в разных опросах ( например, 5-балльная или 7-балльная шкалы).
Динамическое кодирование порядковых и категориальных переменных с соблюдением естественного порядка.
Работа с пропущенными значениями и противоречивыми ответами в процессе кодирования.

Инструменты, которые я использую:
Python ( Pandas, Scikit-learn)
Streamlit (для визуализации и отчетности)
Любые предложения по инструментам, рабочим процессам или алгоритмам для динамического и эффективного кодирования поведенческих данных будут с благодарностью приняты. Мне также хотелось бы знать, сталкивался ли кто-нибудь с подобными проблемами и нашел решения, которые работают с различными наборами данных. Я относительно новичок в этом конвейере данных. Заранее спасибо!
Ниже приведены подходы, которые я пробовал до сих пор, но ни один из них не дал надежного, обобщаемого решения:
Жесткий сопоставления кодирования для категорий и порядковых признаков, например:
{'Никогда': 0, 'Редко': 1, 'Иногда': 2, 'Часто': 3, 'Всегда': 4
Это стало невозможно контролировать в нескольких наборах данных с несколько разными наборами ответов (например, в некоторых опросах используются 5-балльные шкалы, в других — 7-балльные).
Кодировка LightGBM: I использовал LightGBM для динамического кодирования категориальных функций. Хотя он хорошо работает для определения важности признаков, он, похоже, не отражает и не поддерживает порядковый характер всех шкал.
Методы кластеризации для поиска закономерностей в ответах, но этот подход не учитывает естественный порядок некоторых порядковых шкал.
Горячее кодирование: при этом полностью утрачивается ранговая структура, что делает его непригодным для некоторых видов анализа.
Порядковое кодирование : Я также попробовал OrdinalEncoder из sklearn, но он не закодировал столбцы должным образом (в некоторых случаях результаты не соответствовали ожидаемому порядку или значению).

Подробнее здесь: https://stackoverflow.com/questions/791 ... ing-and-or

1729745622

Anonymous

Описание проблемы:
Я работаю над конвейером обработки данных, который включает обработку данных поведенческих опросов из нескольких шкал (например, шкалы Лайкерта, оценки частоты и категориальные данные). Моя цель — правильно закодировать эти смешанные шкалы, сохраняя при этом правильный ранг/порядок (например, гарантируя, что более высокие оценки Лайкерта указывают на более сильное согласие).
Однако я столкнулся с несколькими проблемами. с кодированием и сохранением ранга.
Вопрос:
Каковы надежные методы или лучшие практики для:
[list]
[*]Кодирование поведенческих шкал смешанного типа (например, шкалы Лайкерта, категориальные оценки, оценки частоты) с сохранением порядка и ранга.
[*]Обработка противоречивых наборов ответов в разных опросах ( например, 5-балльная или 7-балльная шкалы).
[*]Динамическое кодирование порядковых и категориальных переменных с соблюдением естественного порядка.
[*] Работа с пропущенными значениями и противоречивыми ответами в процессе кодирования.
[/list]
Инструменты, которые я использую:
Python ( Pandas, Scikit-learn)
Streamlit (для визуализации и отчетности)
Любые предложения по инструментам, рабочим процессам или алгоритмам для динамического и эффективного кодирования поведенческих данных будут с благодарностью приняты. Мне также хотелось бы знать, сталкивался ли кто-нибудь с подобными проблемами и нашел решения, которые работают с различными наборами данных. Я относительно новичок в этом конвейере данных. Заранее спасибо!
Ниже приведены подходы, которые я пробовал до сих пор, но ни один из них не дал надежного, обобщаемого решения:
Жесткий сопоставления кодирования для категорий и порядковых признаков, например:
{'Никогда': 0, 'Редко': 1, 'Иногда': 2, 'Часто': 3, 'Всегда': 4
Это стало невозможно контролировать в нескольких наборах данных с несколько разными наборами ответов (например, в некоторых опросах используются 5-балльные шкалы, в других — 7-балльные).
Кодировка LightGBM: I использовал LightGBM для динамического кодирования категориальных функций. Хотя он хорошо работает для определения важности признаков, он, похоже, не отражает и не поддерживает порядковый характер всех шкал.
Методы кластеризации для поиска закономерностей в ответах, но этот подход не учитывает естественный порядок некоторых порядковых шкал.
Горячее кодирование: при этом полностью утрачивается ранговая структура, что делает его непригодным для некоторых видов анализа.
Порядковое кодирование : Я также попробовал OrdinalEncoder из sklearn, но он не закодировал столбцы должным образом (в некоторых случаях результаты не соответствовали ожидаемому порядку или значению). 

Подробнее здесь: [url]https://stackoverflow.com/questions/79120394/handling-behavioral-scores-with-mixed-scales-best-practices-for-encoding-and-or[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Разрешены ли проверки рангов для записи всплесков в симуляциях Arbor?

Последнее сообщение Гость « 27 фев 2024, 18:44
Добавлено в форуме Python

Гость » 27 фев 2024, 18:44 » в форуме Python

В симуляторе Arbor можно указать, следует ли записывать никакие, локальные или все пики при работе с распределенными симуляциями MPI. Есть ли какие-либо причины локально записывать каждый MPI и транслировать результаты вместо записи всех пиков...

0 Ответы

53 Просмотры

Последнее сообщение Гость
27 фев 2024, 18:44
Python: обработка смешанных типов данных в столбце доходов CSV (десятичные, отрицательные, пробелы) при чтении с помощью

Последнее сообщение Anonymous « 05 дек 2023, 11:30
Добавлено в форуме Python

Anonymous » 05 дек 2023, 11:30 » в форуме Python

Участники, Я новичок в Python и пришел сюда по простому вопросу, который не могу найти в сети.

У меня есть данные о продажах с информацией о клиентах, датами и доходами. Преобразовали файл в .csv

когда я читаю файл csv в Python, он выдает...

0 Ответы

39 Просмотры

Последнее сообщение Anonymous
05 дек 2023, 11:30
Обработка смешанных цветовых пространств: правильное рисование sRGB и отображение изображений P3 в Android

Последнее сообщение Anonymous « 25 сен 2024, 10:32
Добавлено в форуме Android

Anonymous » 25 сен 2024, 10:32 » в форуме Android

У меня есть Google Pixel 7, который поддерживает дисплей с широкой гаммой. Я заметил, что когда я просматриваю цвета в браузере, например, посещая эту цветную страницу, и делаю снимок экрана, красный цвет sRGB # FF0000 преобразуется в Display P3 #...

0 Ответы

8 Просмотры

Последнее сообщение Anonymous
25 сен 2024, 10:32
Как использовать _mm256_shuffle_epi8 для упорядочивания элементов

Последнее сообщение Гость « 21 сен 2023, 12:49
Добавлено в форуме C++

Гость » 21 сен 2023, 12:49 » в форуме C++

Я пробую следующий код. Я знаю, что в функции перемешивания есть некоторые ограничения по полосам движения. Но я не знаю, как правильно с этим справиться. Есть у кого-нибудь идеи?
#include интервал основной() { auto vals = _mm256_setr_epi8( 0, 3,...

0 Ответы

32 Просмотры

Последнее сообщение Гость
21 сен 2023, 12:49
Как использовать _mm256_shuffle_epi8 для упорядочивания элементов

Последнее сообщение Гость « 21 сен 2023, 13:57
Добавлено в форуме C++

Гость » 21 сен 2023, 13:57 » в форуме C++

Я пробую следующий код. Я знаю, что в функции перемешивания есть некоторые ограничения по полосам движения. Но я не знаю, как правильно с этим справиться. Есть у кого-нибудь идеи?
#include интервал основной() { auto vals = _mm256_setr_epi8( 0, 3,...

0 Ответы

29 Просмотры

Последнее сообщение Гость
21 сен 2023, 13:57

Вернуться в «Python»