После кодирования категориальных столбцов в кадре данных pandas у меня осталось слишком много столбцов. Как я могу бросиPython

Программы на Python
Ответить
Anonymous
 После кодирования категориальных столбцов в кадре данных pandas у меня осталось слишком много столбцов. Как я могу броси

Сообщение Anonymous »

Я использую Python с фреймом данных pandas, это CSV-файл с играми Steam, и у меня есть категориальные столбцы с издателями, разработчиками, категориями, жанрами и тегами, но категории, жанры и теги являются наиболее проблематичными. Эти столбцы представляют собой списки строк, т.е.

Код: Выделить всё

tags
"['Psychological Horror', 'D Vision', 'Emotional', 'Modern', 'Immersive Sim', 'Singleplayer', 'Dungeon Crawler', 'Realistic', 'Exploration', 'Mature', 'Walking Simulator', 'First-Person', 'Mystery', 'VR', 'Indie', 'Hidden Object', 'RPG', 'Puzzle', 'Adventure', 'Multiple Endings']"
"['Indie', 'Singleplayer', 'Narration', 'Hidden Object', 'Retro', 'D', 'Puzzle', 'Classic', 'Fantasy', 'Adventure', 'Story Rich', 'Family Friendly', 'Point & Click', 'Atmospheric', 'Minigames', 'Mystery']"

Код: Выделить всё

genres
"['Adventure', 'Indie', 'RPG', 'Simulation']"
"['Adventure', 'Indie']"
"['Action', 'Adventure']"
['Adventure']
"['RPG', 'Simulation', 'Sports', 'Early Access']"
"['Action', 'Adventure', 'RPG']"
"['Action', 'Adventure', 'Indie', 'Simulation']"
"['Adventure', 'Indie']"
"['Casual', 'Indie']"
"['Action', 'Adventure', 'Indie']"

Код: Выделить всё

categories
"['Single-player', 'VR Supported', 'Family Sharing']"
"['Single-player', 'Steam Achievements', 'Steam Cloud', 'Family Sharing']"
"['Single-player', 'Steam Achievements', 'In-App Purchases', 'Partial Controller Support', 'Family Sharing']"
"['Single-player', 'Family Sharing']"
"['Multi-player', 'PvP', 'Online PvP', 'Steam Achievements', 'Full controller support', 'Steam Cloud', 'Family Sharing']"
"['Single-player', 'Steam Achievements', 'Full controller support', 'Steam Trading Cards', 'Steam Cloud', 'Family Sharing']"
"['Single-player', 'Steam Achievements', 'Full controller support', 'Steam Trading Cards', 'Steam Cloud', 'Remote Play on Tablet', 'Family Sharing']"
"['Single-player', 'Steam Achievements', 'Full controller support', 'Steam Trading Cards', 'Steam Cloud', 'Remote Play on Phone', 'Remote Play on Tablet', 'Family Sharing']"
"['Single-player', 'Steam Achievements', 'Steam Cloud', 'Family Sharing']"
"['Single-player', 'Steam Achievements', 'Full controller support', 'Steam Cloud', 'Family Sharing']"
из CSV. Двойные кавычки обозначают новую запись.
Поскольку существует так много жанров, категорий и тегов, после того как я закодировал столбцы для обучения алгоритма машинного обучения, у меня осталось более 34 000 столбцов. Это проект для моего класса в колледже, поэтому я НЕ хочу работать с таким большим количеством данных.
Я хочу удалить столбцы «is_[blank]», которые создаются после кодирования только с 1–5 появлениями, поскольку они просто не так важны в общей схеме из 14 000 записей данных.
Что я могу сделать, чтобы удалить некоторые из этих конкретных жанров/тегов/категорий, не удаляя целые строки, которые имеют другие теги/жанры/категории, которые ДЕЙСТВИТЕЛЬНО встречаются гораздо чаще, чем 1-5? С разработчиками и издателями все в порядке.
Спасибо! У меня тоже срок...

Подробнее здесь: https://stackoverflow.com/questions/798 ... t-with-too
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»