Я использую Python с фреймом данных pandas, это CSV-файл с играми Steam, и у меня есть категориальные столбцы с издателями, разработчиками, категориями, жанрами и тегами, но категории, жанры и теги являются наиболее проблематичными. Эти столбцы представляют собой списки строк, т.е.
из CSV. Двойные кавычки обозначают новую запись.
Поскольку существует так много жанров, категорий и тегов, после того как я закодировал столбцы для обучения алгоритма машинного обучения, у меня осталось более 34 000 столбцов. Это проект для моего класса в колледже, поэтому я НЕ хочу работать с таким большим количеством данных.
Я хочу удалить столбцы «is_[blank]», которые создаются после кодирования только с 1–5 появлениями, поскольку они просто не так важны в общей схеме из 14 000 записей данных.
Что я могу сделать, чтобы удалить некоторые из этих конкретных жанров/тегов/категорий, не удаляя целые строки, которые имеют другие теги/жанры/категории, которые ДЕЙСТВИТЕЛЬНО встречаются гораздо чаще, чем 1-5? С разработчиками и издателями все в порядке.
Я использую Python с фреймом данных pandas, это CSV-файл с играми Steam, и у меня есть категориальные столбцы с издателями, разработчиками, категориями, жанрами и тегами, но категории, жанры и теги являются наиболее проблематичными. Эти столбцы представляют собой списки строк, т.е. [code]tags "['Psychological Horror', 'D Vision', 'Emotional', 'Modern', 'Immersive Sim', 'Singleplayer', 'Dungeon Crawler', 'Realistic', 'Exploration', 'Mature', 'Walking Simulator', 'First-Person', 'Mystery', 'VR', 'Indie', 'Hidden Object', 'RPG', 'Puzzle', 'Adventure', 'Multiple Endings']" "['Indie', 'Singleplayer', 'Narration', 'Hidden Object', 'Retro', 'D', 'Puzzle', 'Classic', 'Fantasy', 'Adventure', 'Story Rich', 'Family Friendly', 'Point & Click', 'Atmospheric', 'Minigames', 'Mystery']" [/code] [code]genres "['Adventure', 'Indie', 'RPG', 'Simulation']" "['Adventure', 'Indie']" "['Action', 'Adventure']" ['Adventure'] "['RPG', 'Simulation', 'Sports', 'Early Access']" "['Action', 'Adventure', 'RPG']" "['Action', 'Adventure', 'Indie', 'Simulation']" "['Adventure', 'Indie']" "['Casual', 'Indie']" "['Action', 'Adventure', 'Indie']" [/code] [code]categories "['Single-player', 'VR Supported', 'Family Sharing']" "['Single-player', 'Steam Achievements', 'Steam Cloud', 'Family Sharing']" "['Single-player', 'Steam Achievements', 'In-App Purchases', 'Partial Controller Support', 'Family Sharing']" "['Single-player', 'Family Sharing']" "['Multi-player', 'PvP', 'Online PvP', 'Steam Achievements', 'Full controller support', 'Steam Cloud', 'Family Sharing']" "['Single-player', 'Steam Achievements', 'Full controller support', 'Steam Trading Cards', 'Steam Cloud', 'Family Sharing']" "['Single-player', 'Steam Achievements', 'Full controller support', 'Steam Trading Cards', 'Steam Cloud', 'Remote Play on Tablet', 'Family Sharing']" "['Single-player', 'Steam Achievements', 'Full controller support', 'Steam Trading Cards', 'Steam Cloud', 'Remote Play on Phone', 'Remote Play on Tablet', 'Family Sharing']" "['Single-player', 'Steam Achievements', 'Steam Cloud', 'Family Sharing']" "['Single-player', 'Steam Achievements', 'Full controller support', 'Steam Cloud', 'Family Sharing']" [/code] из CSV. Двойные кавычки обозначают новую запись. Поскольку существует так много жанров, категорий и тегов, после того как я закодировал столбцы для обучения алгоритма машинного обучения, у меня осталось более 34 000 столбцов. Это проект для моего класса в колледже, поэтому я НЕ хочу работать с таким большим количеством данных. Я хочу удалить столбцы «is_[blank]», которые создаются после кодирования только с 1–5 появлениями, поскольку они просто не так важны в общей схеме из 14 000 записей данных. Что я могу сделать, чтобы удалить некоторые из этих конкретных жанров/тегов/категорий, не удаляя целые строки, которые имеют другие теги/жанры/категории, которые ДЕЙСТВИТЕЛЬНО встречаются гораздо чаще, чем 1-5? С разработчиками и издателями все в порядке.