После кодирования категориальных столбцов в кадре данных pandas у меня осталось слишком много столбцов. Как я могу броси

После кодирования категориальных столбцов в кадре данных pandas у меня осталось слишком много столбцов. Как я могу броси ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

После кодирования категориальных столбцов в кадре данных pandas у меня осталось слишком много столбцов. Как я могу броси

Цитата

Сообщение Anonymous » 08 ноя 2025, 22:54

Я использую Python с фреймом данных pandas, это CSV-файл с играми Steam, и у меня есть категориальные столбцы с издателями, разработчиками, категориями, жанрами и тегами, но категории, жанры и теги являются наиболее проблематичными. Эти столбцы представляют собой списки строк, т.е.

Код: Выделить всё

tags
"['Psychological Horror', 'D Vision', 'Emotional', 'Modern', 'Immersive Sim', 'Singleplayer', 'Dungeon Crawler', 'Realistic', 'Exploration', 'Mature', 'Walking Simulator', 'First-Person', 'Mystery', 'VR', 'Indie', 'Hidden Object', 'RPG', 'Puzzle', 'Adventure', 'Multiple Endings']"
"['Indie', 'Singleplayer', 'Narration', 'Hidden Object', 'Retro', 'D', 'Puzzle', 'Classic', 'Fantasy', 'Adventure', 'Story Rich', 'Family Friendly', 'Point & Click', 'Atmospheric', 'Minigames', 'Mystery']"

Код: Выделить всё

genres
"['Adventure', 'Indie', 'RPG', 'Simulation']"
"['Adventure', 'Indie']"
"['Action', 'Adventure']"
['Adventure']
"['RPG', 'Simulation', 'Sports', 'Early Access']"
"['Action', 'Adventure', 'RPG']"
"['Action', 'Adventure', 'Indie', 'Simulation']"
"['Adventure', 'Indie']"
"['Casual', 'Indie']"
"['Action', 'Adventure', 'Indie']"

Код: Выделить всё

categories
"['Single-player', 'VR Supported', 'Family Sharing']"
"['Single-player', 'Steam Achievements', 'Steam Cloud', 'Family Sharing']"
"['Single-player', 'Steam Achievements', 'In-App Purchases', 'Partial Controller Support', 'Family Sharing']"
"['Single-player', 'Family Sharing']"
"['Multi-player', 'PvP', 'Online PvP', 'Steam Achievements', 'Full controller support', 'Steam Cloud', 'Family Sharing']"
"['Single-player', 'Steam Achievements', 'Full controller support', 'Steam Trading Cards', 'Steam Cloud', 'Family Sharing']"
"['Single-player', 'Steam Achievements', 'Full controller support', 'Steam Trading Cards', 'Steam Cloud', 'Remote Play on Tablet', 'Family Sharing']"
"['Single-player', 'Steam Achievements', 'Full controller support', 'Steam Trading Cards', 'Steam Cloud', 'Remote Play on Phone', 'Remote Play on Tablet', 'Family Sharing']"
"['Single-player', 'Steam Achievements', 'Steam Cloud', 'Family Sharing']"
"['Single-player', 'Steam Achievements', 'Full controller support', 'Steam Cloud', 'Family Sharing']"

из CSV. Двойные кавычки обозначают новую запись.
Поскольку существует так много жанров, категорий и тегов, после того как я закодировал столбцы для обучения алгоритма машинного обучения, у меня осталось более 34 000 столбцов. Это проект для моего класса в колледже, поэтому я НЕ хочу работать с таким большим количеством данных.
Я хочу удалить столбцы «is_[blank]», которые создаются после кодирования только с 1–5 появлениями, поскольку они просто не так важны в общей схеме из 14 000 записей данных.
Что я могу сделать, чтобы удалить некоторые из этих конкретных жанров/тегов/категорий, не удаляя целые строки, которые имеют другие теги/жанры/категории, которые ДЕЙСТВИТЕЛЬНО встречаются гораздо чаще, чем 1-5? С разработчиками и издателями все в порядке.

Подробнее здесь: https://stackoverflow.com/questions/798 ... t-with-too

1762631694

Anonymous

Я использую Python с фреймом данных pandas, это CSV-файл с играми Steam, и у меня есть категориальные столбцы с издателями, разработчиками, категориями, жанрами и тегами, но категории, жанры и теги являются наиболее проблематичными. Эти столбцы представляют собой списки строк, т.е.
[code]tags
"['Psychological Horror', 'D Vision', 'Emotional', 'Modern', 'Immersive Sim', 'Singleplayer', 'Dungeon Crawler', 'Realistic', 'Exploration', 'Mature', 'Walking Simulator', 'First-Person', 'Mystery', 'VR', 'Indie', 'Hidden Object', 'RPG', 'Puzzle', 'Adventure', 'Multiple Endings']"
"['Indie', 'Singleplayer', 'Narration', 'Hidden Object', 'Retro', 'D', 'Puzzle', 'Classic', 'Fantasy', 'Adventure', 'Story Rich', 'Family Friendly', 'Point & Click', 'Atmospheric', 'Minigames', 'Mystery']"
[/code]
[code]genres
"['Adventure', 'Indie', 'RPG', 'Simulation']"
"['Adventure', 'Indie']"
"['Action', 'Adventure']"
['Adventure']
"['RPG', 'Simulation', 'Sports', 'Early Access']"
"['Action', 'Adventure', 'RPG']"
"['Action', 'Adventure', 'Indie', 'Simulation']"
"['Adventure', 'Indie']"
"['Casual', 'Indie']"
"['Action', 'Adventure', 'Indie']"
[/code]
[code]categories
"['Single-player', 'VR Supported', 'Family Sharing']"
"['Single-player', 'Steam Achievements', 'Steam Cloud', 'Family Sharing']"
"['Single-player', 'Steam Achievements', 'In-App Purchases', 'Partial Controller Support', 'Family Sharing']"
"['Single-player', 'Family Sharing']"
"['Multi-player', 'PvP', 'Online PvP', 'Steam Achievements', 'Full controller support', 'Steam Cloud', 'Family Sharing']"
"['Single-player', 'Steam Achievements', 'Full controller support', 'Steam Trading Cards', 'Steam Cloud', 'Family Sharing']"
"['Single-player', 'Steam Achievements', 'Full controller support', 'Steam Trading Cards', 'Steam Cloud', 'Remote Play on Tablet', 'Family Sharing']"
"['Single-player', 'Steam Achievements', 'Full controller support', 'Steam Trading Cards', 'Steam Cloud', 'Remote Play on Phone', 'Remote Play on Tablet', 'Family Sharing']"
"['Single-player', 'Steam Achievements', 'Steam Cloud', 'Family Sharing']"
"['Single-player', 'Steam Achievements', 'Full controller support', 'Steam Cloud', 'Family Sharing']"
[/code]
из CSV. Двойные кавычки обозначают новую запись.
Поскольку существует так много жанров, категорий и тегов, после того как я закодировал столбцы для обучения алгоритма машинного обучения, у меня осталось более 34 000 столбцов. Это проект для моего класса в колледже, поэтому я НЕ хочу работать с таким большим количеством данных.
Я хочу удалить столбцы «is_[blank]», которые создаются после кодирования только с 1–5 появлениями, поскольку они просто не так важны в общей схеме из 14 000 записей данных.
Что я могу сделать, чтобы удалить некоторые из этих конкретных жанров/тегов/категорий, не удаляя целые строки, которые имеют другие теги/жанры/категории, которые ДЕЙСТВИТЕЛЬНО встречаются гораздо чаще, чем 1-5? С разработчиками и издателями все в порядке. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79812688/after-encoding-my-categorical-columns-in-a-pandas-dataframe-i-was-left-with-too[/url]