Лучший подход к фильтрации и исправлению данных в пандах ⇐ Python
Лучший подход к фильтрации и исправлению данных в пандах
Я относительно новичок в Python и Pandas. Ищу опытный совет о том, как профессионалы справятся со следующей ситуацией:
У меня есть этот фрейм данных:
dfsupport = pd.DataFrame({'Date': ['12.08.2020', '12.08.2020', '13.01.2020', '24.05.2020', «31.10.2020», «7.11.2020», «7.11.2020», «4.04.2020», «02.01.2020»], «Категория»: [«Стол», «Стул», «Подушка», «Стол», «Стул», «Коврики», «Коврики», «Большой», «Большой»], «Продажи»: ['1 стол», «3 стула», «8 подушек», «3 стола», «12 стульев», «12 ковриков», «4 коврика», «13 стульев и 2 стола», «3 коврика, 2 подушки». 4@стулья'], «Оплачено»: [«Да», «Да», «Да», «Да», «Нет», «Да», «Да», «Нет», «Да»], «Сумма»: ['93,78','$51,99','44,99','38,24','£29,99','29 21 только','18','312,8','63,77' ] }) Таблица выглядит так:
Дата Категория Оплаченная сумма продаж 0 12.08.2020 Таблица 1 таблица Да 93,78 1 12.08.2020 Стул 3 стула Да $51,99 2 01.13.2020 Подушка 8 подушек Да 44,99 3 24.05.2020 Таблица 3Таблицы Да 38,24 4 31.10.2020 Стул 12 Стульев Нет £ 29,99 5 07.11.2020 Маты 12 Маты Да 29 Только 21 6 07.11.2020 Маты 4Матцы Да 18 7 04.04.2020 Большие 13 стульев и 2 стола № 312.8 8 02.01.2020 Большие 3 коврика, 2 подушки 4@стулья Да 63,77 Если я посмотрю на столбцы Продажи и Сумма, я увижу, что они сложны с точки зрения логики фильтрации, которую необходимо выполнить, чтобы «исправить» их. Итак, все Amount должны быть плавающими, а Sales мне нужно оставить, но извлечь числа и связанные категории. Поэтому для продаж я думаю, что мне следует извлечь, чтобы все было само по себе: например,
3 коврика, 2 подушки 4@стулья станет Дата => Категория => Продажи 02.01.2020 => Коврики => 3 Я предполагаю, что это должна быть новая строка.
Я рассмотрел вышеизложенное индивидуально в качестве учебного упражнения и получил на этом сайте помощь в том, как разблокировать себя. Но сопоставьте все это воедино: какой подход лучше всего подойдет?
Мои мысли: Должен ли я создавать разные регулярные выражения, которые передают кадр данных по одному? Применяете ли вы цикл for к фрейму данных и анализируете, находятся ли данные в каждом столбце в ожидаемой мной структуре, а если нет, то перебираете функции, которые будут пробовать различные методы коррекции, чтобы увидеть, какой из них работает. Если к концу цикла мы снова проверим строку, все должно быть в порядке, если нет, то, думаю, мы разорвем цикл.
Не имея никакого опыта, это лучшее, что я могу придумать, какие еще способы можно было бы решить эту проблему?
Я относительно новичок в Python и Pandas. Ищу опытный совет о том, как профессионалы справятся со следующей ситуацией:
У меня есть этот фрейм данных:
dfsupport = pd.DataFrame({'Date': ['12.08.2020', '12.08.2020', '13.01.2020', '24.05.2020', «31.10.2020», «7.11.2020», «7.11.2020», «4.04.2020», «02.01.2020»], «Категория»: [«Стол», «Стул», «Подушка», «Стол», «Стул», «Коврики», «Коврики», «Большой», «Большой»], «Продажи»: ['1 стол», «3 стула», «8 подушек», «3 стола», «12 стульев», «12 ковриков», «4 коврика», «13 стульев и 2 стола», «3 коврика, 2 подушки». 4@стулья'], «Оплачено»: [«Да», «Да», «Да», «Да», «Нет», «Да», «Да», «Нет», «Да»], «Сумма»: ['93,78','$51,99','44,99','38,24','£29,99','29 21 только','18','312,8','63,77' ] }) Таблица выглядит так:
Дата Категория Оплаченная сумма продаж 0 12.08.2020 Таблица 1 таблица Да 93,78 1 12.08.2020 Стул 3 стула Да $51,99 2 01.13.2020 Подушка 8 подушек Да 44,99 3 24.05.2020 Таблица 3Таблицы Да 38,24 4 31.10.2020 Стул 12 Стульев Нет £ 29,99 5 07.11.2020 Маты 12 Маты Да 29 Только 21 6 07.11.2020 Маты 4Матцы Да 18 7 04.04.2020 Большие 13 стульев и 2 стола № 312.8 8 02.01.2020 Большие 3 коврика, 2 подушки 4@стулья Да 63,77 Если я посмотрю на столбцы Продажи и Сумма, я увижу, что они сложны с точки зрения логики фильтрации, которую необходимо выполнить, чтобы «исправить» их. Итак, все Amount должны быть плавающими, а Sales мне нужно оставить, но извлечь числа и связанные категории. Поэтому для продаж я думаю, что мне следует извлечь, чтобы все было само по себе: например,
3 коврика, 2 подушки 4@стулья станет Дата => Категория => Продажи 02.01.2020 => Коврики => 3 Я предполагаю, что это должна быть новая строка.
Я рассмотрел вышеизложенное индивидуально в качестве учебного упражнения и получил на этом сайте помощь в том, как разблокировать себя. Но сопоставьте все это воедино: какой подход лучше всего подойдет?
Мои мысли: Должен ли я создавать разные регулярные выражения, которые передают кадр данных по одному? Применяете ли вы цикл for к фрейму данных и анализируете, находятся ли данные в каждом столбце в ожидаемой мной структуре, а если нет, то перебираете функции, которые будут пробовать различные методы коррекции, чтобы увидеть, какой из них работает. Если к концу цикла мы снова проверим строку, все должно быть в порядке, если нет, то, думаю, мы разорвем цикл.
Не имея никакого опыта, это лучшее, что я могу придумать, какие еще способы можно было бы решить эту проблему?
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
-
-
Пытаюсь установить Pi-Apps, но удерживаемые зависимости не поддаются исправлению.
Anonymous » » в форуме Linux - 0 Ответы
- 15 Просмотры
-
Последнее сообщение Anonymous
-
-
-
Подход, необходимый для фильтрации агрегированных данных в Laravel/MySQL 8
Anonymous » » в форуме Php - 0 Ответы
- 12 Просмотры
-
Последнее сообщение Anonymous
-
-
-
Подход, необходимый для фильтрации агрегированных данных в Laravel/MySQL 8
Anonymous » » в форуме MySql - 0 Ответы
- 21 Просмотры
-
Последнее сообщение Anonymous
-