Предположим, у меня есть входные данные DataSet в формате CSV.
Что я нашел в Google и других ресурсах о ежедневная работа аналитика данных и специалиста по данным.
- Как только пользователь получит DataSet, сначала он будет манипулировать им с помощью библиотеки Python Pandas, которая включает в себя очистку данных и другие вещи.
- Затем пользователь визуализирует данные с помощью matplotlib и других методов.
- Пользователь может написать алгоритмы машинного обучения, чтобы получить прогноз по некоторым критериям.
С другой стороны, я обнаружил, что Pydoop (фреймворк Hadoop на Python)
выполняет такие операции, как хранение, обработка и т. д.
Я немного запутался. , в упомянутом выше рабочем процессе анализа данных, где конкретно находится pydoop?
Пожалуйста, подскажите мне.
Подробнее здесь: https://stackoverflow.com/questions/516 ... ta-science