Я ранее использовал приведенный ниже код, но в итоге он приводил к тому, что мои графики вступили в хаос (значения данных намного превышают то, что человечно возможно, чтобы оказать их ногами). Мне любопытно, потому что я вижу, что большинство людей используют Z-Score для удаления выбросов, но реализация не сработала для меня. Моя реализация неправильно или есть лучший способ приблизиться к этому? < /P>
Я ранее использовал приведенный ниже код, но в итоге он приводил к тому, что мои графики вступили в хаос (значения данных намного превышают то, что человечно возможно, чтобы оказать их ногами). Мне любопытно, потому что я вижу, что большинство людей используют Z-Score для удаления выбросов, но реализация не сработала для меня. Моя реализация неправильно или есть лучший способ приблизиться к этому? < /P> [code]mean = np.mean(curr_data, axis=0) std = np.std(curr_data, axis=0)
mask = np.abs(curr_data - mean) = 0]) if np.any(row >= 0) else 0 for row in curr_data ]) curr_data = np.where(mask,curr_data,means[:, None]) [/code] Пример данных:
В моем сюжете есть всего лишь несколько шумов, как вы можете видеть. Я пытался использовать scipy.signal savgol_filter, но эта тенденция изменилась. Я просто хочу удалить эти звуки и сделать их подходящими для кривой. Спасибо.
Итак, нам дали проект для одного из моих университетских занятий «Наука о данных», и нам дали набор данных дорожных датчиков, фиксирующих скорость транспортных средств на дороге каждые 5 минут.
(набор данных был с этого сайта : PEMS-BAY.csv )
Я...
Мои данные для машинного обучения имеют несколько переменных, ниже приведен график ящика одной из переменных (вызовите это x) против результата (вызовите это Y). Я хочу удалить выбросы в x, но только для x = 0, 1, 2, 3, 4, так как нет выбросов для x...
У меня есть DataFrame df с столбцами house_price , no_bedrooms и house_type . Я хочу группировать на основе House_type и удалить выбросы на основе House_type . Например, выбросы в квартирах, выбросах в отдельном доме и т. Д.