Pandas, эквивалентный pyspark QuantileDiscretizerPython

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Pandas, эквивалентный pyspark QuantileDiscretizer

Сообщение Anonymous »

У меня специальное задание — преобразовать фрагмент кода pyspark в python/pandas.
пытаюсь найти эквивалент pyspark QuantileDiscretizer в мире панд. Самое близкое, что я могу найти, это функция qcut. Однако, похоже, он не на 100% эквивалентен QuantileDiscretizer.
Я провел сравнение между этими двумя, используя три типа сегментов — 2, 3 и 10.

Код: Выделить всё

inputs = [(4.0, 4.0, 4.0), (1.0, 1.0, 1.0), (3.0, 3.0, 3.0), (2.0, 2.0, 2.0),(5.0, 5.0, 5.0),(6.0, 6.0, 6.0),(8.0, 8.0, 8.0),(7.0, 7.0, 7.0),(10.0, 10.0, 10.0), (9.0, 9.0, 9.0)]
df2 = spark.createDataFrame(inputs, ["input1", "input2",  "input3"])

qds3 = QuantileDiscretizer(numBucketsArray=[2, 3, 10], inputCols=["input1", "input2", "input3"], outputCols=["output1", "output2", "output3"])
qds3.setHandleInvalid("skip").fit(df2).transform(df2).show()

print(">>>>>>>>>>>>>>>>pd.qcut output:")
import numpy as np, pandas as pd
arr = np.array([4.0, 1.0, 3.0, 2.0, 5.0, 6.0, 8.0, 7.0, 10.0, 9.0 ])
pd.qcut(arr, 2, retbins=True, labels=False)
pd.qcut(arr, 3, retbins=True, labels=False)
pd.qcut(arr, 10, retbins=True, labels=False)
Изображение

Кажется, для сегмента 3 результаты идентичны, но не для сегмента 2 и 10. См. результаты, выделенные красным и синим цветом на скриншоте.
Кто-нибудь сталкивался с этим раньше? Знаете ли вы замену QuantileDiscretizer в мире панд?

Подробнее здесь: https://stackoverflow.com/questions/792 ... iscretizer
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение
  • Как преобразовать фрейм данных PySpark Pandas в фрейм данных PySpark?
    Anonymous » » в форуме Python
    0 Ответы
    34 Просмотры
    Последнее сообщение Anonymous
  • JavaScript, эквивалентный Pandas read_csv и to_markdown?
    Гость » » в форуме Javascript
    0 Ответы
    54 Просмотры
    Последнее сообщение Гость
  • Что такое фрейм данных Pandas, эквивалентный «левому соединению» с дубликатами?
    Anonymous » » в форуме Python
    0 Ответы
    12 Просмотры
    Последнее сообщение Anonymous
  • PySpark: почему использование F.expr работает, а использование API PySpark — нет
    Anonymous » » в форуме Python
    0 Ответы
    24 Просмотры
    Последнее сообщение Anonymous
  • PySpark: почему использование F.expr работает, а использование API PySpark — нет
    Anonymous » » в форуме Python
    0 Ответы
    15 Просмотры
    Последнее сообщение Anonymous

Вернуться в «Python»