У меня специальное задание — преобразовать фрагмент кода pyspark в python/pandas.
пытаюсь найти эквивалент pyspark QuantileDiscretizer в мире панд. Самое близкое, что я могу найти, это функция qcut. Однако, похоже, он не на 100% эквивалентен QuantileDiscretizer.
Я провел сравнение между этими двумя, используя три типа сегментов — 2, 3 и 10.
Кажется, для сегмента 3 результаты идентичны, но не для сегмента 2 и 10. См. результаты, выделенные красным и синим цветом на скриншоте.
Кто-нибудь сталкивался с этим раньше? Знаете ли вы замену QuantileDiscretizer в мире панд?
У меня специальное задание — преобразовать фрагмент кода pyspark в python/pandas. пытаюсь найти эквивалент pyspark QuantileDiscretizer в мире панд. Самое близкое, что я могу найти, это функция qcut. Однако, похоже, он не на 100% эквивалентен QuantileDiscretizer. Я провел сравнение между этими двумя, используя три типа сегментов — 2, 3 и 10. [code]inputs = [(4.0, 4.0, 4.0), (1.0, 1.0, 1.0), (3.0, 3.0, 3.0), (2.0, 2.0, 2.0),(5.0, 5.0, 5.0),(6.0, 6.0, 6.0),(8.0, 8.0, 8.0),(7.0, 7.0, 7.0),(10.0, 10.0, 10.0), (9.0, 9.0, 9.0)] df2 = spark.createDataFrame(inputs, ["input1", "input2", "input3"])
Кажется, для сегмента 3 результаты идентичны, но не для сегмента 2 и 10. См. результаты, выделенные красным и синим цветом на скриншоте. Кто-нибудь сталкивался с этим раньше? Знаете ли вы замену QuantileDiscretizer в мире панд?
У меня есть набор данных, хранящийся в pyspark.pandas.frame.DataFrame, который я хочу преобразовать в pyspark.sql.DataFrame, прежде чем сохранять его в дельта-файл. Как это сделать правильно?
PS: Причина в том, что я хочу обеспечить соблюдение схемы...
Я видел эквивалент Python Pandas в JavaScript, но я пытался найти перечисленные там библиотеки и посмотреть, есть ли у них необходимые методы, и пока ничего не нашел; Я надеюсь, что кто-нибудь более знающий подскажет, есть ли что-то, что я могу...