Pandas, эквивалентный pyspark QuantileDiscretizer

Pandas, эквивалентный pyspark QuantileDiscretizer ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Pandas, эквивалентный pyspark QuantileDiscretizer

Цитата

Сообщение Anonymous » 17 дек 2024, 20:40

У меня специальное задание — преобразовать фрагмент кода pyspark в python/pandas.
пытаюсь найти эквивалент pyspark QuantileDiscretizer в мире панд. Самое близкое, что я могу найти, это функция qcut. Однако, похоже, он не на 100% эквивалентен QuantileDiscretizer.
Я провел сравнение между этими двумя, используя три типа сегментов — 2, 3 и 10.

Код: Выделить всё

inputs = [(4.0, 4.0, 4.0), (1.0, 1.0, 1.0), (3.0, 3.0, 3.0), (2.0, 2.0, 2.0),(5.0, 5.0, 5.0),(6.0, 6.0, 6.0),(8.0, 8.0, 8.0),(7.0, 7.0, 7.0),(10.0, 10.0, 10.0), (9.0, 9.0, 9.0)]
df2 = spark.createDataFrame(inputs, ["input1", "input2",  "input3"])

qds3 = QuantileDiscretizer(numBucketsArray=[2, 3, 10], inputCols=["input1", "input2", "input3"], outputCols=["output1", "output2", "output3"])
qds3.setHandleInvalid("skip").fit(df2).transform(df2).show()

print(">>>>>>>>>>>>>>>>pd.qcut output:")
import numpy as np, pandas as pd
arr = np.array([4.0, 1.0, 3.0, 2.0, 5.0, 6.0, 8.0, 7.0, 10.0, 9.0 ])
pd.qcut(arr, 2, retbins=True, labels=False)
pd.qcut(arr, 3, retbins=True, labels=False)
pd.qcut(arr, 10, retbins=True, labels=False)

Кажется, для сегмента 3 результаты идентичны, но не для сегмента 2 и 10. См. результаты, выделенные красным и синим цветом на скриншоте.
Кто-нибудь сталкивался с этим раньше? Знаете ли вы замену QuantileDiscretizer в мире панд?

Подробнее здесь: https://stackoverflow.com/questions/792 ... iscretizer

1734457233

Anonymous

У меня специальное задание — преобразовать фрагмент кода pyspark в python/pandas.
пытаюсь найти эквивалент pyspark QuantileDiscretizer в мире панд. Самое близкое, что я могу найти, это функция qcut. Однако, похоже, он не на 100% эквивалентен QuantileDiscretizer.
Я провел сравнение между этими двумя, используя три типа сегментов — 2, 3 и 10.
[code]inputs = [(4.0, 4.0, 4.0), (1.0, 1.0, 1.0), (3.0, 3.0, 3.0), (2.0, 2.0, 2.0),(5.0, 5.0, 5.0),(6.0, 6.0, 6.0),(8.0, 8.0, 8.0),(7.0, 7.0, 7.0),(10.0, 10.0, 10.0), (9.0, 9.0, 9.0)]
df2 = spark.createDataFrame(inputs, ["input1", "input2",  "input3"])

qds3 = QuantileDiscretizer(numBucketsArray=[2, 3, 10], inputCols=["input1", "input2", "input3"], outputCols=["output1", "output2", "output3"])
qds3.setHandleInvalid("skip").fit(df2).transform(df2).show()

print(">>>>>>>>>>>>>>>>pd.qcut output:")
import numpy as np, pandas as pd
arr = np.array([4.0, 1.0, 3.0, 2.0, 5.0, 6.0, 8.0, 7.0, 10.0, 9.0 ])
pd.qcut(arr, 2, retbins=True, labels=False)
pd.qcut(arr, 3, retbins=True, labels=False)
pd.qcut(arr, 10, retbins=True, labels=False)
[/code]
[img]https://i.sstatic.net/UPw379ED.png[/img]

Кажется, для сегмента 3 результаты идентичны, но не для сегмента 2 и 10. См. результаты, выделенные красным и синим цветом на скриншоте.
Кто-нибудь сталкивался с этим раньше? Знаете ли вы замену QuantileDiscretizer в мире панд? 

Подробнее здесь: [url]https://stackoverflow.com/questions/79288891/pandas-equivalent-to-pyspark-quantilediscretizer[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как преобразовать фрейм данных PySpark Pandas в фрейм данных PySpark?

Последнее сообщение Anonymous « 09 дек 2024, 10:23
Добавлено в форуме Python

Anonymous » 09 дек 2024, 10:23 » в форуме Python

У меня есть набор данных, хранящийся в pyspark.pandas.frame.DataFrame, который я хочу преобразовать в pyspark.sql.DataFrame, прежде чем сохранять его в дельта-файл. Как это сделать правильно?
PS: Причина в том, что я хочу обеспечить соблюдение схемы...

0 Ответы

34 Просмотры

Последнее сообщение Anonymous
09 дек 2024, 10:23
JavaScript, эквивалентный Pandas read_csv и to_markdown?

Последнее сообщение Гость « 24 сен 2023, 22:44
Добавлено в форуме Javascript

Гость » 24 сен 2023, 22:44 » в форуме Javascript

Я видел эквивалент Python Pandas в JavaScript, но я пытался найти перечисленные там библиотеки и посмотреть, есть ли у них необходимые методы, и пока ничего не нашел; Я надеюсь, что кто-нибудь более знающий подскажет, есть ли что-то, что я могу...

0 Ответы

54 Просмотры

Последнее сообщение Гость
24 сен 2023, 22:44
Что такое фрейм данных Pandas, эквивалентный «левому соединению» с дубликатами?

Последнее сообщение Anonymous « 17 дек 2024, 17:43
Добавлено в форуме Python

Anonymous » 17 дек 2024, 17:43 » в форуме Python

У меня есть фрейм данных Pandas, например
A = pd.DataFrame({'Name' : , 'Value' : })
and another DataFrame
B = pd.DataFrame({'Name': , 'Value1' : })

Когда я объединяю их, я получаю
A.merge(B, how='left', on='Name')

In : A.merge(B, how='left',...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
17 дек 2024, 17:43
PySpark: почему использование F.expr работает, а использование API PySpark — нет

Последнее сообщение Anonymous « 31 окт 2024, 19:45
Добавлено в форуме Python

Anonymous » 31 окт 2024, 19:45 » в форуме Python

У меня есть такая строка кода:
df = df.withColumn( final_name , F.substring(F.col( name ), 1, F.length(F.col( name ))-15))

Когда я запускаю его, я получаю сообщение об ошибке. Столбец не повторяется (проблема связана с длиной). Однако когда я...

0 Ответы

24 Просмотры

Последнее сообщение Anonymous
31 окт 2024, 19:45
PySpark: почему использование F.expr работает, а использование API PySpark — нет

Последнее сообщение Anonymous « 02 ноя 2024, 01:47
Добавлено в форуме Python

Anonymous » 02 ноя 2024, 01:47 » в форуме Python

У меня есть такая строка кода:
df = df.withColumn( final_name , F.substring(F.col( name ), 1, F.length(F.col( name ))-15))

Когда я запускаю его, я получаю сообщение об ошибке. Столбец не повторяется (проблема связана с длиной). Однако когда я...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
02 ноя 2024, 01:47

Вернуться в «Python»