Есть ли способ сделать то, что я делаю выше, используя что-то более прямое из API Polars? Соединение How="full" с объединением, к удивлению (для меня), не дает желаемого результата.
Как называется то, что я пытаюсь сделать? (например, если бы я хотел посмотреть это в документации Polars или понять концепцию в более общем плане (а также написать лучший заголовок для этого поста))?
# in both red and blue red_and_blue = red_data.join(blue_data, on=["id"]) # in red, but not blue red_not_blue = red_data.join(blue_data, on=["id"], how="anti").with_columns( blue_data=pl.lit(None, dtype=pl.UInt8()) ) # in blue, but not red blue_not_red = blue_data.join(red_data, on=["id"], how="anti").with_columns( red_data=pl.lit(None, dtype=pl.UInt8()) )
columns = ["id", "red_data", "blue_data"] sys.displayhook( pl.concat( [ red_and_blue.select(columns), red_not_blue.select(columns), blue_not_red.select(columns), ] ) ) [/code] [code]shape: (4, 3) ┌─────┬──────────┬───────────┐ │ id ┆ red_data ┆ blue_data │ │ --- ┆ --- ┆ --- │ │ u8 ┆ u8 ┆ u8 │ ╞═════╪══════════╪═══════════╡ │ 0 ┆ 1 ┆ 0 │ │ 2 ┆ 1 ┆ 1 │ │ 1 ┆ 0 ┆ null │ │ 3 ┆ null ┆ 1 │ └─────┴──────────┴───────────┘ [/code] У меня два вопроса: [list] [*]Есть ли способ сделать то, что я делаю выше, используя что-то более прямое из API Polars? Соединение How="full" с объединением, к удивлению (для меня), не дает желаемого результата. [*]Как называется то, что я пытаюсь сделать? (например, если бы я хотел посмотреть это в документации Polars или понять концепцию в более общем плане (а также написать лучший заголовок для этого поста))? [/list]
У меня есть несколько кадров данных PySpark, которые необходимо объединить или объединить для создания окончательного кадра данных со следующей структурой:
Ввод:
df1 :
df2 :
df3 :
У меня есть несколько кадров данных PySpark, которые необходимо объединить или объединить для создания окончательного кадра данных со следующей структурой:
Ввод:
df1 :
df2 :
df3 :
У меня есть несколько кадров данных PySpark, которые необходимо объединить или объединить для создания окончательного кадра данных со следующей структурой:
Ввод:
df1 :
df2 :
df3 :
Я хочу провести модульное тестирование своих скриптов AWS Glue. Я использую Python и Pyspark. Я хочу объединить функции модульного тестирования, использующие динамические фреймы и фреймы данных. Мне не нужно взаимодействовать с AWS или передавать...