Код: Выделить всё
df_1 = df_1.withColumn('idx', monotonically_increasing_id())
df_2 = df_2.withColumn('idx', monotonically_increasing_id())
df_3 = df_3.withColumn('DATE', to_timestamp('DATE')) \
.withColumn('idx', monotonically_increasing_id())
merged_df = df_1.join(df_2, ['idx']).join(df_3, ['idx']).drop('idx')
Я не выполняю никакой сортировки для фреймов данных, кроме случаев, когда я использую предел
Код: Выделить всё
random_choices_df = merged_df.limit(10)
random_choices_df.show()
Код: Выделить всё
showФункция Как получить случайный набор строк? Я думал, что limit должен это делать, но по какой-то причине он сохраняет порядок элементов. Я работаю на одной машине.
Мобильная версия