У меня есть следующий (упрощенный) код, работающий в Pyspark. < /p>
- это Pyspark DataFrame с 2B строками. Я продолжаю выносить проблемы с ресурсами при запуске такого большого кадра, поэтому я пытаюсь получить подмножество данных DataFrame. < /P>
Код: Выделить всё
df_10M = df.limit(10000000)
df_a = df_10M.withColumn(...).withColumn(...).withColumn(...).withColumn(...)
df_a = df_a.drop("oldColA", "oldColB")
df_a.show(10)
< /code>
Когда я запускаю это в ноутбуке Jupyter, я в конечном итоге вижу < /p>
[Stage 4:====================(1572 + 12 / 1122)]
должно быть общее количество задач, 1572 должно быть количество выполненных задач, а 12 - это количество выполняемых задач. Если я оставлю запуск кода, в конечном итоге я нажимаю на эфемерное использование локального хранения POD ограничение.>
Подробнее здесь:
https://stackoverflow.com/questions/796 ... in-pyspark