Количество выполненных задач превышает общие задачи в PysparkPython

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Количество выполненных задач превышает общие задачи в Pyspark

Сообщение Anonymous »

У меня есть следующий (упрощенный) код, работающий в Pyspark. < /p> - это Pyspark DataFrame с 2B строками. Я продолжаю выносить проблемы с ресурсами при запуске такого большого кадра, поэтому я пытаюсь получить подмножество данных DataFrame. < /P>

Код: Выделить всё

df_10M = df.limit(10000000)
df_a = df_10M.withColumn(...).withColumn(...).withColumn(...).withColumn(...)
df_a = df_a.drop("oldColA", "oldColB")
df_a.show(10)
< /code>
Когда я запускаю это в ноутбуке Jupyter, я в конечном итоге вижу < /p>
[Stage 4:====================(1572 + 12 / 1122)]
должно быть общее количество задач, 1572 должно быть количество выполненных задач, а 12 - это количество выполняемых задач. Если я оставлю запуск кода, в конечном итоге я нажимаю на эфемерное использование локального хранения POD ограничение.>

Подробнее здесь: https://stackoverflow.com/questions/796 ... in-pyspark
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»