Количество выполненных задач превышает общие задачи в Pyspark

Количество выполненных задач превышает общие задачи в Pyspark ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Количество выполненных задач превышает общие задачи в Pyspark

Цитата

Сообщение Anonymous » 12 июн 2025, 14:58

У меня есть следующий (упрощенный) код, работающий в Pyspark. < /p>

Код: Выделить всё

df

- это Pyspark DataFrame с 2B строками. Я продолжаю выносить проблемы с ресурсами при запуске такого большого кадра, поэтому я пытаюсь получить подмножество данных DataFrame. < /P>

Код: Выделить всё

df_10M = df.limit(10000000)
df_a = df_10M.withColumn(...).withColumn(...).withColumn(...).withColumn(...)
df_a = df_a.drop("oldColA", "oldColB")
df_a.show(10)
< /code>
Когда я запускаю это в ноутбуке Jupyter, я в конечном итоге вижу < /p>
[Stage 4:====================(1572 + 12 / 1122)]

Код: Выделить всё

должно быть общее количество задач, 1572 должно быть количество выполненных задач, а 12 - это количество выполняемых задач. Если я оставлю запуск кода, в конечном итоге я нажимаю на эфемерное использование локального хранения POD ограничение.>

Подробнее здесь: https://stackoverflow.com/questions/796 ... in-pyspark

1749729531

Anonymous

 У меня есть следующий (упрощенный) код, работающий в Pyspark. < /p>
[code]df[/code] - это Pyspark DataFrame с 2B строками. Я продолжаю выносить проблемы с ресурсами при запуске такого большого кадра, поэтому я пытаюсь получить подмножество данных DataFrame. < /P>
[code]df_10M = df.limit(10000000)
df_a = df_10M.withColumn(...).withColumn(...).withColumn(...).withColumn(...)
df_a = df_a.drop("oldColA", "oldColB")
df_a.show(10)
< /code>
Когда я запускаю это в ноутбуке Jupyter, я в конечном итоге вижу < /p>
[Stage 4:====================(1572 + 12 / 1122)][/code] 
[code]1122[/code] должно быть общее количество задач, 1572  должно быть количество выполненных задач, а 12  - это количество выполняемых задач. Если я оставлю запуск кода, в конечном итоге я нажимаю на эфемерное использование локального хранения POD  ограничение.> 

Подробнее здесь: [url]https://stackoverflow.com/questions/79633000/number-of-completed-tasks-exceeds-total-tasks-in-pyspark[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Параллельный производитель/потребитель для выполненных задач [закрыто]

Последнее сообщение Anonymous « 14 окт 2024, 13:41
Добавлено в форуме C#

Anonymous » 14 окт 2024, 13:41 » в форуме C#

Как реализовать следующую функциональность MyCollection:

Задачи добавляются (одновременно) в коллекцию
Коллекция предоставляет IAsyncEnumerable, который возвращает завершенные задачи (в порядке выполнения также можно использовать одновременно)...

0 Ответы

17 Просмотры

Последнее сообщение Anonymous
14 окт 2024, 13:41
Как передать несколько выходных данных потока задач из одной задачи в две последующие задачи потока задач с помощью Shor

Последнее сообщение Anonymous « 30 окт 2024, 10:00
Добавлено в форуме Python

Anonymous » 30 окт 2024, 10:00 » в форуме Python

Я пытаюсь использовать ShortCircuitOperator в качестве контрольной точки между начальной задачей и двумя последующими задачами, которые выполняются параллельно. Я использую Airflow 2.0.2. Проблема, с которой я столкнулся, заключается в том, что...

0 Ответы

23 Просмотры

Последнее сообщение Anonymous
30 окт 2024, 10:00
Я вижу неправильный формат времени в приложенииstreamlit для очистки данных, выполненных через селен и сохраненных в Sql

Последнее сообщение Anonymous « 24 сен 2024, 19:14
Добавлено в форуме Python

Anonymous » 24 сен 2024, 19:14 » в форуме Python

введите здесь описание изображения
введите здесь описание изображения
Я не получаю правильный формат времени отправления и прибытия в приложенииstreamlit. Может ли кто-нибудь помочь это исправить?
Я попробовал st.table(styler), но это не помогло....

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
24 сен 2024, 19:14
Получение покрытия кода только для выполненных двоичных файлов

Последнее сообщение Anonymous « 11 июн 2025, 19:30
Добавлено в форуме C++

Anonymous » 11 июн 2025, 19:30 » в форуме C++

Я генерирую покрытие кода для проекта C ++.
В моем проекте есть несколько двоичных файлов. Когда я запускаю модульные тесты, он генерирует файлы GCDA, и я генерирую покрытие кода на основе соответствующих файлов GCDA и GCNO.

Это команда, которую я...

0 Ответы

1 Просмотры

Последнее сообщение Anonymous
11 июн 2025, 19:30
Можно ли получить доступ к истории вызовов, выполненных объектом Langchain LLM, на внешний API?

Последнее сообщение Anonymous « 13 июл 2025, 10:41
Добавлено в форуме Python

Anonymous » 13 июл 2025, 10:41 » в форуме Python

Когда мы создаем агента в Лангхейне, мы предоставляем большой объект модели языка (LLM), чтобы агент мог сделать вызовы в API, предоставленный OpenAI или любым другим поставщиком. Например:
llm = OpenAI(temperature=0)

agent = initialize_agent(
,...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
13 июл 2025, 10:41

Вернуться в «Python»