PySpark FileAlreadyExistsException: невозможно перезаписать выходной каталог во время saveAsTextFile

PySpark FileAlreadyExistsException: невозможно перезаписать выходной каталог во время saveAsTextFile ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

PySpark FileAlreadyExistsException: невозможно перезаписать выходной каталог во время saveAsTextFile

Цитата

Сообщение Anonymous » 04 янв 2025, 00:20

Я работаю над сценарием PySpark для простого подсчета слов. Мой скрипт работает нормально, но при попытке сохранить результаты с помощью saveAsTextFile возникает ошибка (теперь я использую Ubuntu). Вот ошибка, которую я получаю:

Код: Выделить всё

py4j.protocol.Py4JJavaError: An error occurred while calling o48.saveAsTextFile.
org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory file:/home/pyspark_python/wordcount/output_new already exists

Вот шаги, которые я предпринял на данный момент:
Проверил, что выходной каталог не содержит никаких данных (ls показывает, что он пуст).
Удалил и воссоздал каталог с помощью rm -r и mkdir -p.
Убедился, что другие задания Spark не выполняются (ps aux | grep spark).
Несмотря на это , ошибка сохраняется, когда я перезапустите скрипт.
Вот код, который я использую:

Код: Выделить всё

from pyspark import SparkConf, SparkContext
import os

def main(input_file, output_dir):
# Configuration Spark
conf = SparkConf().setAppName("WordCountTask").setMaster("local[*]")
sc = SparkContext(conf=conf)

# Lecture du fichier d'entrée
text_file = sc.textFile(input_file)

# Comptage des mots
counts = (
text_file.flatMap(lambda line: line.split(" "))
.map(lambda word: (word, 1))
.reduceByKey(lambda a, b: a + b)
)

# Sauvegarde des résultats
if not os.path.exists(output_dir):
os.makedirs(output_dir)
counts.saveAsTextFile(output_dir)

print(f"Résultats sauvegardés dans le répertoire : {output_dir}")

if __name__ == "__main__":
# Définir les chemins d'entrée et de sortie
input_file = r"/home/othniel/pyspark_python/wordcount/input/loremipsum.txt"
output_dir = "/home/othniel/pyspark_python/wordcount/output_new"

# Exécution de la tâche WordCount
main(input_file, output_dir)

Как устранить эту ошибку и обеспечить успешную запись PySpark в выходной каталог? Есть ли что-то особенное, что мне нужно настроить в моем скрипте или среде?
Спасибо за помощь!

Подробнее здесь: https://stackoverflow.com/questions/793 ... ory-during

1735939239

Anonymous

Я работаю над сценарием PySpark для простого подсчета слов. Мой скрипт работает нормально, но при попытке сохранить результаты с помощью saveAsTextFile возникает ошибка (теперь я использую Ubuntu). Вот ошибка, которую я получаю:
[code]py4j.protocol.Py4JJavaError: An error occurred while calling o48.saveAsTextFile.
org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory file:/home/pyspark_python/wordcount/output_new already exists
[/code]
Вот шаги, которые я предпринял на данный момент:
Проверил, что выходной каталог не содержит никаких данных (ls показывает, что он пуст).
Удалил и воссоздал каталог с помощью rm -r и mkdir -p.
Убедился, что другие задания Spark не выполняются (ps aux | grep spark).
Несмотря на это , ошибка сохраняется, когда я перезапустите скрипт.
Вот код, который я использую:
[code]from pyspark import SparkConf, SparkContext
import os

def main(input_file, output_dir):
# Configuration Spark
conf = SparkConf().setAppName("WordCountTask").setMaster("local[*]")
sc = SparkContext(conf=conf)

# Lecture du fichier d'entrée
text_file = sc.textFile(input_file)

# Comptage des mots
counts = (
text_file.flatMap(lambda line: line.split(" "))
.map(lambda word: (word, 1))
.reduceByKey(lambda a, b: a + b)
)

# Sauvegarde des résultats
if not os.path.exists(output_dir):
os.makedirs(output_dir)
counts.saveAsTextFile(output_dir)

print(f"Résultats sauvegardés dans le répertoire : {output_dir}")

if __name__ == "__main__":
# Définir les chemins d'entrée et de sortie
input_file = r"/home/othniel/pyspark_python/wordcount/input/loremipsum.txt"
output_dir = "/home/othniel/pyspark_python/wordcount/output_new"

# Exécution de la tâche WordCount
main(input_file, output_dir)
[/code]
Как устранить эту ошибку и обеспечить успешную запись PySpark в выходной каталог? Есть ли что-то особенное, что мне нужно настроить в моем скрипте или среде?
Спасибо за помощь! 

Подробнее здесь: [url]https://stackoverflow.com/questions/79325108/pyspark-filealreadyexistsexception-unable-to-overwrite-output-directory-during[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

PySpark FileAlreadyExistsException: невозможно перезаписать выходной каталог во время saveAsTextFile

Последнее сообщение Anonymous « 03 янв 2025, 22:01
Добавлено в форуме Python

Anonymous » 03 янв 2025, 22:01 » в форуме Python

Я работаю над сценарием PySpark для простого подсчета слов. Мой скрипт работает нормально, но при попытке сохранить результаты с помощью saveAsTextFile возникает ошибка (теперь я использую Ubuntu). Вот ошибка, которую я получаю:...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
03 янв 2025, 22:01
PySpark FileAlreadyExistsException: невозможно перезаписать выходной каталог во время saveAsTextFile

Последнее сообщение Anonymous « 03 янв 2025, 23:16
Добавлено в форуме Python

Anonymous » 03 янв 2025, 23:16 » в форуме Python

Я работаю над сценарием PySpark для простого подсчета слов. Мой скрипт работает нормально, но при попытке сохранить результаты с помощью saveAsTextFile возникает ошибка (теперь я использую Ubuntu). Вот ошибка, которую я получаю:...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
03 янв 2025, 23:16
PySpark FileAlreadyExistsException: невозможно перезаписать выходной каталог во время saveAsTextFile

Последнее сообщение Anonymous « 04 янв 2025, 00:07
Добавлено в форуме Python

Anonymous » 04 янв 2025, 00:07 » в форуме Python

Я работаю над сценарием PySpark для простого подсчета слов. Мой скрипт работает нормально, но при попытке сохранить результаты с помощью saveAsTextFile возникает ошибка (теперь я использую Ubuntu). Вот ошибка, которую я получаю:...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
04 янв 2025, 00:07
PySpark FileAlreadyExistsException: невозможно перезаписать выходной каталог во время saveAsTextFile

Последнее сообщение Anonymous « 05 янв 2025, 09:45
Добавлено в форуме Python

Anonymous » 05 янв 2025, 09:45 » в форуме Python

Я работаю над сценарием PySpark для простого подсчета слов. Мой скрипт работает нормально, но при попытке сохранить результаты с помощью saveAsTextFile возникает ошибка (теперь я использую Ubuntu). Вот ошибка, которую я получаю:...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
05 янв 2025, 09:45
PySpark FileAlreadyExistsException: невозможно перезаписать выходной каталог во время saveAsTextFile

Последнее сообщение Anonymous « 09 янв 2025, 01:44
Добавлено в форуме Python

Anonymous » 09 янв 2025, 01:44 » в форуме Python

Я работаю над сценарием PySpark для простого подсчета слов. Мой скрипт работает нормально, но при попытке сохранить результаты с помощью saveAsTextFile возникает ошибка (теперь я использую Ubuntu). Вот ошибка, которую я получаю:...

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
09 янв 2025, 01:44

Вернуться в «Python»