PySpark FileAlreadyExistsException: невозможно перезаписать выходной каталог во время saveAsTextFilePython

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 PySpark FileAlreadyExistsException: невозможно перезаписать выходной каталог во время saveAsTextFile

Сообщение Anonymous »

Я работаю над сценарием PySpark для простого подсчета слов. Мой скрипт работает нормально, но при попытке сохранить результаты с помощью saveAsTextFile возникает ошибка (теперь я использую Ubuntu). Вот ошибка, которую я получаю:

Код: Выделить всё

py4j.protocol.Py4JJavaError: An error occurred while calling o48.saveAsTextFile.
org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory file:/home/pyspark_python/wordcount/output_new already exists
Вот шаги, которые я предпринял на данный момент:
Проверил, что выходной каталог не содержит никаких данных (ls показывает, что он пуст).
Удалил и воссоздал каталог с помощью rm -r и mkdir -p.
Убедился, что другие задания Spark не выполняются (ps aux | grep spark).
Несмотря на это , ошибка сохраняется, когда я перезапустите скрипт.
Вот код, который я использую:

Код: Выделить всё

from pyspark import SparkConf, SparkContext
import os

def main(input_file, output_dir):
# Configuration Spark
conf = SparkConf().setAppName("WordCountTask").setMaster("local[*]")
sc = SparkContext(conf=conf)

# Lecture du fichier d'entrée
text_file = sc.textFile(input_file)

# Comptage des mots
counts = (
text_file.flatMap(lambda line: line.split(" "))
.map(lambda word: (word, 1))
.reduceByKey(lambda a, b: a + b)
)

# Sauvegarde des résultats
if not os.path.exists(output_dir):
os.makedirs(output_dir)
counts.saveAsTextFile(output_dir)

print(f"Résultats sauvegardés dans le répertoire : {output_dir}")

if __name__ == "__main__":
# Définir les chemins d'entrée et de sortie
input_file = r"/home/othniel/pyspark_python/wordcount/input/loremipsum.txt"
output_dir = "/home/othniel/pyspark_python/wordcount/output_new"

# Exécution de la tâche WordCount
main(input_file, output_dir)
Как устранить эту ошибку и обеспечить успешную запись PySpark в выходной каталог? Есть ли что-то особенное, что мне нужно настроить в моем скрипте или среде?
Спасибо за помощь!

Подробнее здесь: https://stackoverflow.com/questions/793 ... ory-during
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»