Невозможно использовать Hadoop с pysparkPython

Программы на Python
Anonymous
 Невозможно использовать Hadoop с pyspark

Сообщение Anonymous »

Позвольте мне в первую очередь сказать, что у меня нет особой необходимости в Hadoop. Я просто пытаюсь понять, в чем проблема.

Код: Выделить всё

from pyspark.sql import SparkSession
from os import environ as ENV
from pathlib import Path

HADOOP_DIR = Path("/Volumes/Spare/hadoop-3.4.0")
HADOOP_LIB = HADOOP_DIR / "lib/native"

def update_env(env: str, val: str) -> None:
try:
ENV[env] = ENV[env] + ":" + val
except KeyError:
ENV[env] = val

ENV["HADOOP_HOME"] = str(HADOOP_DIR)
update_env("LD_LIBRARY_PATH", str(HADOOP_LIB))

if __debug__:
print("Running assertions")
assert HADOOP_DIR.is_dir()
assert HADOOP_LIB.is_dir()

SparkSession.builder.appName("MySparkApp").getOrCreate()
Когда я запускаю эту программу, я вижу следующее предупреждение:
25/01/28 13:06:52 Warn nativecodeLoader: невозможно загрузить Библиотека Native-Hadoop для вашей платформы ... Используя классы Builtin-Java, где это применимо. Моя платформа времени выполнения-macOS 15.2 (M2) с Python 3.13.1. < /p>
Я загрузил Hadoop 3.4.0 (Hadoop-3.4.0-aarch64.tar.gz) и Извлекил его содержимое в/volumes/spare/hadoop-3.4.0> Установите соответствующим образом, что, я считаю, я сделал.>

Подробнее здесь: https://stackoverflow.com/questions/793 ... th-pyspark

Вернуться в «Python»