Класс org.apache.hadoop.fs.s3a.s3afilesystem не найден

Класс org.apache.hadoop.fs.s3a.s3afilesystem не найден ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Класс org.apache.hadoop.fs.s3a.s3afilesystem не найден

Цитата

Сообщение Anonymous » 31 мар 2025, 12:01

from pyspark.sql import SparkSession
from pyspark.sql.window import Window
from pyspark.sql.functions import skewness, kurtosis, stddev

from airflow.configuration import conf

import sys

def transform_forex_data(file_path, access_key, secret_key):
try:
print(f"CSV FILE PATH: {file_path}")

# how this works is basically we specify spark.jars.packages = org.apache.hadoop:hadoop-aws.3.2.0
spark = SparkSession.builder.appName('feature-engineering') \
.config("spark.jars.packages", "org.apache.hadoop:hadoop-aws:3.2.0") \
.config("spark.hadoop.fs.s3a.access.key", access_key) \
.config("spark.hadoop.fs.s3a.secret.key", secret_key) \
.config("spark.hadoop.fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem") \
.config("spark.hadoop.fs.s3a.aws.credentials.provider", "org.apache.hadoop.fs.s3a.SimpleAWSCredentialsProvider") \
.getOrCreate()

# spark._jsc.hadoopConfiguration().set("fs.s3a.access.key", access_key)
# spark._jsc.hadoopConfiguration().set("fs.s3a.secret.key", secret_key)

usd_php_forex_4h_spark_df = spark.read.csv(file_path, header=True, inferSchema=True)
usd_php_forex_4h_spark_df.createOrReplaceTempView("usd_php_forex")

except Exception as e:
print(f"Error {e} has occured.")

if __name__ == "__main__":
# access argument vectors given in spark submit job operator
# which will be the path to the newly saved .csv file
file_path = sys.argv[1]
print(file_path)

# get secrets
AWS_ACCESS_KEY_ID = conf.get("secrets", "aws_access_key_id")
AWS_SECRET_ACCESS_KEY = conf.get("secrets", "aws_secret_access_key")

# pass file path to task
transform_forex_data(file_path=file_path,
access_key=AWS_ACCESS_KEY_ID,
secret_key=AWS_SECRET_ACCESS_KEY)

Я пытался предоставить Spark.hadoop.fs.s3a.impl конфигурация с
value org.apache.hadoop.fs.s3a.s3afilesystem , а также предоставил мой ключ AWS Access и ключ секретного доступа для чтения файла .CSV из ведра. Я также настроил строку URI, которая будет прочитана Spark с «s3a» вместо «s3» ex.g. "s3a: // {bucket_name} /raw/usd_php_forex_4hour.csv" , которая является переменной file_path . Я что -то здесь упускаю?

Подробнее здесь: https://stackoverflow.com/questions/795 ... sed-even-i

1743411682

Anonymous

[code]from pyspark.sql import SparkSession
from pyspark.sql.window import Window
from pyspark.sql.functions import skewness, kurtosis, stddev

from airflow.configuration import conf

import sys

def transform_forex_data(file_path, access_key, secret_key):
try:
print(f"CSV FILE PATH: {file_path}")

# how this works is basically we specify spark.jars.packages = org.apache.hadoop:hadoop-aws.3.2.0
spark = SparkSession.builder.appName('feature-engineering') \
.config("spark.jars.packages", "org.apache.hadoop:hadoop-aws:3.2.0") \
.config("spark.hadoop.fs.s3a.access.key", access_key) \
.config("spark.hadoop.fs.s3a.secret.key", secret_key) \
.config("spark.hadoop.fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem") \
.config("spark.hadoop.fs.s3a.aws.credentials.provider", "org.apache.hadoop.fs.s3a.SimpleAWSCredentialsProvider") \
.getOrCreate()

# spark._jsc.hadoopConfiguration().set("fs.s3a.access.key", access_key)
# spark._jsc.hadoopConfiguration().set("fs.s3a.secret.key", secret_key)

usd_php_forex_4h_spark_df = spark.read.csv(file_path, header=True, inferSchema=True)
usd_php_forex_4h_spark_df.createOrReplaceTempView("usd_php_forex")

except Exception as e:
print(f"Error {e} has occured.")

if __name__ == "__main__":
# access argument vectors given in spark submit job operator
# which will be the path to the newly saved .csv file
file_path = sys.argv[1]
print(file_path)

# get secrets
AWS_ACCESS_KEY_ID = conf.get("secrets", "aws_access_key_id")
AWS_SECRET_ACCESS_KEY = conf.get("secrets", "aws_secret_access_key")

# pass file path to task
transform_forex_data(file_path=file_path,
access_key=AWS_ACCESS_KEY_ID,
secret_key=AWS_SECRET_ACCESS_KEY)
[/code]
Я пытался предоставить Spark.hadoop.fs.s3a.impl  конфигурация с
value org.apache.hadoop.fs.s3a.s3afilesystem , а также предоставил мой ключ AWS Access и ключ секретного доступа для чтения файла .CSV из ведра. Я также настроил строку URI, которая будет прочитана Spark с «s3a»  вместо «s3»  ex.g. "s3a: // {bucket_name} /raw/usd_php_forex_4hour.csv" , которая является переменной file_path . Я что -то здесь упускаю?  

Подробнее здесь: [url]https://stackoverflow.com/questions/79545862/class-org-apache-hadoop-fs-s3a-s3afilesystem-not-found-keeps-being-raised-even-i[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Pyspark, Hadoop и S3: java.lang.NoSuchMethodError: org.apache.hadoop.fs.s3a.Listing$FileStatusListingIterator

Последнее сообщение Anonymous « 02 окт 2024, 22:46
Добавлено в форуме Python

Anonymous » 02 окт 2024, 22:46 » в форуме Python

Я столкнулся с проблемами совместимости, связанными с работой delta-spark с S3 прямо из коробки, и хотел получить совет. Я пробовал десятки комбинаций версий между Spark, delta-spark, Hadoop-aws и aws-java-sdk-bundle, но продолжал получать некоторые...

0 Ответы

42 Просмотры

Последнее сообщение Anonymous
02 окт 2024, 22:46
Не удалось преобразовать org.apache.hadoop.fs.FileSystem$Cache. Класс org.apache.hadoop.fs.FileSystem$Cache$Key замороже

Последнее сообщение Anonymous « 27 сен 2024, 13:59
Добавлено в форуме JAVA

Anonymous » 27 сен 2024, 13:59 » в форуме JAVA

Я пытаюсь имитировать файловую систему Hadoop в своем тесте Scala. Есть идеи, как это обойти:
import java.net.URI
import org.apache.hadoop.conf.Configuration
import org.apache.hadoop.fs.FileSystem
import org.junit.Test
import...

0 Ответы

74 Просмотры

Последнее сообщение Anonymous
27 сен 2024, 13:59
Не удалось преобразовать org.apache.hadoop.fs.FileSystem$Cache. Класс org.apache.hadoop.fs.FileSystem$Cache$Key замороже

Последнее сообщение Anonymous « 27 сен 2024, 16:17
Добавлено в форуме JAVA

Anonymous » 27 сен 2024, 16:17 » в форуме JAVA

Я пытаюсь имитировать файловую систему Hadoop в своем тесте Scala. Есть идеи, как это обойти:
import java.net.URI
import org.apache.hadoop.conf.Configuration
import org.apache.hadoop.fs.FileSystem
import org.junit.Test
import...

0 Ответы

39 Просмотры

Последнее сообщение Anonymous
27 сен 2024, 16:17
Org.apache.hadoop.fs.RawLocalFileSystem$DeprecatedRawLocalFileStatus невозможно привести к org.apache.spark.sql.executio

Последнее сообщение Гость « 14 мар 2024, 11:45
Добавлено в форуме JAVA

Гость » 14 мар 2024, 11:45 » в форуме JAVA

Получение следующей ошибки при создании дельта-таблицы с помощью scalaspark. _delta_log создается на складе, но после создания _delta_log возникает эта ошибка.
Исключение в потоке main java.lang.ClassCastException: class...

0 Ответы

71 Просмотры

Последнее сообщение Гость
14 мар 2024, 11:45
Py4JException: конструктор org.apache.spark.sql.SparkSession([класс org.apache.spark.SparkContext, класс java.util.HashM

Последнее сообщение Anonymous « 16 сен 2024, 12:30
Добавлено в форуме Python

Anonymous » 16 сен 2024, 12:30 » в форуме Python

Я пытаюсь запустить сеанс Spark в Jupyter Notebook на компьютере EC2 Linux с помощью кода Visual Studio. Мой код выглядит следующим образом:
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName( spark_app ).getOrCreate()...

0 Ответы

67 Просмотры

Последнее сообщение Anonymous
16 сен 2024, 12:30

Вернуться в «Python»