Java.lang.UnsatisfiedLinkError в PySpark при записи в файл Parquet в Windows

Java.lang.UnsatisfiedLinkError в PySpark при записи в файл Parquet в Windows ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Java.lang.UnsatisfiedLinkError в PySpark при записи в файл Parquet в Windows

Цитата

Сообщение Anonymous » 24 июл 2024, 22:03

Я написал следующий код:

Код: Выделить всё

from pyspark.sql.functions import col, udf
from pyspark.sql.types import StringType
import re
import os

os.environ['HADOOP_HOME'] = 'D:\\hadoop'
os.environ['PATH'] += os.pathsep + os.path.join(os.environ['HADOOP_HOME'], 'bin')
os.environ['PYSPARK_PYTHON'] = '(...entire path...)\\python.exe'
def clean_text(text):
text = text.strip('"')
text = text.replace('""', '"')
text = text.replace("\\n", "\n")
text = re.sub(r'\s+', ' ', text)
return text
spark = SparkSession.builder \
.appName("example") \
.config("spark.executor.memory", "4g") \
.config("spark.hadoop.fs.defaultFS", "file:///") \
.config("spark.hadoop.hadoop.tmp.dir", "file:/D:/hadoop/tmp") \
.getOrCreate()
spark_df = spark.read.csv('test.csv', inferSchema=True, header=False)
df_schema = ["A", "B", "D"]
spark_df = spark_df.toDF(*df_schema)
clean_text_udf = udf(clean_text, StringType())
spark_df = spark_df.dropna()
spark_df = spark_df.withColumn("C", clean_text_udf(col("D")))
spark_df = spark_df.drop("D")
spark_df.write.parquet('D:\\preprocessed_Dataset.parquet', mode='overwrite')

Я загрузил двоичный пакет Hadoop (версия 3.4.0) по ссылке https://hadoop.apache.org/releases.html и «winutils.exe» по https:// github.com/steveloughran/winutils/blob/master/hadoop-3.0.0/bin/winutils.exe, а затем поместил этот файл «winutils.exe» внутри D:\hadoop\bin.
Также я обновил содержимое «hdfs-site.xml» следующим образом:

Код: Выделить всё


dfs.replication
1


dfs.namenode.name.dir
file:/D:/hadoop/data/namenode


dfs.datanode.data.dir
file:/D:/hadoop/data/datanode

а также обновил содержимое файла «core-site.xml» следующим образом:

Код: Выделить всё


fs.defaultFS
file:///


hadoop.tmp.dir
file:/D:/hadoop/tmp


hadoop.proxyuser.hadoop.groups
*


hadoop.proxyuser.hadoop.hosts
*

Кроме того, я создал папки tmp, data\datanode и data\namenode в D:\hadoop, а также все переменные среды установлены правильно.
Моя версия Spark — 3.5. 1, и я использую PyCharm IDE
Но все равно получаю сообщение об ошибке:

Код: Выделить всё

spark_df.write.parquet('D:\\preprocessed_Dataset.parquet', mode='overwrite')
in parquet
self._jwrite.parquet(path)
in __call__
return_value = get_return_value(
^^^^^^^^^^^^^^^^^
in deco
return f(*a, **kw)
^^^^^^^^^^^
in get_return_value
raise Py4JJavaError(
py4j.protocol.Py4JJavaError: An error occurred while calling o66.parquet.
: java.lang.UnsatisfiedLinkError: 'boolean org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(java.lang.String, int)'
at org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Native Method)
at org.apache.hadoop.io.nativeio.NativeIO$Windows.access(NativeIO.java:793)
at org.apache.hadoop.fs.FileUtil.canRead(FileUtil.java:1249)...

Пожалуйста, помогите с этим

Подробнее здесь: https://stackoverflow.com/questions/787 ... -on-window

1721847806

Anonymous

Я написал следующий код:
[code]from pyspark.sql.functions import col, udf
from pyspark.sql.types import StringType
import re
import os

os.environ['HADOOP_HOME'] = 'D:\\hadoop'
os.environ['PATH'] += os.pathsep + os.path.join(os.environ['HADOOP_HOME'], 'bin')
os.environ['PYSPARK_PYTHON'] = '(...entire path...)\\python.exe'
def clean_text(text):
text = text.strip('"')
text = text.replace('""', '"')
text = text.replace("\\n", "\n")
text = re.sub(r'\s+', ' ', text)
return text
spark = SparkSession.builder \
.appName("example") \
.config("spark.executor.memory", "4g") \
.config("spark.hadoop.fs.defaultFS", "file:///") \
.config("spark.hadoop.hadoop.tmp.dir", "file:/D:/hadoop/tmp") \
.getOrCreate()
spark_df = spark.read.csv('test.csv', inferSchema=True, header=False)
df_schema = ["A", "B", "D"]
spark_df = spark_df.toDF(*df_schema)
clean_text_udf = udf(clean_text, StringType())
spark_df = spark_df.dropna()
spark_df = spark_df.withColumn("C", clean_text_udf(col("D")))
spark_df = spark_df.drop("D")
spark_df.write.parquet('D:\\preprocessed_Dataset.parquet', mode='overwrite')
[/code]
Я загрузил двоичный пакет Hadoop (версия 3.4.0) по ссылке https://hadoop.apache.org/releases.html и «winutils.exe» по https:// github.com/steveloughran/winutils/blob/master/hadoop-3.0.0/bin/winutils.exe, а затем поместил этот файл «winutils.exe» внутри D:\hadoop\bin.
Также я обновил содержимое «hdfs-site.xml» следующим образом:
[code]

dfs.replication
1


dfs.namenode.name.dir
file:/D:/hadoop/data/namenode


dfs.datanode.data.dir
file:/D:/hadoop/data/datanode


[/code]
а также обновил содержимое файла «core-site.xml» следующим образом:
[code]

fs.defaultFS
file:///


hadoop.tmp.dir
file:/D:/hadoop/tmp


hadoop.proxyuser.hadoop.groups
*


hadoop.proxyuser.hadoop.hosts
*


[/code]
Кроме того, я создал папки tmp, data\datanode и data\namenode в D:\hadoop, а также все переменные среды установлены правильно.
Моя версия Spark — 3.5. 1, и я использую PyCharm IDE
Но все равно получаю сообщение об ошибке:
[code]spark_df.write.parquet('D:\\preprocessed_Dataset.parquet', mode='overwrite')
in parquet
self._jwrite.parquet(path)
in __call__
return_value = get_return_value(
^^^^^^^^^^^^^^^^^
in deco
return f(*a, **kw)
^^^^^^^^^^^
in get_return_value
raise Py4JJavaError(
py4j.protocol.Py4JJavaError: An error occurred while calling o66.parquet.
: java.lang.UnsatisfiedLinkError: 'boolean org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(java.lang.String, int)'
at org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Native Method)
at org.apache.hadoop.io.nativeio.NativeIO$Windows.access(NativeIO.java:793)
at org.apache.hadoop.fs.FileUtil.canRead(FileUtil.java:1249)...
[/code]
Пожалуйста, помогите с этим 

Подробнее здесь: [url]https://stackoverflow.com/questions/78790144/java-lang-unsatisfiedlinkerror-in-pyspark-when-writing-to-parquet-file-on-window[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Чтение файлов Parquet с использованием parquet.net занимает больше времени, чем Pyarrow (Python)

Последнее сообщение Anonymous « 29 май 2025, 13:59
Добавлено в форуме Python

Anonymous » 29 май 2025, 13:59 » в форуме Python

Обычно, когда дело доходит до операций с файлами паркета, пакет Parquet.net занимает меньше/равное время по сравнению с Python. Но мой первоначальный набор экспериментов не соответствует этому. Чтение 5 миллионов данных в Parquet Python занимает...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
29 май 2025, 13:59
Потоковая потоковая передача Polars: Parquet Parquet на основе Shift (-1)

Последнее сообщение Anonymous « 20 авг 2025, 09:32
Добавлено в форуме Python

Anonymous » 20 авг 2025, 09:32 » в форуме Python

Я пытаюсь погрузиться в большой паркетный файл с полярными. Это должно быть легко достичь в (1) памяти:
import os ; os.environ = '4'
import polars as pl
import time, random
import numpy as np
random.seed(42)

N_TICKS = 100_000
N_TICKERS = 10_000
T0...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
20 авг 2025, 09:32
Исключение в потоке «основной» java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Lj

Последнее сообщение Anonymous « 24 сен 2024, 23:32
Добавлено в форуме JAVA

Anonymous » 24 сен 2024, 23:32 » в форуме JAVA

Пытаюсь запустить версию программы MR (2.7) в 64-разрядной версии Windows 7 в eclipse при выполнении вышеуказанного исключения.
Я проверил это, используя 64-разрядную версию Java 1.8, и заметил, что все демоны Hadoop работают.

Все предложения...

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
24 сен 2024, 23:32
Исключение в потоке «основной» java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Lj

Последнее сообщение Anonymous « 25 сен 2024, 10:55
Добавлено в форуме JAVA

Anonymous » 25 сен 2024, 10:55 » в форуме JAVA

Пытаюсь запустить версию программы MR (2.7) в 64-разрядной версии Windows 7 в eclipse при выполнении вышеуказанного исключения.
Я проверил это, используя 64-разрядную версию Java 1.8, и заметил, что все демоны Hadoop работают.

Все предложения...

0 Ответы

19 Просмотры

Последнее сообщение Anonymous
25 сен 2024, 10:55
Исключение в потоке «основной» java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Lj

Последнее сообщение Anonymous « 03 окт 2024, 09:03
Добавлено в форуме JAVA

Anonymous » 03 окт 2024, 09:03 » в форуме JAVA

Я просмотрел ответы на подобные проблемы, но ни один из них не решил мою проблему. Некоторые команды Hadoop, кажется, работают (например, Hadoop fs -cat), а другие нет (hadoop fs -ls, который вызвал эту ошибку)
У меня настроена переменная пути...

0 Ответы

22 Просмотры

Последнее сообщение Anonymous
03 окт 2024, 09:03

Вернуться в «Python»