Можно ли написать данные от исполнителей Spark в Java Spark? - Цифровое Кемерово

Можно ли написать данные от исполнителей Spark в Java Spark? ⇐ JAVA

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Можно ли написать данные от исполнителей Spark в Java Spark?

Цитата

Сообщение Anonymous » 31 мар 2025, 15:20

У меня есть приложение Java Spark, которое получает данные от Kafka, выполняет некоторую работу по указанным данным, а затем сохраняет паркетные файлы в S3, используя команду spark .write () . До этого момента мое приложение сохраняло все полученные данные в драйвере Spark, а затем сохранило бы данные, используя текущий Spark Session. Что работает нормально.
Упрощенный, общий код того, что у меня сейчас есть, так:
Основной класс

Код: Выделить всё

public static void main(String[] args) throws Exception {
... // setting configs
Processing pr = new Processing(...); // initialising all the classes here
pr.run();
}

класс обработки

Код: Выделить всё

private DummyClass dummyClass;

// constructor is here
public void run() {
... // some work and fetching data
Dataset myData = ... // selecting and preparing the data
myData.collectAsList().forEach(row -> {
String myField = row.getAs("colName")
... //some more work
dummyClass.createParquet(myField);
});
}

класс Dummyclass

Код: Выделить всё

private SparkUtility sparkUtility;

// constructor here

public void createParquet(String myField) {
List rowVals = new ArrayList();
StructType schema = createSchema();
...// some work to populate rowVals list
String s3Path = "s3a://bucket/key/key/";
sparkUtility.writeParquet(rowVals,schema,s3Path);
}

private StructType createSchema() {
StructType structType = new StructType();
structType = structType.add("col1", DataTypes.StringType, false);
structType = structType.add("col1w", DataTypes.StringType, false);
return structType;
}

Class Class

Код: Выделить всё

private SparkSession session;

// constructor here

private SparkSession getSparkSession() {
SparkConf sparkConf = new SparkConf()
.setAppName("myName")
// further settings here
.set("fs.s3a.endpoint", "s3-us-east-1.amazonaws.com");
return SparkSession.builder().config(sparkConf).getOrCreate();
}

public void writeParquet(List entries, StructType structType,String path) {
session.createDataFrame(entries,structType)
.write().mode("overwrite").format("parquet").save(path);
}
< /code>
Это работает, и это нормально. Тем не менее, теперь я хочу внести изменения в класс обработки

как так:
// constructor is here
public void run() {
... // some work and fetching data
Dataset myData = ... // selecting and preparing the data
kafkaDF.foreachPartition(partition -> {
DummyClass dummy = new DummyClass(...); // initialising classes in executors
partition.forEachRemaining(record -> {
String myField = row.getAs("colName");
... //some more work
dummyClass.createParquet(myField);
});
});
< /code>
Остальная часть кода сейчас не изменилась. Код выполняется нормально, но не может сохранять данные и бросает следующее исключение: < /p>
Cannot invoke "scala.Option.map(scala.Function1)" because the return value of "org.apache.spark.sql.SparkSession.parentSessionState()" is null
< /code>
Из того, что я понимаю, это потому, что я пытаюсь использовать Spark Session у исполнителей. Итак, как я могу преобразовать набор данных в Parquet и сохранить в S3? Если есть способ получить доступ к сеансу и сказать ему сохранить данные с помощью. И различные попытки получить сеанс приводит к той же ошибке.

Подробнее здесь: https://stackoverflow.com/questions/795 ... java-spark

Реклама

1743423625

Anonymous

 У меня есть приложение Java Spark, которое получает данные от Kafka, выполняет некоторую работу по указанным данным, а затем сохраняет паркетные файлы в S3, используя команду spark .write () . До этого момента мое приложение сохраняло все полученные данные в драйвере Spark, а затем сохранило бы данные, используя текущий Spark Session. Что работает нормально. 
Упрощенный, общий код того, что у меня сейчас есть, так: 
 Основной класс  
[code]public static void main(String[] args) throws Exception {
... // setting configs
Processing pr = new Processing(...); // initialising all the classes here
pr.run();
}
[/code]
 класс обработки  
[code]private DummyClass dummyClass;

// constructor is here
public void run() {
... // some work and fetching data
Dataset myData = ... // selecting and preparing the data
myData.collectAsList().forEach(row -> {
String myField = row.getAs("colName")
... //some more work
dummyClass.createParquet(myField);
});
}
[/code]
 класс Dummyclass  
[code]private SparkUtility sparkUtility;

// constructor here

public void createParquet(String myField) {
List rowVals = new ArrayList();
StructType schema = createSchema();
...// some work to populate rowVals list
String s3Path = "s3a://bucket/key/key/";
sparkUtility.writeParquet(rowVals,schema,s3Path);
}

private StructType createSchema() {
StructType structType = new StructType();
structType = structType.add("col1", DataTypes.StringType, false);
structType = structType.add("col1w", DataTypes.StringType, false);
return structType;
}
[/code]
 Class Class  
[code]private SparkSession session;

// constructor here

private SparkSession getSparkSession() {
SparkConf sparkConf = new SparkConf()
.setAppName("myName")
// further settings here
.set("fs.s3a.endpoint", "s3-us-east-1.amazonaws.com");
return SparkSession.builder().config(sparkConf).getOrCreate();
}

public void writeParquet(List entries, StructType structType,String path) {
session.createDataFrame(entries,structType)
.write().mode("overwrite").format("parquet").save(path);
}
< /code>
Это работает, и это нормально. Тем не менее, теперь я хочу внести изменения в класс обработки [/code] как так:
// constructor is here
public void run() {
... // some work and fetching data
Dataset myData = ... // selecting and preparing the data
kafkaDF.foreachPartition(partition -> {
DummyClass dummy = new DummyClass(...); // initialising classes in executors
partition.forEachRemaining(record -> {
String myField = row.getAs("colName");
... //some more work
dummyClass.createParquet(myField);
});
});
< /code>
Остальная часть кода сейчас не изменилась. Код выполняется нормально, но не может сохранять данные и бросает следующее исключение: < /p>
Cannot invoke "scala.Option.map(scala.Function1)" because the return value of "org.apache.spark.sql.SparkSession.parentSessionState()" is null
< /code>
Из того, что я понимаю, это потому, что я пытаюсь использовать Spark Session у исполнителей. Итак, как я могу преобразовать набор данных в Parquet и сохранить в S3? Если есть способ получить доступ к сеансу и сказать ему сохранить данные с помощью. И различные попытки получить сеанс приводит к той же ошибке.  

Подробнее здесь: [url]https://stackoverflow.com/questions/79539223/is-it-possible-to-write-data-from-spark-executors-in-java-spark[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Несколько исполнителей асинхронно для записи и чтения ответов из сокета TCP/IP с использованием Java

Последнее сообщение Гость « 04 мар 2024, 18:24
Добавлено в форуме JAVA

Гость » 04 мар 2024, 18:24 » в форуме JAVA

This is my first time coding for the socket communication so you might see a beginner level's approach. Please bear with it. I am trying to send and receive data from a device (devices in next step) through socket communication. the device receives...

0 Ответы

44 Просмотры

Последнее сообщение Гость
04 мар 2024, 18:24
У меня есть задача подсчитать, сколько раз я проигрывал музыку любимых исполнителей, и мне нужно ранжировать ее от самой

Последнее сообщение Anonymous « 16 июл 2024, 19:21
Добавлено в форуме Python

Anonymous » 16 июл 2024, 19:21 » в форуме Python

Чем отличается первая функция от второй, если они выполняют одну и ту же задачу и что быстрее?
Обратите внимание, что первая функция чата GPT4def choiceSort(arr):

Сортирует входной список 'arr' в порядке возрастания, используя сортировку выбором....

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
16 июл 2024, 19:21
Состояние React не обновляется в DOM, несмотря на изменения в useEffect для заголовков и реквизита исполнителей.

Последнее сообщение Anonymous « 19 янв 2025, 06:29
Добавлено в форуме Javascript

Anonymous » 19 янв 2025, 06:29 » в форуме Javascript

Я создаю музыкальный проигрыватель в React и пытаюсь динамически обновлять название трека и исполнителя, используя useEffect, когда реквизиты (название, исполнитель) меняются. Однако, хотя значения корректно обновляются в журнале консоли, они не...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
19 янв 2025, 06:29
Clion, как запустить несколько тестовых исполнителей?

Последнее сообщение Anonymous « 17 апр 2025, 23:25
Добавлено в форуме C++

Anonymous » 17 апр 2025, 23:25 » в форуме C++

У нас есть файл Cmake, который создает несколько исполняемых файлов GTest. Эти исполняемые файлы не могут быть связаны вместе. Клион правильно находит все эти целевые показатели сборки/тестирования и позволяет легко создавать и запустить любой из...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
17 апр 2025, 23:25
Оболочка Spark: spark.executor.extraJavaOptions не разрешено устанавливать параметры Spark.

Последнее сообщение Anonymous « 24 сен 2024, 08:55
Добавлено в форуме Python

Anonymous » 24 сен 2024, 08:55 » в форуме Python

Я создал эту программу Spark Shell, но при ее запуске возникла ошибка:
Windows PowerShell
Copyright (C) Microsoft Corporation. All rights reserved.

Install the latest PowerShell for new features and improvements!

PS...

0 Ответы

52 Просмотры

Последнее сообщение Anonymous
24 сен 2024, 08:55

Вернуться в «JAVA»

Programmiererforum