Я мог бы успешно развернуть Spark-Connect, Spark Workers и Spark Master в док-станции.
Используя простой Pyspark кода я могу отправить и выполнить несколько простых запросов Dataframe к Spark через Spark-Connect. Вот простой пример кода:
Код: Выделить всё
from pyspark.sql import SparkSession
def main():
SparkSession.builder.master("local[*]").getOrCreate().stop()
# Connect to the Spark Connect server
spark = SparkSession.builder.appName("HelloSparkConnect").remote("sc://localhost:15002").getOrCreate()
print("Connected to Spark Connect!")
# Create a DataFrame with sample data
data = [("Alice", 25), ("Bob", 30)]
columns = ["Name", "Age"]
df = spark.createDataFrame(data, columns)
# Show the DataFrame
df.show()
# Stop the SparkSession
spark.stop()
if __name__ == "__main__":
main()
Я хочу добиться того же в Java 8 или более поздней версии (предпочтительно Java 17 или более поздней версии). Я пока не нашел официального клиента Java Spark Connect. Пробовал использовать последние версии 3.5.x Spark Master и Spark Connect. Также пробовал использовать версии 4.x вместе с Java 17.
В Java пока нет поддержки remote API. Этот удаленный вызов представляет собой вызов API, который подключается к клиенту Spark Connect, работающему через порт 15002.
см. код ниже,
Код: Выделить всё
SparkSession.builder.appName("HelloSparkConnect").remote("sc://localhost:15002").getOrCreate()
https://spark.apache.org/docs/latest /spark-connect-overview.html
Есть идеи, когда сообщество Apache Spark планирует поддержку Java для клиента Spark Connect?
Следующий вопрос: какие еще языки (например, GO, RUST и т. д.), мы можно ли ожидать клиента Spark Connect?
Подробнее здесь: https://stackoverflow.com/questions/792 ... rk-connect
Мобильная версия