Вот подробности моей настройки:
- Контейнеры Docker, на которых работает Apache Spark на хост-компьютере Windows с использованием среды WSL для Linux.
- PyCharm IDE установлена и работает на хосте Windows компьютер.
- Docker Desktop с включенной интеграцией WSL для управления контейнерами.
Автономный кластер Spark
from pyspark.sql import SparkSession
from delta.tables import DeltaTable
spark = SparkSession.builder \
.appName("Create Delta Table Example") \
.config("spark.sql.extensions", "io.delta.sql.DeltaSparkSessionExtension") \
.config("spark.sql.catalog.spark_catalog", "org.apache.spark.sql.delta.catalog.DeltaCatalog") \
.config("spark.jars.packages", "io.delta:delta-core_2.12:1.0.0") \\ # Adjust Delta version as needed
.getOrCreate()
data = \[(1, "Alice"), (2, "Bob"), (3, "Charlie")\]
df = spark.createDataFrame(data, \["id", "name"\])
delta_table_path = "/path/to/your/delta/table"
df.write.format("delta").mode("overwrite").save(delta_table_path)
delta_table = DeltaTable.forPath(spark, delta_table_path)
delta_table.vacuum()
spark.stop()
Подробнее здесь: https://stackoverflow.com/questions/786 ... s-host-via