Проблема с передачей словарей из одного блокнота в другой в Pyspark.

Проблема с передачей словарей из одного блокнота в другой в Pyspark. ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Проблема с передачей словарей из одного блокнота в другой в Pyspark.

Цитата

Сообщение Anonymous » 25 ноя 2024, 11:41

Я новичок в PySpark. Мое текущее требование к проекту — выполнить ETL в Databricks. У меня есть файл CSV, содержащий почти 300 миллионов строк, и это только один такой источник. Будет еще 2 источника данных. Ниже будет мой подход к ее решению:
Шаг 1: Создайте абстрактный класс и метод для чтения данных из различных источников.
Шаг 2: Прочтите данные из Шаг 1 и создайте словари для каждого источника.
Шаг 3. Передайте словари из шага 2 на этот шаг и выполните все необходимые преобразования.
Шаг 4. Загрузите данные в файлы паркета, а затем в таблицы
Моя проблема находится на шаге 3, где я буду использовать словарь, переданный на шаге 2. Будет ли это возможно, поскольку объем данных очень велик и производительность будет низкой?
Пожалуйста, дайте мне знать, какой подход мне следует использовать, поскольку я застрял на шаге 3.
Заранее спасибо.

Подробнее здесь: https://stackoverflow.com/questions/792 ... in-pyspark