Проблема с передачей словарей из одного блокнота в другой в Pyspark.Python

Программы на Python
Ответить
Anonymous
 Проблема с передачей словарей из одного блокнота в другой в Pyspark.

Сообщение Anonymous »

Я новичок в PySpark. Мое текущее требование к проекту — выполнить ETL в Databricks. У меня есть файл CSV, содержащий почти 300 миллионов строк, и это только один такой источник. Будет еще 2 источника данных. Ниже будет мой подход к ее решению:
Шаг 1: Создайте абстрактный класс и метод для чтения данных из различных источников.
Шаг 2: Прочтите данные из Шаг 1 и создайте словари для каждого источника.
Шаг 3. Передайте словари из шага 2 на этот шаг и выполните все необходимые преобразования.
Шаг 4. Загрузите данные в файлы паркета, а затем в таблицы
Моя проблема находится на шаге 3, где я буду использовать словарь, переданный на шаге 2. Будет ли это возможно, поскольку объем данных очень велик и производительность будет низкой?
Пожалуйста, дайте мне знать, какой подход мне следует использовать, поскольку я застрял на шаге 3.
Заранее спасибо.

Подробнее здесь: https://stackoverflow.com/questions/792 ... in-pyspark
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»