Обработка разрывов столбцов в файле с разделителями каналовLinux

Ответить
Гость
 Обработка разрывов столбцов в файле с разделителями каналов

Сообщение Гость »

У нас есть текстовый файл размером 50 ГБ, разделенный вертикальной чертой (|), как показано ниже:
Столбец1|Столбец2|Col

umn3|Столбец4|Столбец5
Значение1|Значение2|Значение

3|Значение4|Значение5
Итак, проблема заключается в том, чтобы прочитать его в кадр данных pyspark. Поскольку каждый столбец/значение разбивается на следующую строку после фиксированной ширины. Если бы каждый столбец был в кавычках, я мог бы указать Spark использовать многострочные значения и обрабатывать значения внутри них как одно, даже если есть разрыв строки.
Как поступить в этом случае? Должен ли я предварительно обработать этот файл перед загрузкой в ​​Spark?
ожидаю решения для чтения этого файла

Подробнее здесь: https://stackoverflow.com/questions/781 ... mited-file
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Linux»