Проблема с чтением csv двойной кавычки с помощью искрыPython

Программы на Python
Ответить
Anonymous
 Проблема с чтением csv двойной кавычки с помощью искры

Сообщение Anonymous »

Я пытаюсь использовать Python для чтения CSV с помощью искры. CSV-файл имеет 5 полей: имя, фамилия, адрес, номер телефона, пол. В CSV-файле в поле «Адрес» есть строка с двойной кавычкой, например:

Код: Выделить всё

John;Cenna;"main street;369526544;male
Код чтения:

Код: Выделить всё

df = spark.read.option("delimiter", ";").csv(path, header=False, inferSchema=False)
В результате я получаю:

Код: Выделить всё

Name = John
LastName = Cenna
Address = "main street;369526544;male
PhoneNumber = null
Gender = null
Ожидаемый результат:

Код: Выделить всё

Name = John
LastName = Cenna
Address = "main street
PhoneNumber = 369526544
Gender = male
Я пытался изменить некоторые параметры, такие как quote, quoteAll, escape, escapeQuotes, но не могу исправить ошибку. Единственный вариант, который я правильно включил, — это «разделитель».


Подробнее здесь: https://stackoverflow.com/questions/793 ... with-spark
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»