Как прочитать пустую строку, а также нулевые значения из файла CSV в Pyspark?Python

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Как прочитать пустую строку, а также нулевые значения из файла CSV в Pyspark?

Сообщение Anonymous »

  • Читать Spark CSV с пустыми значениями без преобразования в NULL не отвечает на это, потому что: < /li>
    < /ul>


    Это Scala, и это pyspark. < /li>
    Scala Solution. nullvalue от pyspark = none < /code>, который дает неправильный результат, как указано ниже. - Как использовать "" в качестве пустого значения и ничего, как null в файле CSV? Я пытаюсь использовать "" в качестве пустого значения и ничего, как null , мое ожидание было то, что nullvalue = none и emptyvalue = "" должен делать то, что я хочу, но оба интерпретируются как null .
    Я пробовал все комбинации nullvalue и yetpal -wylobe

    Код: Выделить всё

    with open("/dbfs/tmp/c.csv", "w") as f:
    f.write('''id,val
    1,
    2,""
    3,str1
    ''')
    
    for e, n in [('', None), ('', ''), (None, None), (None, '')]:
    print(f'e: "{e}", n: "{n}"')
    df = spark.read.csv('dbfs:/tmp/c.csv', header=True, emptyValue=e, nullValue=n).show()
    < /code>
    prints: < /p>
    e: "", n: "None"
    +---+-----+
    | id|  val|
    +---+-----+
    |  1| NULL|
    |  2| NULL|
    |  3| str1|
    +---+-----+
    
    e: "", n: ""
    +---+-----+
    | id|  val|
    +---+-----+
    |  1| NULL|
    |  2| NULL|
    |  3| str1|
    +---+-----+
    
    e: "None", n: "None"
    +---+-----+
    | id|  val|
    +---+-----+
    |  1| NULL|
    |  2| NULL|
    |  3| str1|
    +---+-----+
    
    e: "None", n: ""
    +---+-----+
    | id|  val|
    +---+-----+
    |  1| NULL|
    |  2| NULL|
    |  3| str1|
    +---+-----+
    < /code>
    
    ps: он работает в Scala, просто не в Python. Итак, я предполагаю, что это может иметь какое-то отношение к тому факту, что Print («true», если »« else »false,) 
    печатает« false » в python.

    prints: < /p>
    +---+-----+
    | id| val|
    +---+-----+
    | 1| NULL|
    | 2| |
    | 3| str1|
    +---+-----+
    < /code>

    Я прочитал: < /p>

    spark.read. Чтение пустой строки как нулевая, когда данные считываются из файла части
  • Опция чтения файла CSV Spark для чтения пустого/пустого значения из файла только как пустое значение вместо null
  • файлы CSV


Подробнее здесь: https://stackoverflow.com/questions/797 ... in-pyspark
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»