Как разбить значения, разделенные запятыми, во фрейме данных с помощью pysparkPython

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Как разбить значения, разделенные запятыми, во фрейме данных с помощью pyspark

Сообщение Anonymous »

У меня есть данные, подобные приведенным ниже:
ID ID1 ID2
32336741 ["32361087"] ["36013040"]
32290433 ["32223150-32223653"] ["36003347-36003348"]
32299856 ["32361087","32299991","32223653"] ["36013040","36013029","36013040"]

В фрейме данных я пытаюсь разбить значения, разделенные запятыми, на несколько строк.
код:
fulldf = (df
.withColumn('ID1',F.explode(F.split('ID1','-')))
.withColumn("ID1",F.regexp_replace("ID1", r"\[|\]|""\"", ""))
)
fulldf = fulldf.dropna()
fulldf.display()

результат :
ID ID1
32336741 36013040
32290433 36003347
32290433 36003348
32290825 36013045
32290825 36013046
32290825 36013338

но когда я добавляю столбец ID2 в синтаксис фрейма данных, он дает мне несколько записей, например удвоенные записи.
ожидаемый вывод< /strong> :
ID ID1 ID2
32336741 32361087 36013040
32290433 32223150 36003347
32290433 32223653 36003348
32290825 32361087 36013045
32290825 32299991 36013046
32290825 32223653 36013338


Подробнее здесь: https://stackoverflow.com/questions/791 ... ng-pyspark
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»