У меня есть текстовый файл в формате фиксированной длины, как ниже -< /p>
K57 details 1234
K58 abcdefghijklmnopqrstuvwxyz 0123456789
K58 abcdefghijklmnopqrstuvwxyz 0123456789
K58 abcdefghijklmnopqrstuvwxyz 0123456789
K57 details 5678
K58 abcdefghijklmnopqrstuvwxyz 9876543210
K58 abcdefghijklmnopqrstuvwxyz 9876543210
K58 abcdefghijklmnopqrstuvwxyz 9876543210
.....
.....
< /code>
Здесь K57 - запись заголовка каждой партии, а записи K58 - это подробные записи партии. (K58) Записи.+----------+------------+------------+
|K57_detail|K58_detail_1|K58_detail_2|
+----------+------------+------------+
|1234 |abcdef |01234 |
|1234 |abcdef |01234 |
|1234 |abcdef |01234 |
|5678 |abcdef |98765 |
|5678 |abcdef |98765 |
|5678 |abcdef |98765 |
+----------+------------+------------+
< /code>
Я знаю функцию pyspark substring (), которая может помочь извлечь необходимое значение из каждой строки.
Но моя реальная задача - донести информацию о записи Header K57 в каждую из его деталей Записи.
Любая помощь для достижения вышеуказанного результата будет оценена.
заранее. < /p>
Подробнее здесь: https://stackoverflow.com/questions/793 ... th-batches
Прочитать файл с фиксированной длиной с партиями ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение