Группируйте визуально выровненные данные из текста по метке и значению в Python

Группируйте визуально выровненные данные из текста по метке и значению в Python ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Группируйте визуально выровненные данные из текста по метке и значению в Python

Цитата

Сообщение Anonymous » 05 мар 2026, 19:04

У меня есть массив массивов, содержащих данные в следующем формате:

Код: Выделить всё

text_lines = [
['Datum puštanja u', '', '', '', '', '  Odobreni limit u CURR', ' Tekuća klasifikacija', '', '', 'Tekuća CKKL', '   Dani', '', '  Iznos otplaćivanja u CURR', '', '', 'Naziv institucije i']
['realizaciju', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', ' klasifikacija', ' kašnjenja', '', '', '', '', '', '', '', '', '', ' broj']
['13.08.1999.', '', '', '', '', '', '', '', '', '   130.000,00', 'A', '', '', '', '', '', '', '   S1', '', '', '', '', '', '', '  100,50', '', '', '', '', '', '', '  PLACEHOLDER NAME DD']
['Datum otplate', '', '', '', '', '', '   Neiskorišteni iznos', ' Prethodna klasifikacija', '', ' Prethodna CKKL', '', '', '', '  Žirant vraća kredit', '', '', '', ' 338-123412412-43']
['', '', '', '', '', '', '', '', '', '', '', '', 'limita u CURR', '', '', '', '', '', '', '', '', 'klasifikacija', '', '', '', '', '', '', '', '', '', '', '', '', '   Razlog gašenja']
['10.09.1999.', '', '', '', '', '', '', '', '', '', '', '   0,00  B', '', '', '', '', '', '', '   S1', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '  Completed']
['', '', '', '', '', '', '', '', '', ' Dospjela nenaplaćena', '   Datum promjene', '', '', '', '  Datum promjene CKKL']
['Stvarni datum zatvaranja', '', '', '', '  glavnica/kamata u', ' klasifikacije', '', '', '', '   klasifikacije', '', '', '', '   Datum i vrijeme ažuriranja']
['', '', '', '', '', '', '', '', '', '', '', '', '', '', ' CURR']
['07.09.1999.', '', '', '', '', '', '', '', '', '', ' 0,00/0,00   07.07.1999.', '', '', '', '', ' 07.02.1999.', '', '', '', '', ' 12.09.1999. 13:10']
]

Как вы можете заметить, прямо под ним находится метка и значение. Метка может занимать несколько строк, как и значение.
Глядя на нее, вы можете извлечь и заметить значения, определенные под ней, но попытка разделить данные по символам или выровнять их по индексу и попытаться сделать то же самое в этом случае не сработает. Значения могут быть пустыми, что обозначается пустой строкой.
В приведенной выше ситуации у меня есть 7 столбцов в первой строке, 6 во второй и 5 в третьей.
Мне нужно сгруппировать эти данные по метке, учитывая, что значение может быть нулевым (пустая строка). Как я могу добиться этого в Python и возможно ли это вообще не испортить данные?

Подробнее здесь: https://stackoverflow.com/questions/782 ... -in-python

1772726675

Anonymous

У меня есть массив массивов, содержащих данные в следующем формате:
[code]text_lines = [
['Datum puštanja u', '', '', '', '', '  Odobreni limit u CURR', ' Tekuća klasifikacija', '', '', 'Tekuća CKKL', '   Dani', '', '  Iznos otplaćivanja u CURR', '', '', 'Naziv institucije i']
['realizaciju', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', ' klasifikacija', ' kašnjenja', '', '', '', '', '', '', '', '', '', ' broj']
['13.08.1999.', '', '', '', '', '', '', '', '', '   130.000,00', 'A', '', '', '', '', '', '', '   S1', '', '', '', '', '', '', '  100,50', '', '', '', '', '', '', '  PLACEHOLDER NAME DD']
['Datum otplate', '', '', '', '', '', '   Neiskorišteni iznos', ' Prethodna klasifikacija', '', ' Prethodna CKKL', '', '', '', '  Žirant vraća kredit', '', '', '', ' 338-123412412-43']
['', '', '', '', '', '', '', '', '', '', '', '', 'limita u CURR', '', '', '', '', '', '', '', '', 'klasifikacija', '', '', '', '', '', '', '', '', '', '', '', '', '   Razlog gašenja']
['10.09.1999.', '', '', '', '', '', '', '', '', '', '', '   0,00  B', '', '', '', '', '', '', '   S1', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '  Completed']
['', '', '', '', '', '', '', '', '', ' Dospjela nenaplaćena', '   Datum promjene', '', '', '', '  Datum promjene CKKL']
['Stvarni datum zatvaranja', '', '', '', '  glavnica/kamata u', ' klasifikacije', '', '', '', '   klasifikacije', '', '', '', '   Datum i vrijeme ažuriranja']
['', '', '', '', '', '', '', '', '', '', '', '', '', '', ' CURR']
['07.09.1999.', '', '', '', '', '', '', '', '', '', ' 0,00/0,00   07.07.1999.', '', '', '', '', ' 07.02.1999.', '', '', '', '', ' 12.09.1999. 13:10']
]
[/code]
Как вы можете заметить, прямо под ним находится метка и значение. Метка может занимать несколько строк, как и значение.
Глядя на нее, вы можете извлечь и заметить значения, определенные под ней, но попытка разделить данные по символам или выровнять их по индексу и попытаться сделать то же самое в этом случае не сработает. Значения могут быть пустыми, что обозначается пустой строкой.
В приведенной выше ситуации у меня есть 7 столбцов в первой строке, 6 во второй и 5 в третьей.
Мне нужно сгруппировать эти данные по метке, учитывая, что значение может быть нулевым (пустая строка). Как я могу добиться этого в Python и возможно ли это вообще не испортить данные? 

Подробнее здесь: [url]https://stackoverflow.com/questions/78289239/group-visually-aligned-data-from-text-by-label-and-value-in-python[/url]