Код: Выделить всё
import polars as pl
import xml.etree.ElementTree as ET
# create a sample dataframe
df = pl.DataFrame({
'A': [1, 2, 3],
'B': ['some text
bla
', '
some textfoo
', '
some text']
})
def func(mystring):
return mystring*2
def func2(xml_string):
root = ET.fromstring(xml_string)
text_list = []
for elem in root.iter():
text = elem.text.strip() if elem.text else ''
text_list.append(text)
return test_list
# create a sample series to add as a new column
df = df.with_columns((pl.col("A").map_batches(lambda x: func(x)).alias('new_col')))
df = df.with_columns((pl.col("B").map_batches(lambda x: func2(x)).alias('new_col2')))
print(df)
а вот вторая не работает.
Я получаю следующую ошибку:
ComputeError: TypeError: требуется байтовый объект, а не «Серия»
По сути, мой вариант использования заключается в том, что столбец содержит строку XML, которой мне приходится манипулировать, создавая объект XML и извлекая информацию.
Как мне продолжить?
Подробнее здесь: https://stackoverflow.com/questions/762 ... o-a-column