Join_where с start_with в полярах - Цифровое Кемерово

Join_where с start_with в полярах ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Join_where с start_with в полярах

Цитата

Сообщение Anonymous » 10 янв 2025, 11:43

У меня есть два фрейма данных

Код: Выделить всё

df = pl.DataFrame({'url': ['https//abc.com', 'https//abcd.com', 'https//abcd.com/aaa', 'https//abc.com/abcd']})

Код: Выделить всё

conditions_df = pl.DataFrame({'url': ['https//abc.com', 'https//abcd.com', 'https//abcd.com/aaa', 'https//abc.com/aaa'], 'category': [['a'], ['b'], ['c'], ['d']]})

теперь мне нужен df для назначения категорий первому df на основе первого совпадения, поскольку URL-адрес начинается со второго df, то есть результат должен быть таким:

url
категория

https//abc.com
['a']< /td>

https//abcd.com
['b']

https//abcd.com/aaa
['b'] — этот начинается с https//abcd.com, это первое совпадение

https//abc.com/abcd
['a'] — это начинается с https//abc.com, это первый match

текущий код, который работает, выглядит так,

Код: Выделить всё

def add_category_column(df: pl.DataFrame, conditions_df) -> pl.DataFrame:
    
    # Initialize the category column with empty lists
    df = df.with_columns(pl.Series("category", [[] for _ in range(len(df))], dtype=pl.List(pl.String)))
    
    # Apply the conditions to populate the category column
    for row in conditions_df.iter_rows():
        url_start, category = row
        df = df.with_columns(
            pl.when(
                (pl.col("url").str.starts_with(url_start)) & (pl.col("category").list.len() == 0)
            )
            .then(pl.lit(category))
            .otherwise(pl.col("category"))
            .alias("category")
        )
    
    return df

но есть ли способ добиться того же без использования циклов for, можем ли мы использовать здесь join_where, но в моих попытках join_where не работает для start_with

Подробнее здесь: https://stackoverflow.com/questions/791 ... -in-polars

1736498623

Anonymous

У меня есть два фрейма данных
[code]df = pl.DataFrame({'url': ['https//abc.com', 'https//abcd.com', 'https//abcd.com/aaa', 'https//abc.com/abcd']})
[/code]

[code]conditions_df = pl.DataFrame({'url': ['https//abc.com', 'https//abcd.com', 'https//abcd.com/aaa', 'https//abc.com/aaa'], 'category': [['a'], ['b'], ['c'], ['d']]})
[/code]
теперь мне нужен df для назначения категорий первому df на основе первого совпадения, поскольку URL-адрес начинается со второго df, то есть результат должен быть таким:



url
категория




https//abc.com
['a']< /td>


https//abcd.com
['b']


https//abcd.com/aaa
['b'] — этот начинается с https//abcd.com, это первое совпадение


https//abc.com/abcd
['a'] — это начинается с https//abc.com, это первый match



текущий код, который работает, выглядит так,
[code]def add_category_column(df: pl.DataFrame, conditions_df) -> pl.DataFrame:
    
    # Initialize the category column with empty lists
    df = df.with_columns(pl.Series("category", [[] for _ in range(len(df))], dtype=pl.List(pl.String)))
    
    # Apply the conditions to populate the category column
    for row in conditions_df.iter_rows():
        url_start, category = row
        df = df.with_columns(
            pl.when(
                (pl.col("url").str.starts_with(url_start)) & (pl.col("category").list.len() == 0)
            )
            .then(pl.lit(category))
            .otherwise(pl.col("category"))
            .alias("category")
        )
    
    return df
[/code]
но есть ли способ добиться того же без использования циклов for, можем ли мы использовать здесь join_where, но в моих попытках join_where не работает для start_with
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79161450/join-where-with-starts-with-in-polars[/url]