Как вставить «for_each» или «map» в середину цепочки методов Polars? - Цифровое Кемерово

Как вставить «for_each» или «map» в середину цепочки методов Polars? ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Как вставить «for_each» или «map» в середину цепочки методов Polars?

Цитата

Сообщение Anonymous » 23 дек 2024, 17:50

Я использую несколько фильтров и других приложений для преобразования, включая group_by для фрейма данных Polars, цель состоит в том, чтобы подсчитать количество HTML-тегов в одном столбце на дату для каждого издателя. Вот код:

Код: Выделить всё

120 def contains_html3(mindate, parquet_file = default_file, fieldname = "text"):
121     """ checks if html tags are in field """
122
123
124     html_tags = [
125     "", "", "", "", "", "", "", "", "[*]", "", "",
126     "", "", "", "", "", "", "", "", "", "",
127     "", "", "", "", "", "", "", "", "", "",
128     "", "", "[h4]", "[/h4]", "", "", "", "", "
", "
", "[list]", "[/list]", "[list]", "[/list]",
129     "", "", "", "", "", "", "", "", "", "", "", "",
130     "", "", "", "", "", "", "", "", "", "", "", "",
131     "", "", "", "", "", "", "", "", "",
132     "", "", "", "", "", "", "", "", ""]
133
134     gg = (pl.scan_parquet(parquet_file)
135           .cast({"date": pl.Date})
136           .select("publisher", "date", fieldname)
137           .drop_nulls()
138           .group_by("publisher", "date")
139           .agg(pl.col(fieldname).str.contains_any(html_tags).sum().alias(fieldname))
140           .filter(pl.col(fieldname) >  0)
141           .sort(fieldname, descending = True)).collect()
142
143     return gg

Вот пример вывода для fieldname = "text":

Код: Выделить всё

Out[8]:
shape: (22_925, 3)
┌───────────────────────────┬────────────┬──────┐
│ publisher                 ┆ date       ┆ text │
│ ---                       ┆ ---        ┆ ---  │
│ str                       ┆ date       ┆ u64  │
╞═══════════════════════════╪════════════╪══════╡
│ Kronen Zeitung            ┆ 2024-11-20 ┆ 183  │
│ Kronen Zeitung            ┆ 2024-10-25 ┆ 180  │
│ Kronen Zeitung            ┆ 2024-11-14 ┆ 174  │
│ Kronen Zeitung            ┆ 2024-11-06 ┆ 172  │
│ Kronen Zeitung            ┆ 2024-10-31 ┆ 171  │
│ …                         ┆ …          ┆ …    │
│ The Faroe Islands Podcast ┆ 2020-03-31 ┆ 1    │
│ Sunday Standard           ┆ 2024-07-16 ┆ 1    │
│ Stabroek News             ┆ 2024-08-17 ┆ 1    │
│ CivilNet                  ┆ 2024-09-01 ┆ 1    │
│ The Star                  ┆ 2024-06-23 ┆ 1    │
└───────────────────────────┴────────────┴──────┘

Проблема в том, что вместо того, чтобы просто передавать один аргумент fieldname = "text", я хотел бы передать список (например, ["text", "original_text" , «перевод», ...]). Идея заключалась в том, чтобы запустить три нижние строки цепочки для каждого элемента списка. Я мог бы обернуть всю цепочку методов поляров в цикл for, а затем соединить полученные фреймы данных, но есть ли лучший способ? Например, вставить карту, foreach или другую подобную конструкцию после предложения group_by, а затем поляры добавляют новый столбец для каждого имени поля без использования цикла?
Как лучше всего с этим справиться?

Подробнее здесь: https://stackoverflow.com/questions/793 ... thod-chain

1734965429

Anonymous

Я использую несколько фильтров и других приложений для преобразования, включая group_by для фрейма данных Polars, цель состоит в том, чтобы подсчитать количество HTML-тегов в одном столбце на дату для каждого издателя.  Вот код:
[code]120 def contains_html3(mindate, parquet_file = default_file, fieldname = "text"):
121     """ checks if html tags are in field """
122
123
124     html_tags = [
125     "", "", "", "", "", "", "", "", "[*]", "", "",
126     "", "", "", "", "", "", "", "", "", "",
127     "", "", "", "", "", "", "", "", "", "",
128     "", "", "[h4]", "[/h4]", "", "", "", "", "
", "
", "[list]", "[/list]", "[list]", "[/list]",
129     "", "", "", "", "", "", "", "", "", "", "", "",
130     "", "", "", "", "", "", "", "", "", "", "", "",
131     "", "", "", "", "", "", "", "", "",
132     "", "", "", "", "", "", "", "", ""]
133
134     gg = (pl.scan_parquet(parquet_file)
135           .cast({"date": pl.Date})
136           .select("publisher", "date", fieldname)
137           .drop_nulls()
138           .group_by("publisher", "date")
139           .agg(pl.col(fieldname).str.contains_any(html_tags).sum().alias(fieldname))
140           .filter(pl.col(fieldname) >  0)
141           .sort(fieldname, descending = True)).collect()
142
143     return gg
[/code]
Вот пример вывода для fieldname = "text":
[code]Out[8]:
shape: (22_925, 3)
┌───────────────────────────┬────────────┬──────┐
│ publisher                 ┆ date       ┆ text │
│ ---                       ┆ ---        ┆ ---  │
│ str                       ┆ date       ┆ u64  │
╞═══════════════════════════╪════════════╪══════╡
│ Kronen Zeitung            ┆ 2024-11-20 ┆ 183  │
│ Kronen Zeitung            ┆ 2024-10-25 ┆ 180  │
│ Kronen Zeitung            ┆ 2024-11-14 ┆ 174  │
│ Kronen Zeitung            ┆ 2024-11-06 ┆ 172  │
│ Kronen Zeitung            ┆ 2024-10-31 ┆ 171  │
│ …                         ┆ …          ┆ …    │
│ The Faroe Islands Podcast ┆ 2020-03-31 ┆ 1    │
│ Sunday Standard           ┆ 2024-07-16 ┆ 1    │
│ Stabroek News             ┆ 2024-08-17 ┆ 1    │
│ CivilNet                  ┆ 2024-09-01 ┆ 1    │
│ The Star                  ┆ 2024-06-23 ┆ 1    │
└───────────────────────────┴────────────┴──────┘

[/code]
Проблема в том, что вместо того, чтобы просто передавать один аргумент fieldname = "text", я хотел бы передать список (например, ["text", "original_text" , «перевод», ...]). Идея заключалась в том, чтобы запустить три нижние строки цепочки для каждого элемента списка. Я мог бы обернуть всю цепочку методов поляров в цикл for, а затем соединить полученные фреймы данных, но есть ли лучший способ? Например, вставить карту, foreach или другую подобную конструкцию после предложения group_by, а затем поляры добавляют новый столбец для каждого имени поля без использования цикла?
Как лучше всего с этим справиться?
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79302825/how-do-i-insert-a-for-each-or-map-into-the-middle-of-a-polars-method-chain[/url]

Ответить

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Вернуться в «Python»