Как вставить «for_each» или «map» в середину цепочки методов Polars? - Цифровое Кемерово

Как вставить «for_each» или «map» в середину цепочки методов Polars? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как вставить «for_each» или «map» в середину цепочки методов Polars?

Цитата

Сообщение Anonymous » 24 дек 2024, 01:56

Я использую несколько фильтров и других приложений для преобразования, включая group_by для фрейма данных Polars, цель состоит в том, чтобы подсчитать количество HTML-тегов в одном столбце на дату для каждого издателя. Вот код:
120 def contains_html3(mindate, parquet_file = default_file, fieldname = "text"):
121 """ checks if html tags are in field """
122
123
124 html_tags = [
125 "", "", "", "", "", "", "", "", "[*]", "", "",
126 "", "", "", "", "", "", "", "", "", "",
127 "", "", "", "", "", "", "", "", "", "",
128 "", "", "

", "

", "", "", "", "", "
", "
", "

", "

", "

", "

",
129 "", "", "", "", "", "", "", "", "", "", "", "",
130 "", "", "", "", "", "", "", "", "", "", "", "",
131 "", "", "", "", "", "", "", "", "",
132 "", "", "", "", "", "", "", "", ""]
133
134 gg = (pl.scan_parquet(parquet_file)
135 .cast({"date": pl.Date})
136 .select("publisher", "date", fieldname)
137 .drop_nulls()
138 .group_by("publisher", "date")
139 .agg(pl.col(fieldname).str.contains_any(html_tags).sum().alias(fieldname))
140 .filter(pl.col(fieldname) > 0)
141 .sort(fieldname, descending = True)).collect()
142
143 return gg

Вот пример вывода для fieldname = "text":
Out[8]:
shape: (22_925, 3)
┌───────────────────────────┬────────────┬──────┐
│ publisher ┆ date ┆ text │
│ --- ┆ --- ┆ --- │
│ str ┆ date ┆ u64 │
╞═══════════════════════════╪════════════╪══════╡
│ Kronen Zeitung ┆ 2024-11-20 ┆ 183 │
│ Kronen Zeitung ┆ 2024-10-25 ┆ 180 │
│ Kronen Zeitung ┆ 2024-11-14 ┆ 174 │
│ Kronen Zeitung ┆ 2024-11-06 ┆ 172 │
│ Kronen Zeitung ┆ 2024-10-31 ┆ 171 │
│ … ┆ … ┆ … │
│ The Faroe Islands Podcast ┆ 2020-03-31 ┆ 1 │
│ Sunday Standard ┆ 2024-07-16 ┆ 1 │
│ Stabroek News ┆ 2024-08-17 ┆ 1 │
│ CivilNet ┆ 2024-09-01 ┆ 1 │
│ The Star ┆ 2024-06-23 ┆ 1 │
└───────────────────────────┴────────────┴──────┘

Проблема в том, что вместо того, чтобы просто передавать один аргумент fieldname = "text", я хотел бы передать список (например, ["text", "original_text" , «перевод», ...]). Идея заключалась в том, чтобы запустить три нижние строки цепочки для каждого элемента списка. Я мог бы обернуть всю цепочку методов поляров в цикл for, а затем соединить полученные фреймы данных, но есть ли лучший способ? Например, вставить карту, foreach или другую подобную конструкцию после предложения group_by, а затем поляры добавляют новый столбец для каждого имени поля без использования цикла?
Как лучше всего с этим справиться?
РЕДАКТИРОВАТЬ С ПОМОЩЬЮ ВОСПРОИЗВОДИМОГО КОДА
Это создаст кадр данных df и образец вывода tc , который представляет собой столбец text1, но вы заметите, что в кадре данных есть 4 столбца, text1…text4, поэтому мне нужна статистика html-тегов для каждого столбца.
#colorscheme orbital dark

import polars as pl
import datetime as dt
from math import sqrt
import random
random.seed(8472)

html_tags = [
"", "", "", "", "", "", "", "", "[*]", "", "", "",
"", "", "", "", "", "", "", "", "", "",
"", "", "", "", "", "", "", "", "", "",
"", "", "

", "

", "", "", "", "", "
", "
", "

", "

", "

", "

",
"", "", "", "", "", "", "", "", "", "", "", "",
"", "", "", "", "", "", "", "", "", "", "", "",
"", "", "", "", "", "", "", "", "", "",
"", "", "", "", "", "", "", "", "", ""]

def makeword(alphaLength):
"""Make a dummy name if none provided."""
consonants = "bcdfghjklmnpqrstvwxyz"
vowels = "aeiou"
word = ''.join(random.choice(consonants if i % 2 == 0 else vowels)
for i in range(alphaLength))
return word

def makepara(nwords):
"""Make a paragraph of dummy text."""
words = [makeword(random.randint(3, 10)) for _ in range(nwords)]
tags = random.choices(html_tags, k=3)
parawords = random.choices(tags + words, k=nwords)
para = " ".join(parawords)
return para

def generate_df_with_tags(rows = 100, numdates = 10, num_publishers = 6):
cols = ["publisher", "date", "text1", "text2", "text3", "text4"]
publishers = [makeword(5) for _ in range(num_publishers)]
datesrange = pl.date_range(start := dt.datetime(2024, 2, 1),
end = start + dt.timedelta(days = numdates - 1),
eager = True)
dates = sorted(random.choices(datesrange, k = rows))
df = pl.DataFrame({
"publisher": random.choices(publishers, k = rows),
"date": dates,
"text1": [makepara(15) for _ in range(rows)],
"text2": [makepara(15) for _ in range(rows)],
"text3": [makepara(15) for _ in range(rows)],
"text4": [makepara(15) for _ in range(rows)]
})
return df

def contains_html_so(parquet_file, fieldname = "text"):
""" checks if html tags are in field """

gg = (pl.scan_parquet(parquet_file)
.select("publisher", "date", fieldname)
.drop_nulls()
.group_by("publisher", "date")
.agg(pl.col(fieldname).str.contains_any(html_tags).sum().alias(fieldname))
.filter(pl.col(fieldname) > 0)
.sort(fieldname, descending = True)).collect()

return gg

if __name__ == "__main__":
df = generate_df_with_tags(100)
df.write_parquet("/tmp/test.parquet")
tc = contains_html_so("/tmp/test.parquet", fieldname = "text1")
print(tc)

Подробнее здесь: https://stackoverflow.com/questions/793 ... thod-chain

Реклама

1734994594

Anonymous

Я использую несколько фильтров и других приложений для преобразования, включая group_by для фрейма данных Polars, цель состоит в том, чтобы подсчитать количество HTML-тегов в одном столбце на дату для каждого издателя.  Вот код:
120 def contains_html3(mindate, parquet_file = default_file, fieldname = "text"):
121     """ checks if html tags are in field """
122
123
124     html_tags = [
125     "", "", "", "", "", "", "", "", "[*]", "", "",
126     "", "", "", "", "", "", "", "", "", "",
127     "", "", "", "", "", "", "", "", "", "",
128     "", "", "[h4]", "[/h4]", "", "", "", "", "
", "
", "[list]", "[/list]", "[list]", "[/list]",
129     "", "", "", "", "", "", "", "", "", "", "", "",
130     "", "", "", "", "", "", "", "", "", "", "", "",
131     "", "", "", "", "", "", "", "", "",
132     "", "", "", "", "", "", "", "", ""]
133
134     gg = (pl.scan_parquet(parquet_file)
135           .cast({"date": pl.Date})
136           .select("publisher", "date", fieldname)
137           .drop_nulls()
138           .group_by("publisher", "date")
139           .agg(pl.col(fieldname).str.contains_any(html_tags).sum().alias(fieldname))
140           .filter(pl.col(fieldname) >  0)
141           .sort(fieldname, descending = True)).collect()
142
143     return gg

Вот пример вывода для fieldname = "text":
Out[8]:
shape: (22_925, 3)
┌───────────────────────────┬────────────┬──────┐
│ publisher                 ┆ date       ┆ text │
│ ---                       ┆ ---        ┆ ---  │
│ str                       ┆ date       ┆ u64  │
╞═══════════════════════════╪════════════╪══════╡
│ Kronen Zeitung            ┆ 2024-11-20 ┆ 183  │
│ Kronen Zeitung            ┆ 2024-10-25 ┆ 180  │
│ Kronen Zeitung            ┆ 2024-11-14 ┆ 174  │
│ Kronen Zeitung            ┆ 2024-11-06 ┆ 172  │
│ Kronen Zeitung            ┆ 2024-10-31 ┆ 171  │
│ …                         ┆ …          ┆ …    │
│ The Faroe Islands Podcast ┆ 2020-03-31 ┆ 1    │
│ Sunday Standard           ┆ 2024-07-16 ┆ 1    │
│ Stabroek News             ┆ 2024-08-17 ┆ 1    │
│ CivilNet                  ┆ 2024-09-01 ┆ 1    │
│ The Star                  ┆ 2024-06-23 ┆ 1    │
└───────────────────────────┴────────────┴──────┘


Проблема в том, что вместо того, чтобы просто передавать один аргумент fieldname = "text", я хотел бы передать список (например, ["text", "original_text" , «перевод», ...]). Идея заключалась в том, чтобы запустить три нижние строки цепочки для каждого элемента списка.  Я мог бы обернуть всю цепочку методов поляров в цикл for, а затем соединить полученные фреймы данных, но есть ли лучший способ? Например, вставить карту, foreach или другую подобную конструкцию после предложения group_by, а затем поляры добавляют новый столбец для каждого имени поля без использования цикла?
Как лучше всего с этим справиться?
РЕДАКТИРОВАТЬ С ПОМОЩЬЮ ВОСПРОИЗВОДИМОГО КОДА
Это создаст кадр данных df и образец вывода tc , который представляет собой столбец text1, но вы заметите, что в кадре данных есть 4 столбца, text1…text4, поэтому мне нужна статистика html-тегов для каждого столбца.
#colorscheme orbital dark

import polars as pl
import datetime as dt
from math import sqrt
import random
random.seed(8472)

html_tags = [
"", "", "", "", "", "", "", "", "[*]", "", "", "",
"", "", "", "", "", "", "", "", "", "",
"", "", "", "", "", "", "", "", "", "",
"", "", "[h4]", "[/h4]", "", "", "", "", "
", "
", "[list]", "[/list]", "[list]", "[/list]",
"", "", "", "", "", "", "", "", "", "", "", "",
"", "", "", "", "", "", "", "", "", "", "", "",
"", "", "", "", "", "", "", "", "", "",
"", "", "", "", "", "", "", "", "", ""]

def makeword(alphaLength):
"""Make a dummy name if none provided."""
consonants = "bcdfghjklmnpqrstvwxyz"
vowels = "aeiou"
word = ''.join(random.choice(consonants if i % 2 == 0 else vowels)
for i in range(alphaLength))
return word

def makepara(nwords):
"""Make a paragraph of dummy text."""
words = [makeword(random.randint(3, 10)) for _ in range(nwords)]
tags = random.choices(html_tags, k=3)
parawords = random.choices(tags + words, k=nwords)
para = "  ".join(parawords)
return para

def generate_df_with_tags(rows = 100, numdates = 10, num_publishers = 6):
cols = ["publisher", "date", "text1", "text2", "text3", "text4"]
publishers = [makeword(5) for _ in range(num_publishers)]
datesrange = pl.date_range(start := dt.datetime(2024, 2, 1),
end = start + dt.timedelta(days = numdates - 1),
eager = True)
dates = sorted(random.choices(datesrange, k = rows))
df = pl.DataFrame({
"publisher": random.choices(publishers, k = rows),
"date": dates,
"text1": [makepara(15) for _ in range(rows)],
"text2": [makepara(15) for _ in range(rows)],
"text3": [makepara(15) for _ in range(rows)],
"text4": [makepara(15) for _ in range(rows)]
})
return df

def contains_html_so(parquet_file, fieldname = "text"):
""" checks if html tags are in field """

gg = (pl.scan_parquet(parquet_file)
.select("publisher", "date", fieldname)
.drop_nulls()
.group_by("publisher", "date")
.agg(pl.col(fieldname).str.contains_any(html_tags).sum().alias(fieldname))
.filter(pl.col(fieldname) > 0)
.sort(fieldname, descending = True)).collect()

return gg

if __name__ == "__main__":
df = generate_df_with_tags(100)
df.write_parquet("/tmp/test.parquet")
tc = contains_html_so("/tmp/test.parquet", fieldname = "text1")
print(tc)

 

Подробнее здесь: [url]https://stackoverflow.com/questions/79302825/how-do-i-insert-a-for-each-or-map-into-the-middle-of-a-polars-method-chain[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как вставить «for_each» или «map» в середину цепочки методов Polars?

Последнее сообщение Anonymous « 23 дек 2024, 17:50
Добавлено в форуме Python

Anonymous » 23 дек 2024, 17:50 » в форуме Python

Я использую несколько фильтров и других приложений для преобразования, включая group_by для фрейма данных Polars, цель состоит в том, чтобы подсчитать количество HTML-тегов в одном столбце на дату для каждого издателя. Вот код:
120 def...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
23 дек 2024, 17:50
Как вставить «for_each» или «map» в середину цепочки методов Polars?

Последнее сообщение Anonymous « 25 дек 2024, 03:23
Добавлено в форуме Python

Anonymous » 25 дек 2024, 03:23 » в форуме Python

Я использую несколько фильтров и других приложений для преобразования, включая group_by для фрейма данных Polars, цель состоит в том, чтобы подсчитать количество HTML-тегов в одном столбце на дату для каждого издателя. Вот код:
120 def...

0 Ответы

8 Просмотры

Последнее сообщение Anonymous
25 дек 2024, 03:23
Java 11: получение «Пустой цепочки сертификатов [клиента]» вместо «Пустой цепочки сертификатов [сервера]»

Последнее сообщение Anonymous « 01 дек 2024, 10:09
Добавлено в форуме JAVA

Anonymous » 01 дек 2024, 10:09 » в форуме JAVA

Я пытаюсь отладить тестовый код Java 11, который использует SSLServerSocket для сервера и SSLSocket для ответа. Основной код работает следующим образом:
server.setNeedClientAuth(false);
need_Client_Auth = server.getNeedClientAuth();
assertFalse(...

0 Ответы

35 Просмотры

Последнее сообщение Anonymous
01 дек 2024, 10:09
Как динамически вставить столбец данных в середину таблицы html, которая использует оба диапазона строк и столбцов?

Последнее сообщение Anonymous « 21 июн 2024, 22:53
Добавлено в форуме Jquery

Anonymous » 21 июн 2024, 22:53 » в форуме Jquery

У меня есть большая таблица с несколькими интервалами строк и столбцов.
В идеале ее следует переписать с нуля, чтобы не использовать одну большую таблицу, но это не вариант. прямо сейчас.
Добавляя классы в таблицу, когда она сгенерирована с помощью...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
21 июн 2024, 22:53
Как вставить сокращение карты в цепочку методов Polars?

Последнее сообщение Anonymous « 25 дек 2024, 14:13
Добавлено в форуме Python

Anonymous » 25 дек 2024, 14:13 » в форуме Python

Я использую несколько фильтров и других приложений для преобразования, включая group_by для фрейма данных Polars, цель состоит в том, чтобы подсчитать количество HTML-тегов в одном столбце на дату для каждого издателя. Вот код:
120 def...

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
25 дек 2024, 14:13

Вернуться в «Python»

Programmiererforum