Есть ли быстрый способ соответствовать столбцу строк с каждой подстрокой в списке? - Цифровое Кемерово

Есть ли быстрый способ соответствовать столбцу строк с каждой подстрокой в списке? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Есть ли быстрый способ соответствовать столбцу строк с каждой подстрокой в списке?

Цитата

Сообщение Anonymous » 22 фев 2025, 05:39

У меня есть столбец DataFrame, который состоит из строк. У меня также есть список подстроков. Для каждой подстроки я хочу проверить ее по каждой строке в столбце DataFrame, возвращая true , если подстроение находится в строке. Следующее работает, но очень медленно. < /P>

Код: Выделить всё

import pandas as pd
import time

t0 = time.time()

df = pd.DataFrame({
'FullName': ['C:/historical Dog analysis/Digger.doc', 'C:/historical Dog analysis/Roscoe.doc', 'C:/2024/Budgie requests/pipsqueak.csv', 'C:/text4.doc', 'C:/text5.doc'],
})

new_columns = {"_Outreach/Website design": (df['FullName'].str.contains("/historical Dog analysis/|"\
"/Budgie requests/|"\
"Dog analysis/best practices",case=False))
}

new_df = pd.DataFrame(new_columns)

df = pd.concat([df, new_df], axis=1).reindex(df.index)

t1 = time.time()
print(t1-t0)
print(df)

, пытаясь найти более быстрый подход, я попробовал ISIN. Но он, кажется, работает только при сопоставлении строки с строкой, а не строки для подстроения. < Br />

Код: Выделить всё

t0 = time.time()

df = pd.DataFrame({
'FullName': ['C:/historical Dog analysis/Digger.doc', 'C:/historical Dog analysis/Roscoe.doc', 'C:/2024/Budgie requests/pipsqueak.csv', 'C:/text4.doc', 'C:/text5.doc'],
})

#works, but not useful because requires full string match
new_columns = df["FullName"].isin(["C:/historical Dog analysis/Digger.doc","C:/2024/Budgie requests/pipsqueak.csv"])
#doesn't work (Returns a list of FALSE in next column)
# new_columns = df["FullName"].isin([".*/historical Dog analysis/.*"])

new_df = pd.DataFrame(new_columns)

df = pd.concat([df, new_df], axis=1).reindex(df.index)
t1 = time.time()
print(t1-t0)
print(df)

Я также пробовал фильтр , но кажется, что он может занимать только один ввод подстроения за раз.

Код: Выделить всё

col_one_list = df['FullName'].tolist()
#doesn't work:TypeError: 'in ' requires string as left operand, not list
# b = ["/historical Dog analysis/","/Budgie requests/"]
#doesn't work: TypeError: unsupported operand type(s) for |: 'str' and 'str'
# b = ("/historical Dog analysis/"|"/Budgie requests/")
#works, but can only search one substring at a time
b = "/historical Dog analysis/"
new_columns = list(filter(lambda x: b in x, col_one_list))
print(new_columns)

new_df = pd.DataFrame(new_columns)

df = pd.concat([df, new_df], axis=1).reindex(df.index)
t1 = time.time()
print(t1-t0)
print(df)

Кто -нибудь знает быстрый способ сопоставить список подстроков с строками?

Подробнее здесь: https://stackoverflow.com/questions/794 ... -in-a-list

Реклама

1740191946

Anonymous

 У меня есть столбец DataFrame, который состоит из строк.  У меня также есть список подстроков.  Для каждой подстроки я хочу проверить ее по каждой строке в столбце DataFrame, возвращая  true , если подстроение находится в строке. Следующее работает, но очень медленно. < /P>
[code]import pandas as pd
import time

t0 = time.time()

df = pd.DataFrame({
'FullName': ['C:/historical Dog analysis/Digger.doc', 'C:/historical Dog analysis/Roscoe.doc', 'C:/2024/Budgie requests/pipsqueak.csv', 'C:/text4.doc', 'C:/text5.doc'],
})

new_columns = {"_Outreach/Website design": (df['FullName'].str.contains("/historical Dog analysis/|"\
"/Budgie requests/|"\
"Dog analysis/best practices",case=False))
}

new_df = pd.DataFrame(new_columns)

df = pd.concat([df, new_df], axis=1).reindex(df.index)

t1 = time.time()
print(t1-t0)
print(df)
[/code]
, пытаясь найти более быстрый подход, я попробовал ISIN.  Но он, кажется, работает только при сопоставлении строки с строкой, а не строки для подстроения.  < Br />[code]t0 = time.time()

df = pd.DataFrame({
'FullName': ['C:/historical Dog analysis/Digger.doc', 'C:/historical Dog analysis/Roscoe.doc', 'C:/2024/Budgie requests/pipsqueak.csv', 'C:/text4.doc', 'C:/text5.doc'],
})

#works, but not useful because requires full string match
new_columns = df["FullName"].isin(["C:/historical Dog analysis/Digger.doc","C:/2024/Budgie requests/pipsqueak.csv"])
#doesn't work (Returns a list of FALSE in next column)
# new_columns = df["FullName"].isin([".*/historical Dog analysis/.*"])

new_df = pd.DataFrame(new_columns)

df = pd.concat([df, new_df], axis=1).reindex(df.index)
t1 = time.time()
print(t1-t0)
print(df)
[/code]
Я также пробовал фильтр , но кажется, что он может занимать только один ввод подстроения за раз. 
[code]col_one_list = df['FullName'].tolist()
#doesn't work:TypeError: 'in ' requires string as left operand, not list
# b = ["/historical Dog analysis/","/Budgie requests/"]
#doesn't work: TypeError: unsupported operand type(s) for |: 'str' and 'str'
# b = ("/historical Dog analysis/"|"/Budgie requests/")
#works, but can only search one substring at a time
b = "/historical Dog analysis/"
new_columns = list(filter(lambda x: b in x, col_one_list))
print(new_columns)

new_df = pd.DataFrame(new_columns)

df = pd.concat([df, new_df], axis=1).reindex(df.index)
t1 = time.time()
print(t1-t0)
print(df)
[/code]
Кто -нибудь знает быстрый способ сопоставить список подстроков с строками?  

Подробнее здесь: [url]https://stackoverflow.com/questions/79458923/is-there-a-fast-way-to-match-a-column-of-strings-to-each-substring-in-a-list[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Есть ли быстрый способ соответствовать столбцу строк с каждой подстрокой в списке?

Последнее сообщение Anonymous « 22 фев 2025, 04:09
Добавлено в форуме Python

Anonymous » 22 фев 2025, 04:09 » в форуме Python

У меня есть столбец DataFrame, который состоит из строк. У меня также есть список подстроков. Для каждой подстроки я хочу проверить ее по каждой строке в столбце DataFrame, возвращая true , если подстроение находится в строке. Следующее работает, но...

0 Ответы

8 Просмотры

Последнее сообщение Anonymous
22 фев 2025, 04:09
Заменить подстроку другой подстрокой C++

Последнее сообщение Гость « 28 сен 2023, 19:42
Добавлено в форуме C++

Гость » 28 сен 2023, 19:42 » в форуме C++

Как заменить подстроку в строке другой подстрокой в C++, какие функции можно использовать?
например: string test = «abc def abc def»; test.replace( abc , hij ).replace( def , klm ); //заменяем вхождение abc и def другой подстрокой

0 Ответы

29 Просмотры

Последнее сообщение Гость
28 сен 2023, 19:42
Polars применяет функцию, чтобы проверить, является ли значение строки подстрокой другой строки

Последнее сообщение Anonymous « 10 июл 2024, 08:07
Добавлено в форуме Python

Anonymous » 10 июл 2024, 08:07 » в форуме Python

Здравствуйте, я пытаюсь проверить, содержит ли string_1 = 'this example string' значение столбца в качестве подстроки.
Например, первое значение в столбце B должно быть True, поскольку 'example' является подстрокой string_1
string_1 = 'this example...

0 Ответы

23 Просмотры

Последнее сообщение Anonymous
10 июл 2024, 08:07
Удалить пространство перед конкретной подстрокой

Последнее сообщение Anonymous « 11 авг 2025, 17:39
Добавлено в форуме JAVA

Anonymous » 11 авг 2025, 17:39 » в форуме JAVA

Я думаю, что regex может помочь мне здесь.

, скажем, у меня есть строка, что такое foo. Где Фу. Как Фу. Почему Фу? Когда Фу? Вместе Фу. lol foo

Как удалить пространство перед каждым foo ?

Подробнее здесь:

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
11 авг 2025, 17:39
Группируйте данные строк двумерного массива по одному столбцу и помещайте другие столбцы в подмассив внутри каждой групп

Последнее сообщение Anonymous « 10 ноя 2024, 02:37
Добавлено в форуме Php

Anonymous » 10 ноя 2024, 02:37 » в форуме Php

У меня есть такой массив:
Array(
=> Array
(
=> 1
=> EU/2011/04/PO/5
=> 65
)

=> Array
(
=> 1
=> EU/2011/04/RS/4
=> 230
)

=> Array
(
=> 1
=> EU/2011/04/RS/3
=> 130
)

=> Array
(
=> 2
=> EU/2011/04/RS/2
=> 100
)
=> Array
(
=> 2
=>...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
10 ноя 2024, 02:37

Вернуться в «Python»

Programmiererforum