Почему линейная итерация (с использованием Any()) для набора Python значительно медленнее, чем для списка? - Цифровое Кемерово

Почему линейная итерация (с использованием Any()) для набора Python значительно медленнее, чем для списка? ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Почему линейная итерация (с использованием Any()) для набора Python значительно медленнее, чем для списка?

Цитата

Сообщение Anonymous » 25 мар 2026, 10:42

Справочная информация:
Я сравниваю производительность метода Any() при использовании в списке и в наборе для поиска известного элемента. Мое первоначальное предположение заключалось в том, что, поскольку Any() имеет короткое замыкание, производительность будет сопоставимой, но мои тесты показывают, что набор постоянно работает намного медленнее.
Код:

Код: Выделить всё

import timeit

large_list = ["target"] + [str(i) for i in range(10_000_000)]
large_set = set(large_list)

# Benchmarking
list_time = timeit.timeit(lambda: any(x == "target" for x in large_list), number=10)
set_time = timeit.timeit(lambda: any(x == "target" for x in large_set), number=10)

print(f"List: {list_time}")
print(f"Set: {set_time}")

Что я понимаю на данный момент:
Я знаю, что элемент в big_set равен O(1) и является «правильным» способом проверки членства.
Я понимаю, что Any() вызывает линейное сканирование, что делает его O(n) для обеих структур.
Вопрос:
Что конкретно влияет на производительность разрыв при итерации? Это связано с расположением внутренней памяти хеш-таблицы (погоня за указателем) по сравнению с непрерывной памятью списка, или в реализации итератора набора есть определенные накладные расходы?

1774424535

Anonymous

[b]Справочная информация:[/b]
Я сравниваю производительность метода Any() при использовании в списке и в наборе для поиска известного элемента. Мое первоначальное предположение заключалось в том, что, поскольку Any() имеет короткое замыкание, производительность будет сопоставимой, но мои тесты показывают, что набор постоянно работает намного медленнее.
[b]Код:[/b]
[code]import timeit

large_list = ["target"] + [str(i) for i in range(10_000_000)]
large_set = set(large_list)

# Benchmarking
list_time = timeit.timeit(lambda: any(x == "target" for x in large_list), number=10)
set_time = timeit.timeit(lambda: any(x == "target" for x in large_set), number=10)

print(f"List: {list_time}")
print(f"Set: {set_time}")
[/code]
[b]Что я понимаю на данный момент:[/b]
Я знаю, что элемент в big_set равен O(1) и является «правильным» способом проверки членства.
Я понимаю, что Any() вызывает линейное сканирование, что делает его O(n) для обеих структур.
[b]Вопрос:[/b]
Что конкретно влияет на производительность разрыв при итерации? Это связано с расположением внутренней памяти хеш-таблицы (погоня за указателем) по сравнению с непрерывной памятью списка, или в реализации итератора набора есть определенные накладные расходы?

Ответить

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Вернуться в «Python»