Почему мой код IDF Python работает намного медленнее, чем pyspark

Почему мой код IDF Python работает намного медленнее, чем pyspark ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Почему мой код IDF Python работает намного медленнее, чем pyspark

Цитата

Сообщение Anonymous » 29 июл 2024, 21:25

Я создаю значения IDF, и мой код Python работает намного медленнее по сравнению с реализацией pyspark (2+ часа для меня по сравнению с секундами), и мне интересно, почему это так. Я знаю, что pyspark основан на Java, но разница, похоже, больше, чем между Python и Java. Я использую такую простую функцию:

Код: Выделить всё

def calc_idf(data, terms):
# data is a list of lists filled with tokenized data
# terms is a list of the tokens to calculate IDF values
num_docs = len(data)

idf_values = []
for term in tqdm(terms, desc="IDF", position=0, leave=True):
idf_val = 0
for doc in data:
if term in doc:
idf_val += 1
idf_values.append(math.log2((num_docs+1)/(idf_val+1))) # Using base 2 as original paper did

return idf_values

IDF, который я использую, взят из этой документации (https://spark.apache.org/docs/3.5.1/api ... ib.feature .IDF.html). Я не думаю, что моя реализация актуальна, но ее можно найти по этому вопросу (сохранение и загрузка RDD (pyspark) в файл Pickle меняет порядок SparseVectors), просто знайте, что это значительно медленнее.
Может ли кто-нибудь посоветовать, как я могу улучшить скорость расчета IDF?
Изменить: каждый документ в данных действительно представляет собой список, как упоминал Джером в комментариях. Преобразовал документ в набор, и это примерно в 68 раз быстрее! Спасибо!
Редактирование 2. Я только что понял, что преобразование списка в набор не работает, поскольку набор не может содержать повторяющиеся значения. Таким образом, вам необходимо преобразовать в Multiset из пакета multiset.

Подробнее здесь: https://stackoverflow.com/questions/787 ... an-pyspark

1722277538

Anonymous

Я создаю значения IDF, и мой код Python работает намного медленнее по сравнению с реализацией pyspark (2+ часа для меня по сравнению с секундами), и мне интересно, почему это так. Я знаю, что pyspark основан на Java, но разница, похоже, больше, чем между Python и Java. Я использую такую простую функцию:
[code]def calc_idf(data, terms):
# data is a list of lists filled with tokenized data
# terms is a list of the tokens to calculate IDF values
num_docs = len(data)

idf_values = []
for term in tqdm(terms, desc="IDF", position=0, leave=True):
idf_val = 0
for doc in data:
if term in doc:
idf_val += 1
idf_values.append(math.log2((num_docs+1)/(idf_val+1))) # Using base 2 as original paper did

return idf_values
[/code]
IDF, который я использую, взят из этой документации (https://spark.apache.org/docs/3.5.1/api/python/reference/api/pyspark.mllib.feature .IDF.html). Я не думаю, что моя реализация актуальна, но ее можно найти по этому вопросу (сохранение и загрузка RDD (pyspark) в файл Pickle меняет порядок SparseVectors), просто знайте, что это значительно медленнее.
Может ли кто-нибудь посоветовать, как я могу улучшить скорость расчета IDF?
Изменить: каждый документ в данных действительно представляет собой список, как упоминал Джером в комментариях. Преобразовал документ в набор, и это примерно в 68 раз быстрее! Спасибо!
Редактирование 2. Я только что понял, что преобразование списка в набор не работает, поскольку набор не может содержать повторяющиеся значения. Таким образом, вам необходимо преобразовать в Multiset из пакета multiset. 

Подробнее здесь: [url]https://stackoverflow.com/questions/78727448/why-is-my-idf-python-code-running-much-slower-than-pyspark[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Функция C++ возвращает результат очень медленно, намного медленнее, чем функционально эквивалентный код Python.

Последнее сообщение Anonymous « 30 июл 2024, 22:43
Добавлено в форуме Python

Anonymous » 30 июл 2024, 22:43 » в форуме Python

У меня есть функция, которая используется в скрипте, который я пишу, для удаления избыточных блокирующих ключевых слов из списка. По сути, с вводом (в любом порядке):
{ apple , bapple , banana , cherry , bananaman , sweetherrypie , sweet , b }
Он...

0 Ответы

20 Просмотры

Последнее сообщение Anonymous
30 июл 2024, 22:43
Функция C++ возвращает результат очень медленно, намного медленнее, чем функционально эквивалентный код Python.

Последнее сообщение Anonymous « 30 июл 2024, 23:47
Добавлено в форуме Python

Anonymous » 30 июл 2024, 23:47 » в форуме Python

У меня есть функция, которая используется в скрипте, который я пишу, для удаления избыточных блокирующих ключевых слов из списка. По сути, с вводом (в любом порядке):
{ apple , bapple , banana , cherry , bananaman , sweetherrypie , sweet , b }
Он...

0 Ответы

29 Просмотры

Последнее сообщение Anonymous
30 июл 2024, 23:47
Функция C++ возвращает результат очень медленно, намного медленнее, чем функционально эквивалентный код Python.

Последнее сообщение Anonymous « 01 дек 2024, 22:01
Добавлено в форуме Python

Anonymous » 01 дек 2024, 22:01 » в форуме Python

У меня есть функция, которая используется в скрипте, который я пишу, для удаления избыточных блокирующих ключевых слов из списка. По сути, с вводом (в любом порядке):
{ apple , bapple , banana , cherry , bananaman , sweetherrypie , sweet , b }

Он...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
01 дек 2024, 22:01
Функция C++ возвращает результат очень медленно, намного медленнее, чем функционально эквивалентный код Python.

Последнее сообщение Anonymous « 01 дек 2024, 22:01
Добавлено в форуме C++

Anonymous » 01 дек 2024, 22:01 » в форуме C++

У меня есть функция, которая используется в скрипте, который я пишу, для удаления избыточных блокирующих ключевых слов из списка. По сути, с вводом (в любом порядке):
{ apple , bapple , banana , cherry , bananaman , sweetherrypie , sweet , b }

Он...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
01 дек 2024, 22:01
Почему этот код C ++ намного медленнее, чем ржавчина?

Последнее сообщение Anonymous « 23 фев 2025, 00:01
Добавлено в форуме C++

Anonymous » 23 фев 2025, 00:01 » в форуме C++

Я создал две идентичные программы (одна в ржавчине и одна в C ++). Они однопоточные, и нет распределений кучи. Версия C ++ (составленная с выпуском MSVC /O2 или GCC) работает через 17 сек. Оптимизация профиля не улучшила производительность. Core...

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
23 фев 2025, 00:01

Вернуться в «Python»