Эффективный частичный поиск строк в больших кадрах данных pyspark.

Эффективный частичный поиск строк в больших кадрах данных pyspark. ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Эффективный частичный поиск строк в больших кадрах данных pyspark.

Цитата

Сообщение Anonymous » 21 апр 2024, 13:04

Сейчас я работаю над проектом PySpark, в котором мне нужно выполнить соединение двух больших фреймов данных. Один фрейм данных содержит около 10 миллионов записей с короткими строками в качестве ключевых слов (2–5 слов), а другой — 30 миллионов записей с вариациями (строки из 5–10 слов), торговцами и счетчиками.
Цель состоит в том, чтобы объединить фреймы данных при условии, что ключевые слова в первом фрейме содержатся в вариантах второго фрейма данных. Однако текущий код работает более 3 часов в большом кластере EMR и до сих пор не завершен.
Конфигурация EMR
5 узлов задач: m5.16xlarge (32 ядра/256 ГБ на узел)
Главный узел: m5.8xlarge (4 ядра/64 ГБ)
spark-submit команда:
time spark-submit --master yarn --deploy-mode client --conf spark.yarn.maxAppAttempts=1 --packages org.apache.hadoop:hadoop-aws:2.7.0 --num-executors 30 --conf spark.driver.memoryOverhead=6g --conf spark.executor.memoryOverhead=6g --executor-cores 5 --executor-memory 42g --driver-memory g 42 --conf spark.yarn.executor.memoryOverhead=409 join_code.py
Вот упрощенная версия кода, который я использую:
# Code for join
from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("DataFrameJoin").getOrCreate()

# Loading dataframes
keywords_df = spark.read.parquet("keywords.parquet")
variations_df= spark.read.parquet("variations.parquet")

# Cross-joining based on keyword containment
result = keywords_df.join(variations_df,F.col(variations).contains(F.col(keyword)),how='left')
result.show()

Подробнее здесь: https://stackoverflow.com/questions/769 ... dataframes

1713693887

Anonymous

Сейчас я работаю над проектом PySpark, в котором мне нужно выполнить соединение двух больших фреймов данных. Один фрейм данных содержит около 10 миллионов записей с короткими строками в качестве ключевых слов (2–5 слов), а другой — 30 миллионов записей с вариациями (строки из 5–10 слов), торговцами и счетчиками.
Цель состоит в том, чтобы объединить фреймы данных при условии, что ключевые слова в первом фрейме содержатся в вариантах второго фрейма данных. Однако текущий код работает более 3 часов в большом кластере EMR и до сих пор не завершен.
[b]Конфигурация EMR[/b]
5 узлов задач: m5.16xlarge (32 ядра/256 ГБ на узел)
Главный узел: m5.8xlarge (4 ядра/64 ГБ)
[b]spark-submit команда:[/b]
time spark-submit --master yarn --deploy-mode client --conf spark.yarn.maxAppAttempts=1   --packages org.apache.hadoop:hadoop-aws:2.7.0  --num-executors 30 --conf spark.driver.memoryOverhead=6g --conf spark.executor.memoryOverhead=6g --executor-cores 5 --executor-memory 42g --driver-memory g 42 --conf spark.yarn.executor.memoryOverhead=409 join_code.py
Вот упрощенная версия кода, который я использую:
# Code for join
from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("DataFrameJoin").getOrCreate()

# Loading dataframes
keywords_df = spark.read.parquet("keywords.parquet")
variations_df= spark.read.parquet("variations.parquet")

# Cross-joining based on keyword containment
result = keywords_df.join(variations_df,F.col(variations).contains(F.col(keyword)),how='left')
result.show()
 

Подробнее здесь: [url]https://stackoverflow.com/questions/76971449/efficient-partial-string-search-on-large-pyspark-dataframes[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как запустить пользовательскую регрессию в кадрах данных/больших кадрах bigquery (с использованием удаленных функций)

Последнее сообщение Anonymous « 17 сен 2024, 03:41
Добавлено в форуме Python

Anonymous » 17 сен 2024, 03:41 » в форуме Python

Я не уверен, как запустить пользовательскую регрессию (с использованием пакета pyfixest) с несколькими столбцами, используя кадры данных bigquery, и добавить остаток регрессии в качестве нового столбца. Я не могу понять, как передать полный фрейм...

0 Ответы

29 Просмотры

Последнее сообщение Anonymous
17 сен 2024, 03:41
Поиск оставшихся строк в кадрах данных pandas

Последнее сообщение Anonymous « 21 сен 2024, 21:51
Добавлено в форуме Python

Anonymous » 21 сен 2024, 21:51 » в форуме Python

Если я обнаруживаю Y в определенных столбцах, используя это:
thing1 = df[df == 'Y']

thing2 = df[df == 'Y']

thing3 = df[df == 'Y']

thing4 = df[df == 'Y']

Как получить все строки без буквы Y в одном из этих столбцов? Я пробовал что-то вроде:...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
21 сен 2024, 21:51
Поиск оставшихся строк в кадрах данных pandas

Последнее сообщение Anonymous « 21 сен 2024, 23:15
Добавлено в форуме Python

Anonymous » 21 сен 2024, 23:15 » в форуме Python

Если я обнаруживаю Y в определенных столбцах, используя это:
thing1 = df[df == 'Y']

thing2 = df[df == 'Y']

thing3 = df[df == 'Y']

thing4 = df[df == 'Y']

Как получить все строки без буквы Y в одном из этих столбцов? Я пробовал что-то вроде:...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
21 сен 2024, 23:15
Поиск оставшихся строк в кадрах данных pandas

Последнее сообщение Anonymous « 22 сен 2024, 00:53
Добавлено в форуме Python

Anonymous » 22 сен 2024, 00:53 » в форуме Python

Если я обнаруживаю Y в определенных столбцах, используя это:
thing1 = df[df == 'Y']

thing2 = df[df == 'Y']

thing3 = df[df == 'Y']

thing4 = df[df == 'Y']

Как получить все строки без буквы Y в одном из этих столбцов? Я пробовал что-то вроде:...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
22 сен 2024, 00:53
Поиск оставшихся строк в кадрах данных pandas

Последнее сообщение Anonymous « 22 сен 2024, 10:16
Добавлено в форуме Python

Anonymous » 22 сен 2024, 10:16 » в форуме Python

Если я обнаруживаю Y в определенных столбцах, используя это:
thing1 = df[df == 'Y']

thing2 = df[df == 'Y']

thing3 = df[df == 'Y']

thing4 = df[df == 'Y']

Как получить все строки без буквы Y в одном из этих столбцов? Я пробовал что-то вроде:...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
22 сен 2024, 10:16

Вернуться в «Python»