Присоединяйтесь к Lambda в Pyspark - Цифровое Кемерово

Присоединяйтесь к Lambda в Pyspark ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Цитата

Сообщение Anonymous » 16 июн 2025, 15:47

Предположим, что у меня есть следующий диапазон данных статей.text_data = [
(1, "I hav a dreem that one day"),
(2, "Ths is a test of the emergncy broadcast systm"),
(3, "Speling errors are commn in som text"),
]
text_df = spark.createDataFrame(text_data, "id: int, article: string")
< /code>
и Dataframe неверных в корреста-карт.dict_data = [
("hav", "have"),
("dreem", "dream"),
("Ths", "This"),
("emergncy", "emergency"),
("systm", "system"),
("Speling", "Spelling"),
("commn", "common"),
("som", "some"),
]
dict_df = spark.createDataFrame(dict_data, "misspelled: string, correct: string")
< /code>
Я пытался найти количество неверных слов в статьях, учитывая, что все неправильные слова были представлены в картировании. Я сделал это двумя способами, один использует левое соединение и группу, в то время как другие используют функции более высокого порядка. Это код. < /P>

Использование соединения и группы, чтобы найти количество неправильных и правильных слов < /li>
< /ol>
(
text_df
.select(
"id"
, F.explode(F.split(F.col("article"), " ")).alias("word")
)
.join(
dict_df
, F.col('word') == dict_df['misspelled']
, 'left'
)
.select(
"id"
, "word"
, dict_df['correct']
)
.groupBy("id")
.agg(
F.count(F.col('word')).alias('Total')
, F.count(F.when(F.col('correct').isNull(), 'isCorrect')).alias('Correct')
, F.count(F.col('correct')).alias('Incorrect')
)
.show()
)

'''
Output
+---+-----+-------+---------+
| id|Total|Correct|Incorrect|
+---+-----+-------+---------+
| 1| 7| 5| 2|
| 2| 9| 6| 3|
| 3| 7| 4| 3|
+---+-----+-------+---------+
'''
< /code>

Использование функций более высокого порядка. Здесь size правого DF- 1 .

dict_data_2 = [[{
"hav": "have",
"dreem": "dream",
"Ths": "This",
"emergncy": "emergency",
"systm": "system",
"Speling": "Spelling",
"commn": "common",
"som": "some"
}]]

dict_df_2 = spark.createDataFrame(dict_data_2, "incorrect_to_correct_mapping: map")
text_df = spark.createDataFrame(text_data, "id: int, article: string")
(
text_df
.join(
dict_df_2
, how = 'cross'
)
.withColumns({
'words': F.split(F.col('article'), ' ')
, 'map_keys': F.map_keys('incorrect_to_correct_mapping')
, 'incorrect':
F.filter(
F.col('words')
, lambda word: F.array_contains(F.col('map_keys'), word)
)
, 'correct':
F.filter(
F.col('words')
, lambda word: ~F.array_contains(F.col('map_keys'), word)
)
})
.select(
"id"
, F.array_size("words").alias("Total")
, F.array_size("incorrect").alias("Incorrect")
, F.array_size("correct").alias("Correct")
)
.show()
)

'''
Output
+---+-----+---------+-------+
| id|Total|Incorrect|Correct|
+---+-----+---------+-------+
| 1| 7| 2| 5|
| 2| 9| 3| 6|
| 3| 7| 3| 4|
+---+-----+---------+-------+
'''
< /code>
У меня есть два вопроса -< /p>

Какой из них будет быстрее, чем другой < /li>
Какой из них предпочтительнее, когда увеличивается размер любой статьи или картирования? (Я предполагаю, что можно использовать первый, потому что, если размер картирования увеличится, будет трудно удерживать всю карту в каждой строке)

Подробнее здесь: https://stackoverflow.com/questions/796 ... in-pyspark

1750078031

Anonymous

 Предположим, что у меня есть следующий диапазон данных статей.text_data = [
(1, "I hav a dreem that one day"),
(2, "Ths is a test of the emergncy broadcast systm"),
(3, "Speling errors are commn in som text"),
]
text_df = spark.createDataFrame(text_data, "id: int, article: string")
< /code>
и Dataframe неверных в корреста-карт.dict_data = [
("hav", "have"),
("dreem", "dream"),
("Ths", "This"),
("emergncy", "emergency"),
("systm", "system"),
("Speling", "Spelling"),
("commn", "common"),
("som", "some"),
]
dict_df = spark.createDataFrame(dict_data, "misspelled: string, correct: string")
< /code>
Я пытался найти количество неверных слов в статьях, учитывая, что все неправильные слова были представлены в картировании. Я сделал это двумя способами, один использует левое соединение и группу, в то время как другие используют функции более высокого порядка. Это код. < /P>
[list]
[*] Использование соединения и группы, чтобы найти количество неправильных и правильных слов < /li>
< /ol>
(
text_df
.select(
"id"
, F.explode(F.split(F.col("article"), " ")).alias("word")
)
.join(
dict_df
, F.col('word') == dict_df['misspelled']
, 'left'
)
.select(
"id"
, "word"
, dict_df['correct']
)
.groupBy("id")
.agg(
F.count(F.col('word')).alias('Total')
, F.count(F.when(F.col('correct').isNull(), 'isCorrect')).alias('Correct')
, F.count(F.col('correct')).alias('Incorrect')
)
.show()
)

'''
Output
+---+-----+-------+---------+
| id|Total|Correct|Incorrect|
+---+-----+-------+---------+
|  1|    7|      5|        2|
|  2|    9|      6|        3|
|  3|    7|      4|        3|
+---+-----+-------+---------+
'''
< /code>

 Использование функций более высокого порядка. Здесь [b] size [/b] правого DF-[b] 1 [/b].
[/list]
dict_data_2 = [[{
"hav": "have",
"dreem": "dream",
"Ths": "This",
"emergncy": "emergency",
"systm": "system",
"Speling": "Spelling",
"commn": "common",
"som": "some"
}]]

dict_df_2 = spark.createDataFrame(dict_data_2, "incorrect_to_correct_mapping: map")
text_df = spark.createDataFrame(text_data, "id: int, article: string")
(
text_df
.join(
dict_df_2
, how = 'cross'
)
.withColumns({
'words': F.split(F.col('article'), ' ')
, 'map_keys': F.map_keys('incorrect_to_correct_mapping')
, 'incorrect':
F.filter(
F.col('words')
, lambda word: F.array_contains(F.col('map_keys'), word)
)
, 'correct':
F.filter(
F.col('words')
, lambda word: ~F.array_contains(F.col('map_keys'), word)
)
})
.select(
"id"
, F.array_size("words").alias("Total")
, F.array_size("incorrect").alias("Incorrect")
, F.array_size("correct").alias("Correct")
)
.show()
)

'''
Output
+---+-----+---------+-------+
| id|Total|Incorrect|Correct|
+---+-----+---------+-------+
|  1|    7|        2|      5|
|  2|    9|        3|      6|
|  3|    7|        3|      4|
+---+-----+---------+-------+
'''
< /code>
У меня есть два вопроса -< /p>
[list]
[*] Какой из них будет быстрее, чем другой < /li>
 Какой из них предпочтительнее, когда увеличивается размер любой статьи или картирования? (Я предполагаю, что можно использовать первый, потому что, если размер картирования увеличится, будет трудно удерживать всю карту в каждой строке)
[/list] 

Подробнее здесь: [url]https://stackoverflow.com/questions/79667213/join-vs-lambda-in-pyspark[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Pyspark Присоединяйтесь при условии A, если нет, то Присоединяйтесь при условии B и т. д.

Последнее сообщение Гость « 14 мар 2024, 08:22
Добавлено в форуме Python

Гость » 14 мар 2024, 08:22 » в форуме Python

Таблица 1 содержит 10 строк, которые необходимо заполнить недостающими данными.
Таблица 2 содержит 100 строк потенциальных совпадений.
В обеих таблицах есть столбцы x,y,z.
Я хочу соедините одну строку из таблицы 2 с каждой строкой в таблице 1....

0 Ответы

74 Просмотры

Последнее сообщение Гость
14 мар 2024, 08:22
Присоединяйтесь к Lambda в Pyspark

Последнее сообщение Anonymous « 16 июн 2025, 10:53
Добавлено в форуме Python

Anonymous » 16 июн 2025, 10:53 » в форуме Python

Предположим, что у меня есть следующий диапазон данных статей.text_data =
text_df = spark.createDataFrame(text_data, id: int, article: string )

и Dataframe неверных в корреста-карт.dict_data =
dict_df = spark.createDataFrame(dict_data,...

0 Ответы

2 Просмотры

Последнее сообщение Anonymous
16 июн 2025, 10:53
Присоединяйтесь к Lambda в Pyspark

Последнее сообщение Anonymous « 16 июн 2025, 23:40
Добавлено в форуме Python

Anonymous » 16 июн 2025, 23:40 » в форуме Python

Предположим, что у меня есть следующий диапазон данных статей.text_data =
text_df = spark.createDataFrame(text_data, id: int, article: string )

и Dataframe неверных в корреста-карт.dict_data =
dict_df = spark.createDataFrame(dict_data,...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
16 июн 2025, 23:40
Присоединяйтесь к Lambda в Pyspark

Последнее сообщение Anonymous « 17 июн 2025, 02:08
Добавлено в форуме Python

Anonymous » 17 июн 2025, 02:08 » в форуме Python

Предположим, что у меня есть следующий диапазон данных статей.text_data =
text_df = spark.createDataFrame(text_data, id: int, article: string )

и Dataframe неверных в корреста-карт.dict_data =
dict_df = spark.createDataFrame(dict_data,...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
17 июн 2025, 02:08
AWS Lambda (.NET) + SQS: ошибка преобразования полезных данных JSON события Lambda в строку

Последнее сообщение Anonymous « 10 апр 2024, 10:26
Добавлено в форуме C#

Anonymous » 10 апр 2024, 10:26 » в форуме C#

Я использую AWS Lambda (среда .NET Core 2.1) + SQS в качестве триггера

Проблема в том, что моя лямбда не может проанализировать мое сообщение SQS.

Ошибка преобразования полезных данных JSON события Lambda в строку. Строки JSON
должны быть...

0 Ответы

87 Просмотры

Последнее сообщение Anonymous
10 апр 2024, 10:26

Вернуться в «Python»