Необходимо получить список топ-3 наиболее частых типов преступлений для каждого района (в виде строки через запятую) и медианное (не среднее!) значение количества преступлений по месяцам. столбец для этого округа.
Результатом должен стать новый фрейм данных с тремя столбцами: District, top_3_crime_types, median_crimes_monthly:
Есть фрейм данных со столбцами район, тип преступления, дата, месяц [code]df = spark.createDataFrame( [('D1', 'ROBBERY', '2024-02-01', 2), ('D1', 'ROBBERY', '2024-02-01', 2), ('D1', 'DRUGS', '2024-03-05', 3), ('D1', 'FRAUD', '2024-03-05', 3), ('D1', 'AUTO THEFT', '2024-01-09',1), ('D1', 'AUTO THEFT', '2024-01-03', 1), ('D2', 'MURDER', '2024-05-04', 5), ('D2', 'MURDER', '2024-06-01', 6), ('D2', 'RAPE', '2024-07-02', 7)], ['district', 'crime_type', 'date', 'month']) [/code] Необходимо получить список топ-3 наиболее частых типов преступлений для каждого района (в виде строки через запятую) и медианное (не среднее!) значение количества преступлений по месяцам. столбец для этого округа. Результатом должен стать новый фрейм данных с тремя столбцами: District, top_3_crime_types, median_crimes_monthly:
Я попытался создать функцию, которая будет принимать номер строки двумерного массива как целое число и возвращать строку, содержащую список значений в этой строке, разделенных запятыми.
this.desks — это двумерный массив, содержащий строковые...