Pyspark UDF для удаления чисел из строкового адреса

Pyspark UDF для удаления чисел из строкового адреса ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Pyspark UDF для удаления чисел из строкового адреса

Цитата

Сообщение Anonymous » 02 июл 2024, 18:51

def num_removal (address):
import re
if not address:
return address

else:
clean address=address

List [ 'FLATNO', 'FLAT NO', 'FLAT.NO', 'FLAT. NO', 'FLAT NUMBER', 'FL',

'FLAT NUMBER', 'FLAT.NO', 'FLAT. NO', 'FLAT-NO', 'FLNO', 'FL NO',

'HOUSE. NO', 'HOUSE NO', 'HNO', 'Η NO', 'H.NO', 'H. NO', 'HOUSE NUMBER',

'PLOT NUMBER', 'PLOT.NO', 'PLOT. NO', 'PLOT-NO, PLOT NO', 'PLOT', 'P NO', 'P.NO', PNO,

'DOOR NO', 'DOOR-NO', 'DOOR.NO', 'DOORNO',

'DUPLEX NO', 'DUPLEX-NO', 'DUPLEX.NO', 'DUPLEXNO',

'ROOM NO','ROOM.NO', 'ROOM. NUMBER', 'ROOM NUMBER', 'QTR NO', 'NO.']

for keyword in List:

if keyword in address:

start_index= address.index(keyword)

end_index=start_index len (keyword) - 1

if "," in address [end_index+1:end_index+6]:

comma_index=address.index(",")

clean_address =address[:end_index+1]+re.sub(r'\d', address[end_index+1:comma_index])+address[comma_index:]

clean_address=clean_address.strip()

logic=1.1

else:
clean_address address[:end_index+1]+re.sub(r'\d',' ', address [end_index+1: end_index+6])+address(end_index+6:]

clean_address=clean_address.strip()

logic=1.2

else:
clean_address=address
logic=2.0
return clean_address,logic

num_removal=udf(PII_removal, returnType=StructType([ StructField("new_string", StringType(), True), StructField("new_double", DoubleType(), True)]))

df=df.withColumn('processed_daata',num_removal(df['address'])

значение адреса — «HOUSE NO 377 BLOCK-85 DIZ AREA 1 GOLE MARKET NEW DELHI, NEW DELHI, DELHI, INDIA, 11001»
с выше значение
udf помечает его логикой 2.0
Выше UDF не может найти НОМЕР ДОМА по адресу
любая модификация, необходимая в UDF для поиска лучшего соответствия подстроки< /п>

Подробнее здесь: https://stackoverflow.com/questions/786 ... ng-address

1719935497

Anonymous

[code]def num_removal (address):
import re
if not address:
return address

else:
clean address=address

List [ 'FLATNO', 'FLAT NO', 'FLAT.NO', 'FLAT. NO', 'FLAT NUMBER', 'FL',

'FLAT NUMBER', 'FLAT.NO', 'FLAT. NO', 'FLAT-NO', 'FLNO', 'FL NO',

'HOUSE. NO', 'HOUSE NO', 'HNO', 'Η NO', 'H.NO', 'H. NO', 'HOUSE NUMBER',

'PLOT NUMBER', 'PLOT.NO', 'PLOT. NO', 'PLOT-NO, PLOT NO', 'PLOT', 'P NO', 'P.NO', PNO,

'DOOR NO', 'DOOR-NO', 'DOOR.NO', 'DOORNO',

'DUPLEX NO', 'DUPLEX-NO', 'DUPLEX.NO', 'DUPLEXNO',

'ROOM NO','ROOM.NO', 'ROOM. NUMBER', 'ROOM NUMBER', 'QTR NO', 'NO.']

for keyword in List:

if keyword in address:

start_index= address.index(keyword)

end_index=start_index len (keyword) - 1

if "," in address [end_index+1:end_index+6]:

comma_index=address.index(",")

clean_address =address[:end_index+1]+re.sub(r'\d', address[end_index+1:comma_index])+address[comma_index:]

clean_address=clean_address.strip()

logic=1.1

else:
clean_address address[:end_index+1]+re.sub(r'\d',' ', address [end_index+1: end_index+6])+address(end_index+6:]

clean_address=clean_address.strip()

logic=1.2

else:
clean_address=address
logic=2.0
return clean_address,logic

num_removal=udf(PII_removal, returnType=StructType([ StructField("new_string", StringType(), True), StructField("new_double", DoubleType(), True)]))

df=df.withColumn('processed_daata',num_removal(df['address'])

[/code]
значение адреса — «HOUSE NO 377 BLOCK-85 DIZ AREA 1 GOLE MARKET NEW DELHI, NEW DELHI, DELHI, INDIA, 11001»
с выше значение
udf помечает его логикой 2.0
Выше UDF не может найти НОМЕР ДОМА по адресу
любая модификация, необходимая в UDF для поиска лучшего соответствия подстроки< /п> 

Подробнее здесь: [url]https://stackoverflow.com/questions/78698121/pyspark-udf-to-remove-numbers-from-string-address[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Встроенные функции PySpark для удаления UDF

Последнее сообщение Anonymous « 22 июн 2024, 00:17
Добавлено в форуме Python

Anonymous » 22 июн 2024, 00:17 » в форуме Python

У меня есть столбец, значение которого:
{ ab : 0.7220268151565864, cd : 0.2681795338834256, ef : 1.0, gh : 1.0, ij : 0.9266362339932378, kl : 0.7002315808130385}

Я использую UDF для преобразования этого результата в конечный результат, который...

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
22 июн 2024, 00:17
Нет конструктора/фабричного конструктора строкового аргумента/завода, чтобы десериализовать из строкового значения ('')

Последнее сообщение Anonymous « 28 апр 2025, 13:25
Добавлено в форуме JAVA

Anonymous » 28 апр 2025, 13:25 » в форуме JAVA

Я сталкиваюсь с проблемой анализа JSON при использовании класса ObjectMapper из пакета com.fasterxml.jackson.databind , и ошибка, которую я получаю:

com.fasterxml.jackson.databind.JsonMappingException: Can not construct instance of...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
28 апр 2025, 13:25
Apache Spark (pyspark) — преобразование двоичного файла в str (UUID) без UDF

Последнее сообщение Anonymous « 06 июл 2024, 13:25
Добавлено в форуме Python

Anonymous » 06 июл 2024, 13:25 » в форуме Python

Я не могу найти способ преобразовать двоичный файл в строковое представление без использования UDF
есть ли способ использовать встроенные функции Spark, а не UDF?
from pyspark.sql import DataFrame, SparkSession
import pyspark.sql.functions as F...

0 Ответы

32 Просмотры

Последнее сообщение Anonymous
06 июл 2024, 13:25
PySpark UDF с типом возвращаемого значения на основе входных данных

Последнее сообщение Anonymous « 17 окт 2024, 17:15
Добавлено в форуме Python

Anonymous » 17 окт 2024, 17:15 » в форуме Python

Я пытаюсь найти способ написать пользовательскую функцию PySpark, которая может поддерживать любые типы входных данных и возвращать тип на основе типов входных данных. Например, скажем, я хотел создать простую функцию фиксации, которая просто...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
17 окт 2024, 17:15
PySpark UDF с типом возвращаемого значения на основе входных данных

Последнее сообщение Anonymous « 17 окт 2024, 21:49
Добавлено в форуме Python

Anonymous » 17 окт 2024, 21:49 » в форуме Python

Я пытаюсь найти способ написать пользовательскую функцию PySpark, которая может поддерживать любые типы входных данных и возвращать тип на основе типов входных данных. Например, скажем, я хотел создать простую функцию фиксации, которая просто...

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
17 окт 2024, 21:49

Вернуться в «Python»