Проблема с кодировкой строк в Spark SQL/DataFrame

Проблема с кодировкой строк в Spark SQL/DataFrame ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Проблема с кодировкой строк в Spark SQL/DataFrame

Цитата

Сообщение Anonymous » 18 ноя 2024, 03:02

Итак, у меня есть CSV-файл, который имеет два столбца: идентификатор (int), имя (строка). Когда я читаю файл в pyspark с помощью следующего кода:

Код: Выделить всё

schema = StructType([
StructField("id", IntegerType(), True),
StructField("name", StringType(), True)])
df = sqlContext.read.csv("file.csv",
header=False, schema = schema)

При выполнении df.first() я получаю следующий результат:

Код: Выделить всё

Row(artistid=1240105, artistname=u'Andr\xe9 Visior')

Это исходная строка из файла:

Код: Выделить всё

1240105,André Visior

Как мне отобразить имя как есть?

Подробнее здесь: https://stackoverflow.com/questions/428 ... -dataframe

1731888155

Anonymous

Итак, у меня есть CSV-файл, который имеет два столбца: идентификатор (int), имя (строка). Когда я читаю файл в pyspark с помощью следующего кода:

[code]schema = StructType([
StructField("id", IntegerType(), True),
StructField("name", StringType(), True)])
df = sqlContext.read.csv("file.csv",
header=False, schema = schema)
[/code]

При выполнении df.first() я получаю следующий результат:

[code]Row(artistid=1240105, artistname=u'Andr\xe9 Visior')
[/code]

Это исходная строка из файла:

[code]1240105,André Visior
[/code]

Как мне отобразить имя как есть? 

Подробнее здесь: [url]https://stackoverflow.com/questions/42819708/string-encoding-issue-in-spark-sql-dataframe[/url]