Проблема с кодировкой строк в Spark SQL/DataFramePython

Программы на Python
Ответить
Anonymous
 Проблема с кодировкой строк в Spark SQL/DataFrame

Сообщение Anonymous »

Итак, у меня есть CSV-файл, который имеет два столбца: идентификатор (int), имя (строка). Когда я читаю файл в pyspark с помощью следующего кода:

Код: Выделить всё

schema = StructType([
StructField("id", IntegerType(), True),
StructField("name", StringType(), True)])
df = sqlContext.read.csv("file.csv",
header=False, schema = schema)
При выполнении df.first() я получаю следующий результат:

Код: Выделить всё

Row(artistid=1240105, artistname=u'Andr\xe9 Visior')
Это исходная строка из файла:

Код: Выделить всё

1240105,André Visior
Как мне отобразить имя как есть?

Подробнее здесь: https://stackoverflow.com/questions/428 ... -dataframe
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»