Как преобразовать файл JSON в фрейм данных с помощью искры? - Цифровое Кемерово

Как преобразовать файл JSON в фрейм данных с помощью искры? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как преобразовать файл JSON в фрейм данных с помощью искры?

Цитата

Сообщение Anonymous » 26 сен 2024, 00:13

Одна из моих задач сегодня — прочитать простой json-файл, преобразовать его в фрейм данных, выполнить цикл по фрейму данных, выполнить некоторые проверки и т. д.
Это часть моего кода :

Код: Выделить всё

bucket_name      = 'julio-s3'
json_source      = 'source/'
file_2           = "tmp.json"

json_s3_path = f"s3://{bucket_name}/{json_source}/{file_2}"
print(json_s3_path)

df = spark.read.json(json_s3_path)
df.printSchema()
df.show()

И вот первая ошибка:

Код: Выделить всё

 AnalysisException:  Since Spark 2.3, the queries from raw JSON/CSV
files are disallowed when the referenced columns only include the
internal corrupt record column (named _corrupt_record by default). For
example:
spark.read.schema(schema).csv(file).filter($"_corrupt_record".isNotNull).count()
and
spark.read.schema(schema).csv(file).select("_corrupt_record").show().
Instead, you can cache or save the parsed results and then send the
same query. For example, val df =
spark.read.schema(schema).csv(file).cache() and then
df.filter($"_corrupt_record".isNotNull).count().

Итак, я тестирую следующее:

Код: Выделить всё

multiline_df = spark.read.option("multiline","true").json(json_s3_path)
multiline_df.show(truncate=False)
print(type(multiline_df))

и вот результат:

Код: Выделить всё

+----------------------------------------------------------------------------------------------------------------------------------------------------+
|mySchema                                                                                                                                            |
+----------------------------------------------------------------------------------------------------------------------------------------------------+
|{{{NVARCHAR2, NUMBER, NVARCHAR2, NVARCHAR2}, Delta}, {{NVARCHAR2, NVARCHAR2, NVARCHAR2}, Delta}, {{NVARCHAR2, NVARCHAR2, NUMBER, NVARCHAR2}, Delta}}|
+----------------------------------------------------------------------------------------------------------------------------------------------------+

И вот мой json-файл выглядит примерно так:

Код: Выделить всё

{
"myschema": {
"accounts": {
"load_type": "daily",
"fields": {
"id": "nvarchar2",
"isdeleted": "number",
"master": "nvarchar2",
"name": "nvarchar2"
}
},
"customer": {
"load_type": "daily",
"fields": {
"id": "nvarchar2",
"accountid": "nvarchar2",
"usergroupid": "nvarchar2"
}
},
"resources": {
"load_type": "daily",
"fields": {
"id": "nvarchar2",
"isdeleted": "number",
"name": "nvarchar2",
"currency": "nvarchar2"
}
}
}
}

Мне нужно выполнить цикл по объекту FIELDS, чтобы определить, какие из них являются «NVARCHAR2», и напечатать ключ и значение, например, что-то вроде этого:

Код: Выделить всё

   TABLE       |COLUMN           |COLUMN_TYPE   |
+——————-———-+----------———----+---------------+
| accounts  |id               |NVARCHAR2     |
| accounts  |master           |NVARCHAR2     |
| accounts  |name             |NVARCHAR2     |
| customer  |id               |NVARCHAR2     |
| customer  |accountid        |NVARCHAR2     |
| customer  |usergroupid      |NVARCHAR2     |
| resources |id               |NVARCHAR2     |
| resources |name             |NVARCHAR2     |
| resources |currency         |NVARCHAR2     |
+-----------+-----------------+--------------+

Может ли кто-нибудь помочь мне решить эту проблему с чтением json в правильной структуре?
С уважением

Подробнее здесь: https://stackoverflow.com/questions/790 ... with-spark

Реклама

1727298798

Anonymous

Одна из моих задач сегодня — прочитать простой json-файл, преобразовать его в фрейм данных, выполнить цикл по фрейму данных, выполнить некоторые проверки и т. д.
Это часть моего кода :
[code]bucket_name      = 'julio-s3'
json_source      = 'source/'
file_2           = "tmp.json"

json_s3_path = f"s3://{bucket_name}/{json_source}/{file_2}"
print(json_s3_path)

df = spark.read.json(json_s3_path)
df.printSchema()
df.show()
[/code]
И вот первая ошибка:
[code] AnalysisException:  Since Spark 2.3, the queries from raw JSON/CSV
files are disallowed when the referenced columns only include the
internal corrupt record column (named _corrupt_record by default). For
example:
spark.read.schema(schema).csv(file).filter($"_corrupt_record".isNotNull).count()
and
spark.read.schema(schema).csv(file).select("_corrupt_record").show().
Instead, you can cache or save the parsed results and then send the
same query. For example, val df =
spark.read.schema(schema).csv(file).cache() and then
df.filter($"_corrupt_record".isNotNull).count().
[/code]
Итак, я тестирую следующее:
[code]multiline_df = spark.read.option("multiline","true").json(json_s3_path)
multiline_df.show(truncate=False)
print(type(multiline_df))
[/code]
и вот результат:
[code]+----------------------------------------------------------------------------------------------------------------------------------------------------+
|mySchema                                                                                                                                            |
+----------------------------------------------------------------------------------------------------------------------------------------------------+
|{{{NVARCHAR2, NUMBER, NVARCHAR2, NVARCHAR2}, Delta}, {{NVARCHAR2, NVARCHAR2, NVARCHAR2}, Delta}, {{NVARCHAR2, NVARCHAR2, NUMBER, NVARCHAR2}, Delta}}|
+----------------------------------------------------------------------------------------------------------------------------------------------------+


[/code]
И вот мой json-файл выглядит примерно так:
[code]{
"myschema": {
"accounts": {
"load_type": "daily",
"fields": {
"id": "nvarchar2",
"isdeleted": "number",
"master": "nvarchar2",
"name": "nvarchar2"
}
},
"customer": {
"load_type": "daily",
"fields": {
"id": "nvarchar2",
"accountid": "nvarchar2",
"usergroupid": "nvarchar2"
}
},
"resources": {
"load_type": "daily",
"fields": {
"id": "nvarchar2",
"isdeleted": "number",
"name": "nvarchar2",
"currency": "nvarchar2"
}
}
}
}
[/code]
Мне нужно выполнить цикл по объекту FIELDS, чтобы определить, какие из них являются «NVARCHAR2», и напечатать ключ и значение, например, что-то вроде этого:[code]   TABLE       |COLUMN           |COLUMN_TYPE   |
+——————-———-+----------———----+---------------+
| accounts  |id               |NVARCHAR2     |
| accounts  |master           |NVARCHAR2     |
| accounts  |name             |NVARCHAR2     |
| customer  |id               |NVARCHAR2     |
| customer  |accountid        |NVARCHAR2     |
| customer  |usergroupid      |NVARCHAR2     |
| resources |id               |NVARCHAR2     |
| resources |name             |NVARCHAR2     |
| resources |currency         |NVARCHAR2     |
+-----------+-----------------+--------------+
[/code]
Может ли кто-нибудь помочь мне решить эту проблему с чтением json в правильной структуре?
С уважением 

Подробнее здесь: [url]https://stackoverflow.com/questions/79024206/how-convert-json-file-into-dataframe-with-spark[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как преобразовать файл JSON в фрейм данных с помощью искры?

Последнее сообщение Anonymous « 25 сен 2024, 20:55
Добавлено в форуме Python

Anonymous » 25 сен 2024, 20:55 » в форуме Python

Одна из моих задач сегодня — прочитать простой json-файл, преобразовать его в фрейм данных, выполнить цикл по фрейму данных, выполнить некоторые проверки и т. д.
Это часть моего кода :
bucket_name = 'julio-s3'
json_source = 'source/'
file_2 =...

0 Ответы

17 Просмотры

Последнее сообщение Anonymous
25 сен 2024, 20:55
Как преобразовать файл JSON в фрейм данных с помощью искры?

Последнее сообщение Anonymous « 26 сен 2024, 00:40
Добавлено в форуме Python

Anonymous » 26 сен 2024, 00:40 » в форуме Python

Одна из моих задач сегодня — прочитать простой json-файл, преобразовать его в фрейм данных, выполнить цикл по фрейму данных, выполнить некоторые проверки и т. д.
Это часть моего кода :
bucket_name = 'julio-s3'
json_source = 'source/'
file_2 =...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
26 сен 2024, 00:40
Как преобразовать файл JSON в фрейм данных с помощью искры?

Последнее сообщение Anonymous « 26 сен 2024, 17:32
Добавлено в форуме Python

Anonymous » 26 сен 2024, 17:32 » в форуме Python

Одна из моих задач сегодня — прочитать простой json-файл, преобразовать его в фрейм данных, выполнить цикл по фрейму данных, выполнить некоторые проверки и т. д.
Это часть моего кода :
bucket_name = 'julio-s3'
json_source = 'source/'
file_2 =...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
26 сен 2024, 17:32
Ошибка Windows java.io.EOFException при попытке показать фрейм данных искры

Последнее сообщение Anonymous « 04 янв 2025, 11:59
Добавлено в форуме JAVA

Anonymous » 04 янв 2025, 11:59 » в форуме JAVA

Ниже приведен код, который я запустил
from pyspark.sql import SparkSession

spark = SparkSession.builder.master( local ).appName( PySpark Installation Test ).getOrCreate()
spark.sparkContext.setLogLevel( DEBUG )
df = spark.createDataFrame( , )...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
04 янв 2025, 11:59
Ошибка Windows java.io.EOFException при попытке показать фрейм данных искры

Последнее сообщение Anonymous « 04 янв 2025, 11:59
Добавлено в форуме Python

Anonymous » 04 янв 2025, 11:59 » в форуме Python

Ниже приведен код, который я запустил
from pyspark.sql import SparkSession

spark = SparkSession.builder.master( local ).appName( PySpark Installation Test ).getOrCreate()
spark.sparkContext.setLogLevel( DEBUG )
df = spark.createDataFrame( , )...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
04 янв 2025, 11:59

Вернуться в «Python»

Programmiererforum