API-интерфейс Apache Flink Python Datastream переходит в паркет

API-интерфейс Apache Flink Python Datastream переходит в паркет ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

API-интерфейс Apache Flink Python Datastream переходит в паркет

Цитата

Сообщение Anonymous » 23 июл 2024, 15:00

У меня есть тема Kafka, содержащая сообщения в формате JSON. Используя Flink Python API, я пытаюсь обработать эти сообщения и сохранить их в файлах паркета в GCS.
Вот очищенный фрагмент кода:

Код: Выделить всё

class Extract(MapFunction):
def map(self, value):
record = json.loads(value)
dt_object = datetime.strptime(record['ts'], "%Y-%m-%dT%H:%M:%SZ")
return Row(dt_object, record['event_id'])



events_schema = DataTypes.ROW([
DataTypes.FIELD("ts", DataTypes.TIMESTAMP()),
DataTypes.FIELD("event_id", DataTypes.STRING())
])


# Main job part
kafka_source = KafkaSource.builder() \

.build()

ds: DataStream = env.from_source(kafka_source, WatermarkStrategy.no_watermarks(), "Kafka Source")

mapped_data = ds.map(Extract(), Types.ROW([Types.SQL_TIMESTAMP(), Types.STRING()]))

sink = (FileSink
.for_bulk_format("gs://",
ParquetBulkWriters.for_row_type(row_type=events_schema))
.with_output_file_config(
OutputFileConfig.builder()
.with_part_prefix("bids")
.with_part_suffix(".parquet")
.build())
.build())

mapped_data.sink_to(sink)

Проблема в том, что при попытке запустить это задание я получаю сообщение об ошибке:

Код: Выделить всё

Java.lang.ClassCastException: class java.sql.Timestamp cannot be cast to class java.time.LocalDateTime (java.sql.Timestamp is in module java.sql of loader 'platform'; java.time.LocalDateTime is in module java.base of loader 'bootstrap')

Итак, проблема в том, что Types.SQL_TIMESTAMP() и DataTypes.TIMESTAMP() несовместимы при переводе в соответствующие классы Java. Но я не вижу другого варианта «типизировать» мое преобразование отображения.
Если вместо

Код: Выделить всё

mapped_data = ds.map(Extract(), Types.ROW([Types.SQL_TIMESTAMP(), Types.STRING()]))

Я использую этот вариант

Код: Выделить всё

mapped_data = ds.map(Extract())

тогда я получаю еще одну ошибку:

Код: Выделить всё

java.lang.ClassCastException: class [B cannot be cast to class org.apache.flink.types.Row ([B is in module java.base of loader 'bootstrap'; org.apache.flink.types.Row is in unnamed module of loader 'app')

Мой вопрос: могу ли я сохранить данные, содержащие временные метки, в формате паркета, используя Flink Python API?

Подробнее здесь: https://stackoverflow.com/questions/787 ... to-parquet

1721736059

Anonymous

У меня есть тема Kafka, содержащая сообщения в формате JSON. Используя Flink Python API, я пытаюсь обработать эти сообщения и сохранить их в файлах паркета в GCS.
Вот очищенный фрагмент кода:
[code]class Extract(MapFunction):
def map(self, value):
record = json.loads(value)
dt_object = datetime.strptime(record['ts'], "%Y-%m-%dT%H:%M:%SZ")
return Row(dt_object, record['event_id'])



events_schema = DataTypes.ROW([
DataTypes.FIELD("ts", DataTypes.TIMESTAMP()),
DataTypes.FIELD("event_id", DataTypes.STRING())
])


# Main job part
kafka_source = KafkaSource.builder() \

.build()

ds: DataStream = env.from_source(kafka_source, WatermarkStrategy.no_watermarks(), "Kafka Source")

mapped_data = ds.map(Extract(), Types.ROW([Types.SQL_TIMESTAMP(), Types.STRING()]))

sink = (FileSink
.for_bulk_format("gs://",
ParquetBulkWriters.for_row_type(row_type=events_schema))
.with_output_file_config(
OutputFileConfig.builder()
.with_part_prefix("bids")
.with_part_suffix(".parquet")
.build())
.build())

mapped_data.sink_to(sink)
[/code]
Проблема в том, что при попытке запустить это задание я получаю сообщение об ошибке:
[code]Java.lang.ClassCastException: class java.sql.Timestamp cannot be cast to class java.time.LocalDateTime (java.sql.Timestamp is in module java.sql of loader 'platform'; java.time.LocalDateTime is in module java.base of loader 'bootstrap')[/code]
Итак, проблема в том, что Types.SQL_TIMESTAMP() и DataTypes.TIMESTAMP() несовместимы при переводе в соответствующие классы Java. Но я не вижу другого варианта «типизировать» мое преобразование отображения.
Если вместо
[code]mapped_data = ds.map(Extract(), Types.ROW([Types.SQL_TIMESTAMP(), Types.STRING()]))[/code]
Я использую этот вариант
[code]mapped_data = ds.map(Extract())[/code]
тогда я получаю еще одну ошибку:
[code]java.lang.ClassCastException: class [B cannot be cast to class org.apache.flink.types.Row ([B is in module java.base of loader 'bootstrap'; org.apache.flink.types.Row is in unnamed module of loader 'app')[/code]
Мой вопрос: могу ли я сохранить данные, содержащие временные метки, в формате паркета, используя Flink Python API? 

Подробнее здесь: [url]https://stackoverflow.com/questions/78783310/apache-flink-python-datastream-api-sink-to-parquet[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Лучший способ преобразовать Flink DataStream в DataStream для использования Apache Iceberg

Последнее сообщение Anonymous « 23 сен 2024, 16:13
Добавлено в форуме JAVA

Anonymous » 23 сен 2024, 16:13 » в форуме JAVA

Я новичок в Flink и пытаюсь использовать Flink с Kafka для ввода данных и айсбергом для хранения данных.
Вот шаги, которые я выполнил.

Читать поток данных POJO Java из kafkaSource (со схемой Avro).
Преобразовать поток данных POJO в DataStream с...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
23 сен 2024, 16:13
Лучший способ преобразовать Flink DataStream в DataStream для использования Apache Iceberg

Последнее сообщение Anonymous « 23 сен 2024, 17:19
Добавлено в форуме JAVA

Anonymous » 23 сен 2024, 17:19 » в форуме JAVA

Я новичок в Flink и пытаюсь использовать Flink с Kafka для ввода данных и айсбергом для хранения данных.
Вот шаги, которые я выполнил.

Читать поток данных POJO Java из kafkaSource (со схемой Avro).
Преобразовать поток данных POJO в DataStream...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
23 сен 2024, 17:19
Лучший способ преобразовать Flink DataStream в DataStream для использования Apache Iceberg

Последнее сообщение Anonymous « 24 сен 2024, 18:21
Добавлено в форуме JAVA

Anonymous » 24 сен 2024, 18:21 » в форуме JAVA

Я новичок в Flink и пытаюсь использовать Flink с Kafka для ввода данных и айсбергом для хранения данных.
Вот шаги, которые я выполнил.

Читать поток данных POJO Java из kafkaSource (со схемой Avro).
Преобразовать поток данных POJO в DataStream...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
24 сен 2024, 18:21
Лучший способ преобразовать Flink DataStream в DataStream для использования Apache Iceberg

Последнее сообщение Anonymous « 26 ноя 2024, 18:55
Добавлено в форуме JAVA

Anonymous » 26 ноя 2024, 18:55 » в форуме JAVA

Я новичок в Flink и пытаюсь использовать Flink с Kafka для ввода данных и айсбергом для хранения данных.
Вот шаги, которые я выполнил.

Читать поток данных POJO Java из kafkaSource (со схемой Avro).
Преобразовать поток данных POJO в DataStream...

0 Ответы

19 Просмотры

Последнее сообщение Anonymous
26 ноя 2024, 18:55
Flink Как DataStream объединяет пользовательский POJO в другой DataStream

Последнее сообщение Anonymous « 03 авг 2024, 20:21
Добавлено в форуме JAVA

Anonymous » 03 авг 2024, 20:21 » в форуме JAVA

Я хочу преобразовать DataStream в DataStream с информацией о схеме

ввод

args DataStream

{ fields : }

схема args

message spark_schema {
optional binary country (UTF8);
optional binary city (UTF8);
}

ожидайте результата

{ country :...

0 Ответы

20 Просмотры

Последнее сообщение Anonymous
03 авг 2024, 20:21

Вернуться в «Python»