Spark таблицу JDBC в Dataframe без разделаCol для использования

Spark таблицу JDBC в Dataframe без разделаCol для использования ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Spark таблицу JDBC в Dataframe без разделаCol для использования

Цитата

Сообщение Anonymous » 11 янв 2025, 17:28

У меня есть таблица MySQL RDBMS (3 миллиона строк, возвращено только 209 КБ), подобная этой, которую мне нужно загрузить в Python в фрейм данных Spark. Проблема в том, что мне нужно загружать его одновременно, поскольку это ДЕЙСТВИТЕЛЬНО медленно (1,5 часа в минуту), но, как вы можете видеть, у меня нет возможности установить «верхнюю» и «нижнюю границы», необходимые JDBC. Итак, мой вопрос: как загрузить эту таблицу одновременно. Я не могу изменить таблицу и не могу найти пример такой таблицы, загружаемой в фрейм данных с параллельным доступом.
Пожалуйста, дайте мне знать, если я в этом разбираюсь, но Просто я раньше не сталкивался с этой проблемой.
USERJSON — это строка JSON из длинных символов.
+------------------------------------+-------------------------------------+-------------------------------------+---------+-------------+---------------------+-----------------+------------------------+
|SESSIONID |PARTID |USERID |USERNAME |ACTIVE_FLAG |LOGINTIMESTAMP |LOGOUTTIMESTAMP |USERJSON |
+------------------------------------+-------------------------------------+-------------------------------------+---------+-------------+---------------------+-----------------+------------------------+
|00000123-e63b-4b65-a47a-c84620ae4d20|d6ee09a5-1a16-4a0a-9e2a-3b9ffd9cf1d0 |null |null |1 |2024-09-25 08:43:44 |null |null |
|000012e8-8baf-4adc-bb1e-4c3aead53e60|d6ee09a5-1a16-4a0a-9e2a-3b9ffd9cf1d0 |2ab6e89b-1dc0-e8a2-ad32-87296434b69a |null |1 |2023-09-22 00:00:00 |null |[2,620 CHARACTER_JSON] |
|000022b4-ad4a-4cef-8285-e65d35b7b106|c59ba81c-5e2f-4760-bf44-24432f1e76fc |252ea556-7eb1-336e-bec5-36df57b8ecee |null |1 |2023-12-23 11:20:34 |null |[2,554 CHARACTER_JSON] |
|000034d2-5607-472d-a8d3-ecf81c76a4cf|d6ee09a5-1a16-4a0a-9e2a-3b9ffd9cf1d0 |da192ec4-97ef-34dc-70d2-3b7b17fd6dcc |null |1 |2023-06-19 00:00:00 |null |[2,526 CHARACTER_JSON] |
+------------------------------------+-------------------------------------+-------------------------------------+---------+-------------+---------------------+-----------------+------------------------+

df_session = spark.read \
.format("jdbc") \
.option("url", "jdbc:mysql://127.0.0.1:3317/sesdb?useSSL=false") \
.option("driver", "com.mysql.jdbc.Driver") \
.option("user", "spark") \
.option("password", "[PASS]") \
.option("query", "select * from sesdb.session where PARTID IN('c59ba81c-5e2f-4760-bf44-24432f1e76fc', '992f6369-bf10-4b2e-bd97-b7c99ec4d6f9', 'd6ee09a5-1a16-4a0a-9e2a-3b9ffd9cf1d0')") \
.load()

Подробнее здесь: https://stackoverflow.com/questions/793 ... col-to-use

1736605719

Anonymous

У меня есть таблица MySQL RDBMS (3 миллиона строк, возвращено только 209 КБ), подобная этой, которую мне нужно загрузить в Python в фрейм данных Spark. Проблема в том, что мне нужно загружать его одновременно, поскольку это ДЕЙСТВИТЕЛЬНО медленно (1,5 часа в минуту), но, как вы можете видеть, у меня нет возможности установить «верхнюю» и «нижнюю границы», необходимые JDBC. Итак, мой вопрос: как загрузить эту таблицу одновременно. Я не могу изменить таблицу и не могу найти пример такой таблицы, загружаемой в фрейм данных с параллельным доступом.
Пожалуйста, дайте мне знать, если я в этом разбираюсь, но Просто я раньше не сталкивался с этой проблемой.
USERJSON — это строка JSON из длинных символов.
+------------------------------------+-------------------------------------+-------------------------------------+---------+-------------+---------------------+-----------------+------------------------+
|SESSIONID                           |PARTID                               |USERID                               |USERNAME |ACTIVE_FLAG  |LOGINTIMESTAMP       |LOGOUTTIMESTAMP  |USERJSON                |
+------------------------------------+-------------------------------------+-------------------------------------+---------+-------------+---------------------+-----------------+------------------------+
|00000123-e63b-4b65-a47a-c84620ae4d20|d6ee09a5-1a16-4a0a-9e2a-3b9ffd9cf1d0 |null                                 |null     |1            |2024-09-25 08:43:44  |null             |null                    |
|000012e8-8baf-4adc-bb1e-4c3aead53e60|d6ee09a5-1a16-4a0a-9e2a-3b9ffd9cf1d0 |2ab6e89b-1dc0-e8a2-ad32-87296434b69a |null     |1            |2023-09-22 00:00:00  |null             |[2,620 CHARACTER_JSON]  |
|000022b4-ad4a-4cef-8285-e65d35b7b106|c59ba81c-5e2f-4760-bf44-24432f1e76fc |252ea556-7eb1-336e-bec5-36df57b8ecee |null     |1            |2023-12-23 11:20:34  |null             |[2,554 CHARACTER_JSON]  |
|000034d2-5607-472d-a8d3-ecf81c76a4cf|d6ee09a5-1a16-4a0a-9e2a-3b9ffd9cf1d0 |da192ec4-97ef-34dc-70d2-3b7b17fd6dcc |null     |1            |2023-06-19 00:00:00  |null             |[2,526 CHARACTER_JSON]  |
+------------------------------------+-------------------------------------+-------------------------------------+---------+-------------+---------------------+-----------------+------------------------+

df_session = spark.read \
.format("jdbc") \
.option("url", "jdbc:mysql://127.0.0.1:3317/sesdb?useSSL=false") \
.option("driver", "com.mysql.jdbc.Driver") \
.option("user", "spark") \
.option("password", "[PASS]") \
.option("query", "select * from sesdb.session where PARTID IN('c59ba81c-5e2f-4760-bf44-24432f1e76fc', '992f6369-bf10-4b2e-bd97-b7c99ec4d6f9', 'd6ee09a5-1a16-4a0a-9e2a-3b9ffd9cf1d0')") \
.load()
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79348281/spark-jdbc-table-to-dataframe-no-partitioncol-to-use[/url]