У меня есть таблица MySQL RDBMS (3 миллиона строк, возвращено только 209 КБ), подобная этой, которую мне нужно загрузить в Python в фрейм данных Spark. Проблема в том, что мне нужно загружать его одновременно, поскольку это ДЕЙСТВИТЕЛЬНО медленно (1,5 часа в минуту), но, как вы можете видеть, у меня нет возможности установить «верхнюю» и «нижнюю границы», необходимые JDBC. Итак, мой вопрос: как загрузить эту таблицу одновременно. Я не могу изменить таблицу и не могу найти пример такой таблицы, загружаемой в фрейм данных с параллельным доступом.
Пожалуйста, дайте мне знать, если я в этом разбираюсь, но Просто я раньше не сталкивался с этой проблемой.
USERJSON — это строка JSON из длинных символов.
+------------------------------------+-------------------------------------+-------------------------------------+---------+-------------+---------------------+-----------------+------------------------+
|SESSIONID |PARTID |USERID |USERNAME |ACTIVE_FLAG |LOGINTIMESTAMP |LOGOUTTIMESTAMP |USERJSON |
+------------------------------------+-------------------------------------+-------------------------------------+---------+-------------+---------------------+-----------------+------------------------+
|00000123-e63b-4b65-a47a-c84620ae4d20|d6ee09a5-1a16-4a0a-9e2a-3b9ffd9cf1d0 |null |null |1 |2024-09-25 08:43:44 |null |null |
|000012e8-8baf-4adc-bb1e-4c3aead53e60|d6ee09a5-1a16-4a0a-9e2a-3b9ffd9cf1d0 |2ab6e89b-1dc0-e8a2-ad32-87296434b69a |null |1 |2023-09-22 00:00:00 |null |[2,620 CHARACTER_JSON] |
|000022b4-ad4a-4cef-8285-e65d35b7b106|c59ba81c-5e2f-4760-bf44-24432f1e76fc |252ea556-7eb1-336e-bec5-36df57b8ecee |null |1 |2023-12-23 11:20:34 |null |[2,554 CHARACTER_JSON] |
|000034d2-5607-472d-a8d3-ecf81c76a4cf|d6ee09a5-1a16-4a0a-9e2a-3b9ffd9cf1d0 |da192ec4-97ef-34dc-70d2-3b7b17fd6dcc |null |1 |2023-06-19 00:00:00 |null |[2,526 CHARACTER_JSON] |
+------------------------------------+-------------------------------------+-------------------------------------+---------+-------------+---------------------+-----------------+------------------------+
df_session = spark.read \
.format("jdbc") \
.option("url", "jdbc:mysql://127.0.0.1:3317/sesdb?useSSL=false") \
.option("driver", "com.mysql.jdbc.Driver") \
.option("user", "spark") \
.option("password", "[PASS]") \
.option("query", "select * from sesdb.session where PARTID IN('c59ba81c-5e2f-4760-bf44-24432f1e76fc', '992f6369-bf10-4b2e-bd97-b7c99ec4d6f9', 'd6ee09a5-1a16-4a0a-9e2a-3b9ffd9cf1d0')") \
.load()
Подробнее здесь: https://stackoverflow.com/questions/793 ... col-to-use
Spark таблицу JDBC в Dataframe без разделаCol для использования ⇐ Python
Программы на Python
-
Anonymous
1736605719
Anonymous
У меня есть таблица MySQL RDBMS (3 миллиона строк, возвращено только 209 КБ), подобная этой, которую мне нужно загрузить в Python в фрейм данных Spark. Проблема в том, что мне нужно загружать его одновременно, поскольку это ДЕЙСТВИТЕЛЬНО медленно (1,5 часа в минуту), но, как вы можете видеть, у меня нет возможности установить «верхнюю» и «нижнюю границы», необходимые JDBC. Итак, мой вопрос: как загрузить эту таблицу одновременно. Я не могу изменить таблицу и не могу найти пример такой таблицы, загружаемой в фрейм данных с параллельным доступом.
Пожалуйста, дайте мне знать, если я в этом разбираюсь, но Просто я раньше не сталкивался с этой проблемой.
USERJSON — это строка JSON из длинных символов.
+------------------------------------+-------------------------------------+-------------------------------------+---------+-------------+---------------------+-----------------+------------------------+
|SESSIONID |PARTID |USERID |USERNAME |ACTIVE_FLAG |LOGINTIMESTAMP |LOGOUTTIMESTAMP |USERJSON |
+------------------------------------+-------------------------------------+-------------------------------------+---------+-------------+---------------------+-----------------+------------------------+
|00000123-e63b-4b65-a47a-c84620ae4d20|d6ee09a5-1a16-4a0a-9e2a-3b9ffd9cf1d0 |null |null |1 |2024-09-25 08:43:44 |null |null |
|000012e8-8baf-4adc-bb1e-4c3aead53e60|d6ee09a5-1a16-4a0a-9e2a-3b9ffd9cf1d0 |2ab6e89b-1dc0-e8a2-ad32-87296434b69a |null |1 |2023-09-22 00:00:00 |null |[2,620 CHARACTER_JSON] |
|000022b4-ad4a-4cef-8285-e65d35b7b106|c59ba81c-5e2f-4760-bf44-24432f1e76fc |252ea556-7eb1-336e-bec5-36df57b8ecee |null |1 |2023-12-23 11:20:34 |null |[2,554 CHARACTER_JSON] |
|000034d2-5607-472d-a8d3-ecf81c76a4cf|d6ee09a5-1a16-4a0a-9e2a-3b9ffd9cf1d0 |da192ec4-97ef-34dc-70d2-3b7b17fd6dcc |null |1 |2023-06-19 00:00:00 |null |[2,526 CHARACTER_JSON] |
+------------------------------------+-------------------------------------+-------------------------------------+---------+-------------+---------------------+-----------------+------------------------+
df_session = spark.read \
.format("jdbc") \
.option("url", "jdbc:mysql://127.0.0.1:3317/sesdb?useSSL=false") \
.option("driver", "com.mysql.jdbc.Driver") \
.option("user", "spark") \
.option("password", "[PASS]") \
.option("query", "select * from sesdb.session where PARTID IN('c59ba81c-5e2f-4760-bf44-24432f1e76fc', '992f6369-bf10-4b2e-bd97-b7c99ec4d6f9', 'd6ee09a5-1a16-4a0a-9e2a-3b9ffd9cf1d0')") \
.load()
Подробнее здесь: [url]https://stackoverflow.com/questions/79348281/spark-jdbc-table-to-dataframe-no-partitioncol-to-use[/url]
Ответить
1 сообщение
• Страница 1 из 1
Перейти
- Кемерово-IT
- ↳ Javascript
- ↳ C#
- ↳ JAVA
- ↳ Elasticsearch aggregation
- ↳ Python
- ↳ Php
- ↳ Android
- ↳ Html
- ↳ Jquery
- ↳ C++
- ↳ IOS
- ↳ CSS
- ↳ Excel
- ↳ Linux
- ↳ Apache
- ↳ MySql
- Детский мир
- Для души
- ↳ Музыкальные инструменты даром
- ↳ Печатная продукция даром
- Внешняя красота и здоровье
- ↳ Одежда и обувь для взрослых даром
- ↳ Товары для здоровья
- ↳ Физкультура и спорт
- Техника - даром!
- ↳ Автомобилистам
- ↳ Компьютерная техника
- ↳ Плиты: газовые и электрические
- ↳ Холодильники
- ↳ Стиральные машины
- ↳ Телевизоры
- ↳ Телефоны, смартфоны, плашеты
- ↳ Швейные машинки
- ↳ Прочая электроника и техника
- ↳ Фототехника
- Ремонт и интерьер
- ↳ Стройматериалы, инструмент
- ↳ Мебель и предметы интерьера даром
- ↳ Cантехника
- Другие темы
- ↳ Разное даром
- ↳ Давай меняться!
- ↳ Отдам\возьму за копеечку
- ↳ Работа и подработка в Кемерове
- ↳ Давай с тобой поговорим...
Мобильная версия