Как повысить производительность запросов к контейнеру больших временных рядов в облаке GridDB? - Цифровое Кемерово

Как повысить производительность запросов к контейнеру больших временных рядов в облаке GridDB? ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Как повысить производительность запросов к контейнеру больших временных рядов в облаке GridDB?

Цитата

Сообщение Anonymous » 03 ноя 2025, 07:37

Я использую GridDB Cloud (уровень бесплатного пользования) с Python для хранения данных IoT временных рядов.

В настоящее время мой контейнер содержит около 10 миллионов строк, и его число продолжает расти ежедневно.
Схема:

Код: Выделить всё

device_id STRING,
created_at TIMESTAMP,
temperature DOUBLE,
humidity DOUBLE

Мне часто приходится запускать подобные запросы, чтобы получить данные за один день для определенного устройства:

Код: Выделить всё

SELECT *
FROM sensor_data
WHERE device_id = 'A123'
AND created_at BETWEEN TIMESTAMP('2025-09-25T00:00:00Z')
AND TIMESTAMP('2025-09-26T00:00:00Z');

Однако сейчас этот запрос занимает около 3–5 секунд на одно устройство, и я обеспокоен тем, что по мере роста набора данных он будет замедляться.
Что я пробовал:

Разделение данных на несколько контейнеров (по одному в день) → все равно медленно при запросе за несколько дней
Использование временных рядов контейнер с ROWKEY на созданном_at
Извлечение всех строк в Python и локальная фильтрация → слишком неэффективно для миллионов строк

Подробнее здесь: https://stackoverflow.com/questions/798 ... iddb-cloud

1762144623

Anonymous

Я использую GridDB Cloud (уровень бесплатного пользования) с Python для хранения данных IoT временных рядов.

В настоящее время мой контейнер содержит около 10 миллионов строк, и его число продолжает расти ежедневно.
[b]Схема:[/b]
[code]device_id STRING,
created_at TIMESTAMP,
temperature DOUBLE,
humidity DOUBLE
[/code]
Мне часто приходится запускать подобные запросы, чтобы получить данные за один день для определенного устройства:
[code]SELECT *
FROM sensor_data
WHERE device_id = 'A123'
AND created_at BETWEEN TIMESTAMP('2025-09-25T00:00:00Z')
AND TIMESTAMP('2025-09-26T00:00:00Z');
[/code]
Однако сейчас этот запрос занимает около [b]3–5 секунд на одно устройство[/b], и я обеспокоен тем, что по мере роста набора данных он будет замедляться.
[b]Что я пробовал:[/b]
[list]
[*]Разделение данных на несколько контейнеров (по одному в день) → все равно медленно при запросе за несколько дней
[*]Использование временных рядов контейнер с ROWKEY на созданном_at
[*]Извлечение всех строк в Python и локальная фильтрация → слишком неэффективно для миллионов строк
[/list] 

Подробнее здесь: [url]https://stackoverflow.com/questions/79807277/how-to-improve-query-performance-on-large-time-series-container-in-griddb-cloud[/url]

Ответить

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Вернуться в «Python»