Повторяющиеся запросы Redshift - Цифровое Кемерово

Повторяющиеся запросы Redshift ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Цитата

Сообщение Anonymous » 15 ноя 2024, 22:59

Я использую Python с redshift_connector и анализирую данные с помощью Pandas. При доступе к базе данных красного смещения с выбором столбцов n я получил i строк. Однако когда я захотел добавить в этот запрос новый столбец, время ожидания истекло через час. Чтобы решить эту проблему, мне пришла в голову идея выбрать столбцы n+1 и итеративно использовать LIMIT и OFFSET для получения каждой строки. Через некоторое время он вернул i строк, но что-то не сложилось. Когда я сравнил результаты, последний дал пару повторяющихся строк. Как написать запрос, чтобы он не терял тайм-аут, но не возвращал дубликаты?
Оригинальный макет запроса, который не истечет по тайм-ауту:

Код: Выделить всё

SELECT a, b, c
FROM table
WHERE a IN ('attribute1','attribute2')

Тайм-аут:

Код: Выделить всё

SELECT a, b, c, d
FROM table
WHERE a IN ('attribute1','attribute2')

Если я помещу второй в цикл while True, исправлю его с помощью LIMIT и OFFSET, использую pd.read_sql(query, Connection) для получения данных, добавляю их в df list и в конце объединить список, он возвращает мне точное количество строк, что и первый, но с дубликатами.

Подробнее здесь: https://stackoverflow.com/questions/791 ... duplicates

1731700741

Anonymous

Я использую Python с redshift_connector и анализирую данные с помощью Pandas. При доступе к базе данных красного смещения с выбором столбцов [b]n[/b] я получил [b]i[/b] строк. Однако когда я захотел добавить в этот запрос новый столбец, время ожидания истекло через час. Чтобы решить эту проблему, мне пришла в голову идея выбрать столбцы [b]n+1[/b] и итеративно использовать LIMIT и OFFSET для получения каждой строки. Через некоторое время он вернул [b]i[/b] строк, но что-то не сложилось. Когда я сравнил результаты, последний дал пару повторяющихся строк. Как написать запрос, чтобы он не терял тайм-аут, но не возвращал дубликаты?
Оригинальный макет запроса, который не истечет по тайм-ауту:
[code]SELECT a, b, c
FROM table
WHERE a IN ('attribute1','attribute2')
[/code]
Тайм-аут:
[code]SELECT a, b, c, d
FROM table
WHERE a IN ('attribute1','attribute2')
[/code]
Если я помещу второй в цикл while True, исправлю его с помощью LIMIT и OFFSET, использую pd.read_sql(query, Connection) для получения данных, добавляю их в df list и в конце объединить список, он возвращает мне точное количество строк, что и первый, но с дубликатами. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79167500/redshift-query-duplicates[/url]