Название: Проектирование базы данных для высокочастотных данных о тиках опций (быстрый прием + производительность запросов)
Я работаю с большим набором данных данных о тиках опционов (разрешение в 1 секунду) с 2019 года по настоящее время, и мне нужно руководство по созданию эффективной базы данных для приема и выполнения запросов. Характеристики данных:
Я буду хранить только индексные данные (NIFTY, BANKNIFTY, SENSEX)
Данные поступают ежедневно в виде файлов CSV (пакетный EOD) прием)
Размер набора данных: уже миллионы строк в день и продолжает расти
Конвейер:
Загружать данные CSV ежедневно
Сохранять отфильтрованные тиковые данные (только для выбранных предупреждений)
Вычисление греков
Создание цепочки опций для анализа
Требования:
Очень быстрый массовый прием
Эффективность Запросы временного диапазона
Быстрые агрегации (strike, option_type)
Масштабируемость для больших наборов исторических данных
Быстрая запросы обратного тестирования на больших данных
Вопросы:
Какова оптимальная структура схемы для этого типа данных опций временного ряда?
Как следует структурировать:
временную метку (отдельную или объединенную)
секционирование (по дате/месяцу?)
стратегия индексирования
Какая база данных больше подходит для этой рабочей нагрузки?
Есть ли рекомендации по эффективной обработке крупномасштабных финансовых тиковых данных?
Я в основном сосредоточен на производительности (прием + скорость запросов), чтобы тестирование на исторических данных на больших наборах исторических данных было быстрым и масштабируемым.
Заранее спасибо!
[b]Название:[/b] Проектирование базы данных для высокочастотных данных о тиках опций (быстрый прием + производительность запросов) Я работаю с большим набором данных [b]данных о тиках опционов (разрешение в 1 секунду)[/b] с 2019 года по настоящее время, и мне нужно руководство по созданию эффективной базы данных для приема и выполнения запросов. [b]Характеристики данных:[/b] [list] [*]Столбцы: Тикер, Дата, Время, LTP, BuyPrice, BuyQty, SellPrice, SellQty, LTQ, OpenInterest
[*]Я буду хранить только индексные данные (NIFTY, BANKNIFTY, SENSEX)
[*]Данные поступают ежедневно в виде файлов CSV (пакетный EOD) прием)
[*]Размер набора данных: уже миллионы строк в день и продолжает расти
[/list] [b]Конвейер:[/b] [list] [*]Загружать данные CSV ежедневно
[*]Сохранять отфильтрованные тиковые данные (только для выбранных предупреждений)
[*]Масштабируемость для больших наборов исторических данных
[*]Быстрая [b]запросы обратного тестирования[/b] на больших данных
[/list]
[b]Вопросы:[/b] [list] [*]Какова оптимальная [b]структура схемы[/b] для этого типа данных опций временного ряда?
[*]Как следует структурировать: [list] временную метку (отдельную или объединенную)
[*]секционирование (по дате/месяцу?)
[*]стратегия индексирования
[/list]
[*]Какая база данных больше подходит для этой рабочей нагрузки?
[*]Есть ли рекомендации по эффективной обработке крупномасштабных финансовых тиковых данных?
[/list]
Я в основном сосредоточен на [b]производительности (прием + скорость запросов)[/b], чтобы [b]тестирование на исторических данных на больших наборах исторических данных было быстрым и масштабируемым[/b]. Заранее спасибо!