Легкая библиотека Python для обработки потоков упорядоченных данных / для обработки партии упорядоченных данных? - Цифровое Кемерово

Легкая библиотека Python для обработки потоков упорядоченных данных / для обработки партии упорядоченных данных? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Легкая библиотека Python для обработки потоков упорядоченных данных / для обработки партии упорядоченных данных?

Цитата

Сообщение Anonymous » 24 июн 2025, 18:24

Я ищу советы по соответствующей (легкой) библиотеке Python для обработки потоков упорядоченных данных /для обработки партии упорядоченных данных?

Код: Выделить всё

from typing import Dict
from pandas import DataFrame
from numpy import array

def my_iterator(*args) -> Dict[str, DataFrame]:
# Parse files with some processing already
yield {"key1": df1, "key2": df2}

def analyze(dfs: Dict[str, DataFrame], buffer: dict) -> array:
# Analysis on some columns of some DataFrame
pass

def custom_join(dfs: Dict[str, DataFrame], settings: array, buffer: dict) -> DataFrame:
# Custom join from multiple Dataframe to a single one.
pass

def write_to_database(key: str, df: DataFrame):
# Write df to a database using key.
pass

def main():
buffer_analysis = {}
buffer_join = {}
for dfs_dict in my_iterator(*args):
# Process data
analysis = analyze(dfs_dict, buffer_analysis)
res = custom_join(dfs_dict, analysis, buffer_join)
# Write result to disk.
write_to_database("key_res", res)
< /code>
У меня есть некоторые другие Worlfows, немного более сложные, здесь снова с итератором, дающим DICTS от DataFrames, и требует фильтрации, сегментированную кумулятивную агрегацию и заканчивая шагом запись. Data is ordered and analysis and custom join will keep a state of the data they have processed so far, taking it into account to process new data.
[*]But support of asyncio can be of interest (the write step may takes some time for instance, while the next loop can already be started)

[b]Identified solutions[/b]

 Streamz действительно заинтересовался моим интересом, как легкий; Но, похоже, это не поддерживается. С этим я бы определил свой рабочий процесс с помощью функции Map ()

, а затем я мог бы запустить итератор с уже определенным потоком. Что-то вроде (если я правильно это понимаю): < /li>
< /ul>

Код: Выделить всё

from streamz import Stream
# define 'analysis' and 'custom_join'

source = Stream()
analysis = source.map(analyze)
source.combine_latest(analysis).map(custom_join).sink(write_to_database)

def main():
buffer_analysis = {}
buffer_join = {}
for dfs_dict in my_iterator(*args):
# Yet have to workout how to use the buffers.
source.emit(dfs_dict)
< /code>

 Dask, конечно, с dask.delayed < /code>; Но документация (и ответы в некоторых клетках) дает понять, что вы не можете применить dask.delayed

на итератор. Это означает, что я бы применил DASK.Delayed в цикле for для анализа , custom_join и write_to_database , и, наконец, все еще в цикле, dask.compute () . Это запустило бы восстановление одного и того же графика на каждой итерации, и это кажется мне не очень эффективным.
Дело в том, что все дайки полученных данных, которые даны, не могут быть материализованы в памяти в качестве списка, потому что это не вписывалось бы в ОЗУ.>

Подробнее здесь: https://stackoverflow.com/questions/796 ... cess-batch

Реклама

1750778686

Anonymous

 Я ищу советы по соответствующей (легкой) библиотеке Python для обработки потоков упорядоченных данных /для обработки партии упорядоченных данных?[code]from typing import Dict
from pandas import DataFrame
from numpy import array

def my_iterator(*args) -> Dict[str, DataFrame]:
# Parse files with some processing already
yield {"key1": df1, "key2": df2}

def analyze(dfs: Dict[str, DataFrame], buffer: dict) -> array:
# Analysis on some columns of some DataFrame
pass

def custom_join(dfs: Dict[str, DataFrame], settings: array, buffer: dict) -> DataFrame:
# Custom join from multiple Dataframe to a single one.
pass

def write_to_database(key: str, df: DataFrame):
# Write df to a database using key.
pass

def main():
buffer_analysis = {}
buffer_join = {}
for dfs_dict in my_iterator(*args):
# Process data
analysis = analyze(dfs_dict, buffer_analysis)
res = custom_join(dfs_dict, analysis, buffer_join)
# Write result to disk.
write_to_database("key_res", res)
< /code>
У меня есть некоторые другие Worlfows, немного более сложные, здесь снова с итератором, дающим DICTS от DataFrames, и требует фильтрации, сегментированную кумулятивную агрегацию и заканчивая шагом запись. Data is ordered and analysis and custom join will keep a state of the data they have processed so far, taking it into account to process new data.
[*]But support of asyncio can be of interest (the write step may takes some time for instance, while the next loop can already be started)

[b]Identified solutions[/b]

 Streamz действительно заинтересовался моим интересом, как легкий; Но, похоже, это не поддерживается. С этим я бы определил свой рабочий процесс с помощью функции Map () [/code], а затем я мог бы запустить итератор с уже определенным потоком. Что-то вроде (если я правильно это понимаю): < /li>
< /ul>
[code]from streamz import Stream
# define 'analysis' and 'custom_join'

source = Stream()
analysis = source.map(analyze)
source.combine_latest(analysis).map(custom_join).sink(write_to_database)

def main():
buffer_analysis = {}
buffer_join = {}
for dfs_dict in my_iterator(*args):
# Yet have to workout how to use the buffers.
source.emit(dfs_dict)
< /code>

 Dask, конечно, с dask.delayed < /code>; Но документация (и ответы в некоторых клетках) дает понять, что вы не можете применить dask.delayed [/code] на итератор. Это означает, что я бы применил DASK.Delayed  в цикле for  для анализа , custom_join  и write_to_database , и, наконец, все еще в цикле, dask.compute () . Это запустило бы восстановление одного и того же графика на каждой итерации, и это кажется мне не очень эффективным.
Дело в том, что все дайки полученных данных, которые даны, не могут быть материализованы в памяти в качестве списка, потому что это не вписывалось бы в ОЗУ.> 

Подробнее здесь: [url]https://stackoverflow.com/questions/79677795/lightweight-python-library-to-process-streams-of-ordered-data-to-process-batch[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Легкая библиотека Python для обработки потоков упорядоченных данных / для обработки партии упорядоченных данных?

Последнее сообщение Anonymous « 24 июн 2025, 21:05
Добавлено в форуме Python

Anonymous » 24 июн 2025, 21:05 » в форуме Python

Я ищу советы по соответствующей (легкой) библиотеке Python для обработки потоков упорядоченных данных /для обработки партии упорядоченных данных? from typing import Dict
from pandas import DataFrame
from numpy import array

def my_iterator(*args) ->...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
24 июн 2025, 21:05
Android Material 3 Легкая тема LIstView: текст элементов скрыт

Последнее сообщение Anonymous « 19 мар 2024, 14:00
Добавлено в форуме Android

Anonymous » 19 мар 2024, 14:00 » в форуме Android

Я изучаю Android здесь. Моя цель — отобразить курсор, который я получаю при вызове SQLiteDatabase.query(), в ListView. Использование ContentProvider. Я не вижу текст элементов списка, хотя уверен, что текстовые данные поступают на экран из базы...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
19 мар 2024, 14:00
TradingView Легкая диаграмма Time Tootip Tootip Tootip

Последнее сообщение Anonymous « 29 июн 2025, 14:52
Добавлено в форуме Html

Anonymous » 29 июн 2025, 14:52 » в форуме Html

Тип здесь
Я создаю торговую платформу для алго, которая использует легкую диаграмму Tradingview. Сейчас я столкнулся с проблемой, в которой все время, показанное на оси x, правильно отображается в IST, а подсказка инструментов правильно показывает...

0 Ответы

2 Просмотры

Последнее сообщение Anonymous
29 июн 2025, 14:52
TradingView Легкая диаграмма Time Tootip Tootip Tootip

Последнее сообщение Anonymous « 29 июн 2025, 14:52
Добавлено в форуме Javascript

Anonymous » 29 июн 2025, 14:52 » в форуме Javascript

Тип здесь
Я создаю торговую платформу для алго, которая использует легкую диаграмму Tradingview. Сейчас я столкнулся с проблемой, в которой все время, показанное на оси x, правильно отображается в IST, а подсказка инструментов правильно показывает...

0 Ответы

3 Просмотры

Последнее сообщение Anonymous
29 июн 2025, 14:52
Существуют ли идиомы C++, которые защищают вас от плохо упорядоченных элементов данных? [закрыто]

Последнее сообщение Anonymous « 31 мар 2024, 12:06
Добавлено в форуме C++

Anonymous » 31 мар 2024, 12:06 » в форуме C++

Рассмотрите следующий случай, который приведет к записи памяти после ее освобождения.

Причина в том, что в классе PoorlyOrderedMembers член m_pData объявлен после члена m_nc, что означает, что будет вызван d'tor std::unique_ptr и экземпляр...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
31 мар 2024, 12:06

Вернуться в «Python»

Programmiererforum