Непоследовательный размер данных API при разделении 4-летнего набора данных на различные моменты времени (Thingsboord)

Непоследовательный размер данных API при разделении 4-летнего набора данных на различные моменты времени (Thingsboord) ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Непоследовательный размер данных API при разделении 4-летнего набора данных на различные моменты времени (Thingsboord)

Цитата

Сообщение Anonymous » 11 мар 2025, 13:15

Я работаю с 4-летним набором данных, который я разделял на меньшие интервалы времени (кусочки), чтобы отправить запросы API на Tiksboard. Я экспериментировал с различными размерами куски - 3 часа, 6 часов, 12 часов и 24 часа. Поскольку общий период времени остается прежним (4 года), я ожидал, что общий объем полученных данных, полученных в соответствии с различными размерами кусок. Тем не менее, я вижу противоречивые общие размеры данных в зависимости от используемого размера чанка. Похоже, что несоответствие происходит от API Tiksboard, которое возвращает различные суммы данных для каждого чанка.import json
import httpx
from urllib.parse import urlencode
import polars as pl
import asyncio
import os
import re
from tenacity import retry, stop_after_attempt, wait_exponential, retry_if_exception_type
from urllib.parse import urljoin
from itertools import chain
from config import BASE_URL, DATAFRAME_AFTER_ANALYSE
import time

numberofkeys = 0
OUTPUT_FILE = "/root/main-kafka-main/ALLDATASETS/DATAFROMMETAMORPHOSIS/new_2.jsonl"
RAW_RESPONSE_DIR = "raw_responses" # Directory to save raw API responses
error_file = []

def create_polling(deviceid, timestamp, slaveadd, template, modbusmap):

return my temple comes here I deleted it because it is long

# Function to fetch or load cached telemetry keys

async def get_cached_keys(client, header, entityID):
cache_dir = "keys_cache"
os.makedirs(cache_dir, exist_ok=True)
cache_file = os.path.join(cache_dir, f"{entityID}.json")

if os.path.exists(cache_file):
with open(cache_file, "r") as f:
keys = json.load(f)
else:
keys = await get_keys(client, header, entityID)
with open(cache_file, "w") as f:
json.dump(keys, f)
return keys

@retry(
retry=retry_if_exception_type(httpx.HTTPStatusError),
stop=stop_after_attempt(3),
wait=wait_exponential(multiplier=1, min=1, max=10)
)
async def get_keys(client, header, entityID):
all_keys_url = urljoin(BASE_URL, f"/api/plugins/telemetry/DEVICE/{entityID}/keys/timeseries")
response = await client.get(all_keys_url, headers=header)
response.raise_for_status()
data = response.json()
pattern = re.compile(r"^[0-9A-Fa-f]{4}(_H|_I)?$")
filtered_keys = [key for key in data if key and len(key) 1 else "")
except ValueError:
slaveadd = parts[1] if len(parts) > 1 else ""
data_by_ts = {}
for key, entries in data.items():
for entry in entries:
ts = entry["ts"]
data_by_ts.setdefault(ts, {})[key] = entry["value"]
pattern_key = re.compile(r"^([0-9A-Fa-f]{4})(?:_H|_I)$")
for ts in timestamps:
modbusmap = []
ts_data = data_by_ts.get(ts, {})
for key in filtered_keys:
try:
if key not in ts_data:
continue
if len(key) == 6:
new_key = key[:4].lower()
if key.endswith("H"):
modbusmap.append({"addr": f"0x{new_key}", "type": 0, "val": ts_data[key]})
else:
modbusmap.append({"addr": f"0x{new_key}", "type": 1, "val": ts_data[key]})
else:
new_key = key.lower()
modbusmap.append({"addr": f"0x{new_key}", "type": 0, "val": ts_data[key]})
modbusmap.append({"addr": f"0x{new_key}", "type": 1, "val": ts_data[key]})
except Exception as e:
print(f"Error processing key '{key}' for timestamp {ts} in chunk {chunk_start}-{chunk_end} for device {entityID}: {e}")
error_file.append(e)
continue
polling = create_polling(deviceid, ts, slaveadd, entityType, modbusmap)
yield polling
except Exception as e:
print(f"Error processing chunk {chunk_start}-{chunk_end} for device {entityID}: {e}")

continue
except Exception as r:
print(f"Error processing device {entityID}: {r}")

async def process_device(queue, semaphore, client, header, entityID, useStrictDataTypes, startTs, endTs, entityName, entityType):

async for polling in get_device_data(semaphore, client, header, entityID, useStrictDataTypes, startTs, endTs, entityName, entityType):
await queue.put(polling)

async def writer(queue, file_path):

with open(file_path, "w") as f:
while True:
item = await queue.get()
if item is None:
break
json_str = json.dumps(item)
f.write(json_str + "\n")
queue.task_done()

async def get_all_devices_from_file(file_name, token, useStrictDataTypes, startTs, endTs):

start_time = time.time()
file_path = f"{DATAFRAME_AFTER_ANALYSE}{file_name}.csv"
df_devices = pl.read_csv(file_path, columns=["id", "name", "type"])
header = {"Authorization": f"Bearer {token}"}

async with httpx.AsyncClient(http2=True) as client:
semaphore = asyncio.Semaphore(50)
queue = asyncio.Queue()
writer_task = asyncio.create_task(writer(queue, OUTPUT_FILE))

tasks = []
for entityID, entityName, entityType in df_devices.select(["id", "name", "type"]).iter_rows():
task = asyncio.create_task(
process_device(queue, semaphore, client, header, entityID, useStrictDataTypes, startTs, endTs, entityName, entityType)
)
tasks.append(task)

await asyncio.gather(*tasks)
await queue.put(None)
await writer_task

end_time = time.time()
execution_time = end_time - start_time
return f"Execution time: {execution_time:.6f} seconds"
< /code>
Мои вопросы: < /p>

Кто -нибудь испытывал подобное поведение с вещами или любым другим API при разделении данных по интервалу времени? Сценарии?

Подробнее здесь: https://stackoverflow.com/questions/795 ... s-time-chu

1741688105

Anonymous

 Я работаю с 4-летним набором данных, который я разделял на меньшие интервалы времени (кусочки), чтобы отправить запросы API на Tiksboard. Я экспериментировал с различными размерами куски - 3 часа, 6 часов, 12 часов и 24 часа. Поскольку общий период времени остается прежним (4 года), я ожидал, что общий объем полученных данных, полученных в соответствии с различными размерами кусок. Тем не менее, я вижу противоречивые общие размеры данных в зависимости от используемого размера чанка.  Похоже, что несоответствие происходит от API Tiksboard, которое возвращает различные суммы данных для каждого чанка.import json
import httpx
from urllib.parse import urlencode
import polars as pl
import asyncio
import os
import re
from tenacity import retry, stop_after_attempt, wait_exponential, retry_if_exception_type
from urllib.parse import urljoin
from itertools import chain
from config import BASE_URL, DATAFRAME_AFTER_ANALYSE
import time

numberofkeys = 0
OUTPUT_FILE = "/root/main-kafka-main/ALLDATASETS/DATAFROMMETAMORPHOSIS/new_2.jsonl"
RAW_RESPONSE_DIR = "raw_responses"  # Directory to save raw API responses
error_file = []

def create_polling(deviceid, timestamp, slaveadd, template, modbusmap):

return my temple comes here I deleted it because it is long

# Function to fetch or load cached telemetry keys

async def get_cached_keys(client, header, entityID):
cache_dir = "keys_cache"
os.makedirs(cache_dir, exist_ok=True)
cache_file = os.path.join(cache_dir, f"{entityID}.json")

if os.path.exists(cache_file):
with open(cache_file, "r") as f:
keys = json.load(f)
else:
keys = await get_keys(client, header, entityID)
with open(cache_file, "w") as f:
json.dump(keys, f)
return keys

@retry(
retry=retry_if_exception_type(httpx.HTTPStatusError),
stop=stop_after_attempt(3),
wait=wait_exponential(multiplier=1, min=1, max=10)
)
async def get_keys(client, header, entityID):
all_keys_url = urljoin(BASE_URL, f"/api/plugins/telemetry/DEVICE/{entityID}/keys/timeseries")
response = await client.get(all_keys_url, headers=header)
response.raise_for_status()
data = response.json()
pattern = re.compile(r"^[0-9A-Fa-f]{4}(_H|_I)?$")
filtered_keys = [key for key in data if key and len(key)   1 else "")
except ValueError:
slaveadd = parts[1] if len(parts) > 1 else ""
data_by_ts = {}
for key, entries in data.items():
for entry in entries:
ts = entry["ts"]
data_by_ts.setdefault(ts, {})[key] = entry["value"]
pattern_key = re.compile(r"^([0-9A-Fa-f]{4})(?:_H|_I)$")
for ts in timestamps:
modbusmap = []
ts_data = data_by_ts.get(ts, {})
for key in filtered_keys:
try:
if key not in ts_data:
continue
if len(key) == 6:
new_key = key[:4].lower()
if key.endswith("H"):
modbusmap.append({"addr": f"0x{new_key}", "type": 0, "val": ts_data[key]})
else:
modbusmap.append({"addr": f"0x{new_key}", "type": 1, "val": ts_data[key]})
else:
new_key = key.lower()
modbusmap.append({"addr": f"0x{new_key}", "type": 0, "val": ts_data[key]})
modbusmap.append({"addr": f"0x{new_key}", "type": 1, "val": ts_data[key]})
except Exception as e:
print(f"Error processing key '{key}' for timestamp {ts} in chunk {chunk_start}-{chunk_end} for device {entityID}: {e}")
error_file.append(e)
continue
polling = create_polling(deviceid, ts, slaveadd, entityType, modbusmap)
yield polling
except Exception as e:
print(f"Error processing chunk {chunk_start}-{chunk_end} for device {entityID}: {e}")

continue
except Exception as r:
print(f"Error processing device {entityID}: {r}")

async def process_device(queue, semaphore, client, header, entityID, useStrictDataTypes, startTs, endTs, entityName, entityType):

async for polling in get_device_data(semaphore, client, header, entityID, useStrictDataTypes, startTs, endTs, entityName, entityType):
await queue.put(polling)

async def writer(queue, file_path):

with open(file_path, "w") as f:
while True:
item = await queue.get()
if item is None:
break
json_str = json.dumps(item)
f.write(json_str + "\n")
queue.task_done()

async def get_all_devices_from_file(file_name, token, useStrictDataTypes, startTs, endTs):

start_time = time.time()
file_path = f"{DATAFRAME_AFTER_ANALYSE}{file_name}.csv"
df_devices = pl.read_csv(file_path, columns=["id", "name", "type"])
header = {"Authorization": f"Bearer {token}"}

async with httpx.AsyncClient(http2=True) as client:
semaphore = asyncio.Semaphore(50)
queue = asyncio.Queue()
writer_task = asyncio.create_task(writer(queue, OUTPUT_FILE))

tasks = []
for entityID, entityName, entityType in df_devices.select(["id", "name", "type"]).iter_rows():
task = asyncio.create_task(
process_device(queue, semaphore, client, header, entityID, useStrictDataTypes, startTs, endTs, entityName, entityType)
)
tasks.append(task)

await asyncio.gather(*tasks)
await queue.put(None)
await writer_task

end_time = time.time()
execution_time = end_time - start_time
return f"Execution time: {execution_time:.6f} seconds"
< /code>
Мои вопросы: < /p>
[list]
[*] Кто -нибудь испытывал подобное поведение с вещами или любым другим API при разделении данных по интервалу времени? Сценарии?
[/list] 

Подробнее здесь: [url]https://stackoverflow.com/questions/79500374/inconsistent-api-data-size-when-splitting-a-4-year-dataset-into-various-time-chu[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Важные моменты, которые следует учитывать при переходе с Android Studio на код Visual Studio при мобильной/кроссплатформ

Последнее сообщение Anonymous « 08 ноя 2024, 06:52
Добавлено в форуме Android

Anonymous » 08 ноя 2024, 06:52 » в форуме Android

Я полтора года занимаюсь программированием и разработкой программного обеспечения/систем. Я работаю с MSSQL Server, API в качестве уровня доступа к данным и кодом Visual Studio, который взаимосвязан с Android Studio . Я хочу понять, есть ли...

0 Ответы

20 Просмотры

Последнее сообщение Anonymous
08 ноя 2024, 06:52
Важные моменты, которые следует учитывать при переходе с Android Studio на код Visual Studio при мобильной/кроссплатформ

Последнее сообщение Anonymous « 08 ноя 2024, 07:39
Добавлено в форуме Android

Anonymous » 08 ноя 2024, 07:39 » в форуме Android

Сейчас я предпочитаю использовать Visual Studio Code в качестве основной среды разработки для разработки, но на самом деле я начал разрабатывать мобильное приложение в Android Studio и заметил простота его использования, особенно при управлении...

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
08 ноя 2024, 07:39
Точки останова перестали работать в определенные моменты на локальном устройстве iOS

Последнее сообщение Anonymous « 04 янв 2024, 18:04
Добавлено в форуме IOS

Anonymous » 04 янв 2024, 18:04 » в форуме IOS

Использование текущей версии Windows Visual Studio 17.8.3 для разработки решения MAUI для iOS. Версия MAUI — 7.0.101. Код выполняется, но в определенных местах внезапно перестали работать точки останова. то есть код не ломается. Я пробовал точки...

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
04 янв 2024, 18:04
Непоследовательный анализ заголовков Excel в кадре данных pandas

Последнее сообщение Anonymous « 18 окт 2024, 11:29
Добавлено в форуме Python

Anonymous » 18 окт 2024, 11:29 » в форуме Python

Рассмотрим следующую таблицу в Excel:
h1 h1_1 h1_2 h1_3
h2 h2_1 h2_2 h2_3
h3 h3_1 h3_2 h3_3

h4 h4_1 h4_2 h4_3
h5 h5_1 h5_2 h5_2
i1 i2 i3 h6 h6_1 h6_2 h6_2
i1_2 i1_3 foo
i2_2 i2_3 foo
i3_2 i3_3 foo 1

Эта таблица имеет 7 строк заголовков и 4...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
18 окт 2024, 11:29
Непоследовательный вывод при чтении чисел из файла для получения среднего значения.

Последнее сообщение Anonymous « 01 июл 2024, 13:51
Добавлено в форуме Python

Anonymous » 01 июл 2024, 13:51 » в форуме Python

У меня есть домашнее задание, в ходе которого я получаю разные результаты в цикле чтения файла с числами для получения среднего значения. В настоящее время появляется ошибка: ZeroDivisionError: деление с плавающей запятой на ноль . Это указывает на...

0 Ответы

17 Просмотры

Последнее сообщение Anonymous
01 июл 2024, 13:51

Вернуться в «Python»