Чтение STR из бинарного файла дана длину в байтах

Чтение STR из бинарного файла дана длину в байтах ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Чтение STR из бинарного файла дана длину в байтах

Цитата

Сообщение Anonymous » 02 апр 2025, 01:01

У меня есть двоичный файл со следующей структурой: < /p>
• Byte 0: file version number (2)
• The remaining bytes represent records, which are composed of the following information:

– 2 bytes: lane number (uint16)
– 4 bytes: tile number (uint32)
– 2 bytes: read number (uint16)
– 2 bytes: indexLength, the length in bytes of index name (uint16)
– indexLength bytes: string representing index name
< /code>
остальное следует за этим форматом. Я прочитал в первом наборе элементов без проблем, но я подвесил наилучший способ декодировать длину индекса строки, учитывая байты, представляющие его. Нет доступной информации, которую я могу найти при кодировании, поэтому я пошел с UTF-8. < /P>
samples: list[dict] = [] # empty list to hold sample dicts

with open(path, "rb") as f:
# get file version (first byte)
version = struct.unpack("B", f.read(1))[0]
logger.debug(f"IndexMetricsOut.bin file version: {version}")

while True:
# fixed fields chunking
# lane (2), tile (4), read (2), indexLength(2)
fixed_format = "HIHH"
size = struct.calcsize(fixed_format)
chunk = f.read(size)

# if end of file
if not chunk:
logger.debug(f"End of file reached")
break

# assign fixed byte variables
lane, tile, read_num, index_len = struct.unpack(fixed_format,
chunk,
)
logger.debug(f"lane: {lane}, tile: {tile}, "
f"read_num: {read_num}, index_len: {index_len}")

def unpack_helper(fmt, data):
size = struct.calcsize(fmt)
return struct.unpack(fmt, data[:size]), data[size:]

# decode and assign index_name based on index_len

index_name_bytes = f.read(index_len)

# TO DO: troubleshoot decoding issue at index name

index_name = index_name_bytes.decode(encoding = "utf-8")

print(index_name)
< /code>
Когда я печатаю значение index_name_bytes, это кажется гораздо больше, чем должно быть. Я вижу значение моего индекса в альфа-нучевых значениях в шестнадцатеричном коде: < /p>
tests.readindexbin::DEBUG: IndexMetricsOut.bin file version: 2
tests.readindexbin::DEBUG: lane: 1, tile: 65536, read_num: 21, index_len: 16705
b'CACTGTTA-TGAGACTTGC\x1ad\x06\x00\x00\x00\x00\x00\x1d\x00MMR_YPZ_PYI-1504_50898847_180\x07\x00default\x0 ...
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xa9 in position 177: invalid start byte
< /code>
Я думаю, что я читаю слишком много значений, и должен быть лучший способ сделать это. Просто застрял. Большое спасибо за любую помощь. Я думаю, что я смотрел на это слишком долго.

Подробнее здесь: https://stackoverflow.com/questions/795 ... h-in-bytes

1743544916

Anonymous

 У меня есть двоичный файл со следующей структурой: < /p>
•   Byte 0: file version number (2)
•   The remaining bytes represent records, which are composed of the following information:

–   2 bytes: lane number (uint16)
–   4 bytes: tile number (uint32)
–   2 bytes: read number (uint16)
–   2 bytes: indexLength, the length in bytes of index name (uint16)
–   indexLength bytes: string representing index name
< /code>
остальное следует за этим форматом. Я прочитал в первом наборе элементов без проблем, но я подвесил наилучший способ декодировать длину индекса строки, учитывая байты, представляющие его. Нет доступной информации, которую я могу найти при кодировании, поэтому я пошел с UTF-8. < /P>
samples: list[dict] = [] # empty list to hold sample dicts

with open(path, "rb") as f:
# get file version (first byte)
version = struct.unpack("B", f.read(1))[0]
logger.debug(f"IndexMetricsOut.bin file version: {version}")

while True:
# fixed fields chunking
# lane (2), tile (4), read (2), indexLength(2)
fixed_format = "HIHH"
size = struct.calcsize(fixed_format)
chunk = f.read(size)

# if end of file
if not chunk:
logger.debug(f"End of file reached")
break

# assign fixed byte variables
lane, tile, read_num, index_len = struct.unpack(fixed_format,
chunk,
)
logger.debug(f"lane: {lane}, tile: {tile}, "
f"read_num: {read_num}, index_len: {index_len}")

def unpack_helper(fmt, data):
size = struct.calcsize(fmt)
return struct.unpack(fmt, data[:size]), data[size:]

# decode and assign index_name based on index_len

index_name_bytes = f.read(index_len)

# TO DO: troubleshoot decoding issue at index name

index_name = index_name_bytes.decode(encoding = "utf-8")

print(index_name)
< /code>
Когда я печатаю значение index_name_bytes, это кажется гораздо больше, чем должно быть. Я вижу значение моего индекса в альфа-нучевых значениях в шестнадцатеричном коде: < /p>
tests.readindexbin::DEBUG: IndexMetricsOut.bin file version: 2
tests.readindexbin::DEBUG: lane: 1, tile: 65536, read_num: 21, index_len: 16705
b'CACTGTTA-TGAGACTTGC\x1ad\x06\x00\x00\x00\x00\x00\x1d\x00MMR_YPZ_PYI-1504_50898847_180\x07\x00default\x0 ...
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xa9 in position 177: invalid start byte
< /code>
Я думаю, что я читаю слишком много значений, и должен быть лучший способ сделать это. Просто застрял. Большое спасибо за любую помощь. Я думаю, что я смотрел на это слишком долго.  

Подробнее здесь: [url]https://stackoverflow.com/questions/79549235/reading-str-from-binary-file-given-length-in-bytes[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Получение длин различных закодированных строк в байтах, например. strlen() вернет длину в байтах в utf8. Как получить дл

Последнее сообщение Anonymous « 10 янв 2025, 17:54
Добавлено в форуме Php

Anonymous » 10 янв 2025, 17:54 » в форуме Php

Я пытаюсь проверить, превышает ли строка, которую я пытаюсь вставить в базу данных MySQL, заданный предел. например, столбец text может содержать максимум 65535 байт данных, но фактическое количество символов, которые я смогу ввести, будет зависеть...

0 Ответы

24 Просмотры

Последнее сообщение Anonymous
10 янв 2025, 17:54
Почему DICT [STR, STR] назначается для картирования [STR | int, str]?

Последнее сообщение Anonymous « 14 авг 2025, 19:04
Добавлено в форуме Python

Anonymous » 14 авг 2025, 19:04 » в форуме Python

Учитывая этот код:
from collections.abc import Mapping

def my_fn(m: Mapping ):
print(m)

d = { a : b }
my_fn(d)

Mypy 1.16.0 и Pyright 1.1.400 Отчет о том, что неверно назначить d аргументу m . Например, выходы Pyright :
error: Argument of type...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
14 авг 2025, 19:04
Почему DICT [STR, STR] назначается для картирования [STR | int, str] (тип ключа отображения не коварит)?

Последнее сообщение Anonymous « 14 авг 2025, 20:23
Добавлено в форуме Python

Anonymous » 14 авг 2025, 20:23 » в форуме Python

Учитывая этот код:
from collections.abc import Mapping

def my_fn(m: Mapping ):
print(m)

d = { a : b }
my_fn(d)

Mypy 1.16.0 и Pyright 1.1.400 Отчет о том, что неверно назначить d аргументу m . Например, выходы Pyright :
error: Argument of type...

0 Ответы

8 Просмотры

Последнее сообщение Anonymous
14 авг 2025, 20:23
Почему DICT [STR, STR] назначается для картирования [STR | int, str] (тип ключа отображения не коварит)?

Последнее сообщение Anonymous « 20 авг 2025, 05:00
Добавлено в форуме Python

Anonymous » 20 авг 2025, 05:00 » в форуме Python

Учитывая этот код:
from collections.abc import Mapping

def my_fn(m: Mapping ):
print(m)

d = { a : b }
my_fn(d)

Mypy 1.16.0 и Pyright 1.1.400 Отчет о том, что неверно назначить d аргументу m . Например, выходы Pyright :
error: Argument of type...

0 Ответы

3 Просмотры

Последнее сообщение Anonymous
20 авг 2025, 05:00
SARIMA и SARIMAX определяют длину прогноза и длину ввода

Последнее сообщение Гость « 21 сен 2023, 20:42
Добавлено в форуме Python

Гость » 21 сен 2023, 20:42 » в форуме Python

Можно ли определить в модели ARIMA, SARIMA и SARIMAX длину прогноза, например 50 (50 часов) и длина ввода, например. 100 (часов), как и в случае с моделями RNN, LSTM и GRU. После этого я хочу сравнить прогнозы различных моделей в тестовых данных,...

0 Ответы

110 Просмотры

Последнее сообщение Гость
21 сен 2023, 20:42

Вернуться в «Python»