Определите точную плату (Jetson Orin NX 16 ГБ), версию JetPack/L4T, режим питания (выход nvpmodel -q) и способ ее питания (баррель или USB-C с
мощностью).
Зафиксируйте сигнал сбоя: dmesg -T | Tail -200, журналctl -b -1, /var/log/nvpowerd.log, если он присутствует, а также любые драйверы графического процессора или предупреждения о регулировании температуры.
Собирайте метрики ресурсов непосредственно перед завершением работы с помощью tegrastats --logfile, jtop --record или nvmlDeviceGet* в коде Go/Python; включите загрузку ЦП/ГП,
память, температуру и энергопотребление.
Упомяните соответствующее поведение приложения: шаблон рабочей нагрузки, использование CUDA, TensorRT, моделей глубокого обучения или пользовательских драйверов; обратите внимание, происходит ли сбой
в определенном конвейере или через некоторое время.
Специальные инструменты Jetson
tegrastats: легкий встроенный сэмплер для CPU/GPU/RAM/swap/thermal/power; запускать с небольшими интервалами и записывать в файл.
jtop/jetson_stats: пользовательский интерфейс проклятий, можно экспортировать CSV; хорошо подходит для определения постоянного 100% энергопотребления или температурных ограничений.
nvtop (загрузка графического процессора), iostat, powermon или показания INA3221 через /sys/bus/i2c/drivers/ina3221x.
Журналы ядра (dmesg) часто показывают пониженное напряжение (ошибки «VDD_SYS») или сообщения о перегреве; добавьте их дословно.
Пример структуры вопроса
Название: Jetson Orin NX отключается при смешанной нагрузке Python/CUDA, несмотря на то, что tegrastat показывает потребление 25 Вт.
Основная часть:
Аппаратное обеспечение: Jetson Orin NX 16 ГБ, JetPack 5.1.2 (L4T) 35.4.1), питание от адаптера 19 В/4,7 А на цилиндрическом разъеме.
Программное обеспечение: приложение Python 3.8, вызывающее ядра CUDA, служба Go gRPC на той же плате.
Режим питания: режим nvpmodel 3 (30 Вт); jetson_locks включен.
Проблема: после 7–10 минут непрерывной нагрузки вывода плата внезапно выключается (нет корректного завершения работы). Воспроизводится стабильно.
Что я пробовал:
Теграстат регистрируется с интервалом в 1 секунду; GPU = 99 %, температура
[list] [*]Определите точную плату (Jetson Orin NX 16 ГБ), версию JetPack/L4T, режим питания (выход nvpmodel -q) и способ ее питания (баррель или USB-C с мощностью). [*]Зафиксируйте сигнал сбоя: dmesg -T | Tail -200, журналctl -b -1, /var/log/nvpowerd.log, если он присутствует, а также любые драйверы графического процессора или предупреждения о регулировании температуры. [*]Собирайте метрики ресурсов непосредственно перед завершением работы с помощью tegrastats --logfile, jtop --record или nvmlDeviceGet* в коде Go/Python; включите загрузку ЦП/ГП, память, температуру и энергопотребление. [*]Упомяните соответствующее поведение приложения: шаблон рабочей нагрузки, использование CUDA, TensorRT, моделей глубокого обучения или пользовательских драйверов; обратите внимание, происходит ли сбой в определенном конвейере или через некоторое время. [/list] Специальные инструменты Jetson [list] [*]tegrastats: легкий встроенный сэмплер для CPU/GPU/RAM/swap/thermal/power; запускать с небольшими интервалами и записывать в файл. [*]jtop/jetson_stats: пользовательский интерфейс проклятий, можно экспортировать CSV; хорошо подходит для определения постоянного 100% энергопотребления или температурных ограничений. [*]nvtop (загрузка графического процессора), iostat, powermon или показания INA3221 через /sys/bus/i2c/drivers/ina3221x. [*]Журналы ядра (dmesg) часто показывают пониженное напряжение (ошибки «VDD_SYS») или сообщения о перегреве; добавьте их дословно. [/list] Пример структуры вопроса Название: Jetson Orin NX отключается при смешанной нагрузке Python/CUDA, несмотря на то, что tegrastat показывает потребление 25 Вт. Основная часть: Аппаратное обеспечение: Jetson Orin NX 16 ГБ, JetPack 5.1.2 (L4T) 35.4.1), питание от адаптера 19 В/4,7 А на цилиндрическом разъеме. Программное обеспечение: приложение Python 3.8, вызывающее ядра CUDA, служба Go gRPC на той же плате. Режим питания: режим nvpmodel 3 (30 Вт); jetson_locks включен. Проблема: после 7–10 минут непрерывной нагрузки вывода плата внезапно выключается (нет корректного завершения работы). Воспроизводится стабильно. Что я пробовал: [list] [*]Теграстат регистрируется с интервалом в 1 секунду; GPU = 99 %, температура