Почему моя 8-битная квантованная модель медленнее, чем 16-битная? - Цифровое Кемерово

Почему моя 8-битная квантованная модель медленнее, чем 16-битная? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Почему моя 8-битная квантованная модель медленнее, чем 16-битная?

Цитата

Сообщение Anonymous » 17 окт 2024, 01:14

Я квантовал свою модель тензорного потока нейронной сети как с 8-битной, так и с 16-битной точностью, чтобы повысить производительность, ожидая, что 8-битная версия будет быстрее из-за меньших требований к памяти и вычислениям. Однако я заметил, что 8-битная квантованная модель на самом деле медленнее, чем 16-битная модель во время вывода.
Вот подробности для обеих моделей:
8-бит:

Код: Выделить всё

 Tensor serving_default_input_2:0 - dtype: \, shape: \[1 9\]
Tensor FeedforwardNN/dense_3/MatMul;FeedforwardNN/dense_3/BiasAdd - dtype: \, shape: \[4\]
Tensor FeedforwardNN/batch_normalization_2/batchnorm/mul_1;FeedforwardNN/batch_normalization_2/batchnorm/add_1;FeedforwardNN/dense_3/MatMul;FeedforwardNN/dense_3/BiasAdd - dtype: \, shape: \[ 4 20\]
Tensor FeedforwardNN/dense_2/MatMul;FeedforwardNN/dense_2/BiasAdd - dtype: \, shape: \[20\]
Tensor FeedforwardNN/batch_normalization_1/batchnorm/mul_1;FeedforwardNN/batch_normalization_1/batchnorm/add_1;FeedforwardNN/dense_2/MatMul;FeedforwardNN/dense_2/BiasAdd - dtype: \, shape: \[20 32\]
Tensor FeedforwardNN/dense_1/MatMul;FeedforwardNN/dense_1/BiasAdd - dtype: \, shape: \[32\]
Tensor FeedforwardNN/batch_normalization/batchnorm/mul_1;FeedforwardNN/batch_normalization/batchnorm/add_1;FeedforwardNN/dense_1/MatMul;FeedforwardNN/dense_1/BiasAdd - dtype: \, shape: \[32 32\]
Tensor FeedforwardNN/dense/BiasAdd/ReadVariableOp - dtype: \, shape: \[32\]
Tensor FeedforwardNN/dense/MatMul - dtype: \, shape: \[32  9\]
Tensor tfl.quantize - dtype: \, shape: \[1 9\]
Tensor FeedforwardNN/dense/MatMul;FeedforwardNN/dense/BiasAdd - dtype: \, shape: \[ 1 32\]
Tensor FeedforwardNN/dense/leaky_re_lu/LeakyRelu - dtype: \, shape: \[ 1 32\]
Tensor FeedforwardNN/batch_normalization/batchnorm/mul_1;FeedforwardNN/batch_normalization/batchnorm/add_1;FeedforwardNN/dense_1/MatMul;FeedforwardNN/dense_1/BiasAdd1 - dtype: \, shape: \[ 1 32\]
Tensor FeedforwardNN/dense_1/leaky_re_lu_1/LeakyRelu - dtype: \, shape: \[ 1 32\]
Tensor FeedforwardNN/batch_normalization_1/batchnorm/mul_1;FeedforwardNN/batch_normalization_1/batchnorm/add_1;FeedforwardNN/dense_2/MatMul;FeedforwardNN/dense_2/BiasAdd1 - dtype: \, shape: \[ 1 20\]
Tensor FeedforwardNN/dense_2/leaky_re_lu_2/LeakyRelu - dtype: \, shape: \[ 1 20\]
Tensor FeedforwardNN/batch_normalization_2/batchnorm/mul_1;FeedforwardNN/batch_normalization_2/batchnorm/add_1;FeedforwardNN/dense_3/MatMul;FeedforwardNN/dense_3/BiasAdd1 - dtype: \, shape: \[1 4\]
Tensor StatefulPartitionedCall:01 - dtype: \, shape: \[1 4\]
Tensor StatefulPartitionedCall:0 - dtype: \, shape: \[1 4\]

16-бит:

Код: Выделить всё

Tensor serving_default_input_2:0 - dtype: \, shape: \[1 9\]
Tensor FeedforwardNN/dense_1/MatMul;FeedforwardNN/dense_1/BiasAdd - dtype: \, shape: \[32\]
Tensor FeedforwardNN/batch_normalization/batchnorm/mul_1;FeedforwardNN/batch_normalization/batchnorm/add_1;FeedforwardNN/dense_1/MatMul;FeedforwardNN/dense_1/BiasAdd - dtype: \, shape: \[32 32\]
Tensor FeedforwardNN/dense_2/MatMul;FeedforwardNN/dense_2/BiasAdd - dtype: \, shape: \[20\]
Tensor FeedforwardNN/batch_normalization_1/batchnorm/mul_1;FeedforwardNN/batch_normalization_1/batchnorm/add_1;FeedforwardNN/dense_2/MatMul;FeedforwardNN/dense_2/BiasAdd - dtype: \, shape: \[20 32\]
Tensor FeedforwardNN/dense_3/MatMul;FeedforwardNN/dense_3/BiasAdd - dtype: \, shape: \[4\]
Tensor FeedforwardNN/batch_normalization_2/batchnorm/mul_1;FeedforwardNN/batch_normalization_2/batchnorm/add_1;FeedforwardNN/dense_3/MatMul;FeedforwardNN/dense_3/BiasAdd - dtype: \, shape: \[ 4 20\]
Tensor FeedforwardNN/dense/BiasAdd/ReadVariableOp - dtype: \, shape: \[32\]
Tensor FeedforwardNN/dense/MatMul - dtype: \, shape: \[32  9\]
Tensor FeedforwardNN/dense_1/MatMul;FeedforwardNN/dense_1/BiasAdd1 - dtype: \, shape: \[32\]
Tensor FeedforwardNN/batch_normalization/batchnorm/mul_1;FeedforwardNN/batch_normalization/batchnorm/add_1;FeedforwardNN/dense_1/MatMul;FeedforwardNN/dense_1/BiasAdd1 - dtype: \, shape: \[32 32\]
Tensor FeedforwardNN/dense_2/MatMul;FeedforwardNN/dense_2/BiasAdd1 - dtype: \, shape:  \[20\]
Tensor FeedforwardNN/batch_normalization_1/batchnorm/mul_1;FeedforwardNN/batch_normalization_1/batchnorm/add_1;FeedforwardNN/dense_2/MatMul;FeedforwardNN/dense_2/BiasAdd1 - dtype: \, shape: \[20 32\]
Tensor FeedforwardNN/dense_3/MatMul;FeedforwardNN/dense_3/BiasAdd1 - dtype: \, shape: \[4\]
Tensor FeedforwardNN/batch_normalization_2/batchnorm/mul_1;FeedforwardNN/batch_normalization_2/batchnorm/add_1;FeedforwardNN/dense_3/MatMul;FeedforwardNN/dense_3/BiasAdd1 - dtype: \, shape: \[ 4 20\]
Tensor FeedforwardNN/dense/BiasAdd/ReadVariableOp1 - dtype: \, shape: \[32\]
Tensor FeedforwardNN/dense/MatMul1 - dtype: \, shape: \[32  9\]
Tensor FeedforwardNN/dense/MatMul;FeedforwardNN/dense/BiasAdd - dtype: \, shape: \[ 1 32\]
Tensor FeedforwardNN/dense/leaky_re_lu/LeakyRelu - dtype: \, shape: \[ 1 32\]
Tensor FeedforwardNN/batch_normalization/batchnorm/mul_1;FeedforwardNN/batch_normalization/batchnorm/add_1;FeedforwardNN/dense_1/MatMul;FeedforwardNN/dense_1/BiasAdd2 - dtype: \, shape: \[ 1 32\]
Tensor FeedforwardNN/dense_1/leaky_re_lu_1/LeakyRelu - dtype: \, shape: \[ 1 32\]
Tensor FeedforwardNN/batch_normalization_1/batchnorm/mul_1;FeedforwardNN/batch_normalization_1/batchnorm/add_1;FeedforwardNN/dense_2/MatMul;FeedforwardNN/dense_2/BiasAdd2 - dtype: \, shape: \[ 1 20\]
Tensor FeedforwardNN/dense_2/leaky_re_lu_2/LeakyRelu - dtype: \, shape: \[ 1 20\]
Tensor FeedforwardNN/batch_normalization_2/batchnorm/mul_1;FeedforwardNN/batch_normalization_2/batchnorm/add_1;FeedforwardNN/dense_3/MatMul;FeedforwardNN/dense_3/BiasAdd2 - dtype: \, shape: \[1 4\]
Tensor StatefulPartitionedCall:0 - dtype: \, shape: \[1 4\]

Это мой тест:
Этот фрагмент кода занимает 3,8 секунды:

Код: Выделить всё

interpreter = tf.lite.Interpreter(model_path="8bit_model.tflite")
interpreter.allocate_tensors()

def evaluate_quantized_model8bit(X_test):
predicted_labels = []
for i in range(len(X_test)):
input_data = X_test[i].reshape(1, -1).astype(np.uint8)
interpreter.set_tensor(input_details[0]['index'], input_data)
interpreter.invoke()
output_data = interpreter.get_tensor(output_details[0]['index'])
predicted_label = np.argmax(output_data)
predicted_labels.append(predicted_label)
return predicted_labels

predicted_labelsQ = evaluate_quantized_model(test_data)

А вот этот занимает 1,1 с:

Код: Выделить всё

interpreter = tf.lite.Interpreter(model_path="16bit_model.tflite")
interpreter.allocate_tensors()

def evaluate_quantized_model16bit(X_test):
predicted_labels = []
for i in range(len(X_test)):
input_data = X_test[i].reshape(1, -1).astype(np.float32)
interpreter.set_tensor(input_details[0]['index'], input_data)
interpreter.invoke()
output_data = interpreter.get_tensor(output_details[0]['index'])
predicted_label = np.argmax(output_data)
predicted_labels.append(predicted_label)
return predicted_labels

predicted_labelsQ = evaluate_quantized_model(test_data)

Почему это происходит?

Подробнее здесь: https://stackoverflow.com/questions/790 ... -bit-model

Реклама

1729116863

Anonymous

Я квантовал свою модель тензорного потока нейронной сети как с 8-битной, так и с 16-битной точностью, чтобы повысить производительность, ожидая, что 8-битная версия будет быстрее из-за меньших требований к памяти и вычислениям.  Однако я заметил, что 8-битная квантованная модель на самом деле медленнее, чем 16-битная модель во время вывода.
Вот подробности для обеих моделей:
[b]8-бит:[/b]
[code] Tensor serving_default_input_2:0 - dtype: \, shape: \[1 9\]
Tensor FeedforwardNN/dense_3/MatMul;FeedforwardNN/dense_3/BiasAdd - dtype: \, shape: \[4\]
Tensor FeedforwardNN/batch_normalization_2/batchnorm/mul_1;FeedforwardNN/batch_normalization_2/batchnorm/add_1;FeedforwardNN/dense_3/MatMul;FeedforwardNN/dense_3/BiasAdd - dtype: \, shape: \[ 4 20\]
Tensor FeedforwardNN/dense_2/MatMul;FeedforwardNN/dense_2/BiasAdd - dtype: \, shape: \[20\]
Tensor FeedforwardNN/batch_normalization_1/batchnorm/mul_1;FeedforwardNN/batch_normalization_1/batchnorm/add_1;FeedforwardNN/dense_2/MatMul;FeedforwardNN/dense_2/BiasAdd - dtype: \, shape: \[20 32\]
Tensor FeedforwardNN/dense_1/MatMul;FeedforwardNN/dense_1/BiasAdd - dtype: \, shape: \[32\]
Tensor FeedforwardNN/batch_normalization/batchnorm/mul_1;FeedforwardNN/batch_normalization/batchnorm/add_1;FeedforwardNN/dense_1/MatMul;FeedforwardNN/dense_1/BiasAdd - dtype: \, shape: \[32 32\]
Tensor FeedforwardNN/dense/BiasAdd/ReadVariableOp - dtype: \, shape: \[32\]
Tensor FeedforwardNN/dense/MatMul - dtype: \, shape: \[32  9\]
Tensor tfl.quantize - dtype: \, shape: \[1 9\]
Tensor FeedforwardNN/dense/MatMul;FeedforwardNN/dense/BiasAdd - dtype: \, shape: \[ 1 32\]
Tensor FeedforwardNN/dense/leaky_re_lu/LeakyRelu - dtype: \, shape: \[ 1 32\]
Tensor FeedforwardNN/batch_normalization/batchnorm/mul_1;FeedforwardNN/batch_normalization/batchnorm/add_1;FeedforwardNN/dense_1/MatMul;FeedforwardNN/dense_1/BiasAdd1 - dtype: \, shape: \[ 1 32\]
Tensor FeedforwardNN/dense_1/leaky_re_lu_1/LeakyRelu - dtype: \, shape: \[ 1 32\]
Tensor FeedforwardNN/batch_normalization_1/batchnorm/mul_1;FeedforwardNN/batch_normalization_1/batchnorm/add_1;FeedforwardNN/dense_2/MatMul;FeedforwardNN/dense_2/BiasAdd1 - dtype: \, shape: \[ 1 20\]
Tensor FeedforwardNN/dense_2/leaky_re_lu_2/LeakyRelu - dtype: \, shape: \[ 1 20\]
Tensor FeedforwardNN/batch_normalization_2/batchnorm/mul_1;FeedforwardNN/batch_normalization_2/batchnorm/add_1;FeedforwardNN/dense_3/MatMul;FeedforwardNN/dense_3/BiasAdd1 - dtype: \, shape: \[1 4\]
Tensor StatefulPartitionedCall:01 - dtype: \, shape: \[1 4\]
Tensor StatefulPartitionedCall:0 - dtype: \, shape: \[1 4\]
[/code]
[b]16-бит:[/b]
[code]Tensor serving_default_input_2:0 - dtype: \, shape: \[1 9\]
Tensor FeedforwardNN/dense_1/MatMul;FeedforwardNN/dense_1/BiasAdd - dtype: \, shape: \[32\]
Tensor FeedforwardNN/batch_normalization/batchnorm/mul_1;FeedforwardNN/batch_normalization/batchnorm/add_1;FeedforwardNN/dense_1/MatMul;FeedforwardNN/dense_1/BiasAdd - dtype: \, shape: \[32 32\]
Tensor FeedforwardNN/dense_2/MatMul;FeedforwardNN/dense_2/BiasAdd - dtype: \, shape: \[20\]
Tensor FeedforwardNN/batch_normalization_1/batchnorm/mul_1;FeedforwardNN/batch_normalization_1/batchnorm/add_1;FeedforwardNN/dense_2/MatMul;FeedforwardNN/dense_2/BiasAdd - dtype: \, shape: \[20 32\]
Tensor FeedforwardNN/dense_3/MatMul;FeedforwardNN/dense_3/BiasAdd - dtype: \, shape: \[4\]
Tensor FeedforwardNN/batch_normalization_2/batchnorm/mul_1;FeedforwardNN/batch_normalization_2/batchnorm/add_1;FeedforwardNN/dense_3/MatMul;FeedforwardNN/dense_3/BiasAdd - dtype: \, shape: \[ 4 20\]
Tensor FeedforwardNN/dense/BiasAdd/ReadVariableOp - dtype: \, shape: \[32\]
Tensor FeedforwardNN/dense/MatMul - dtype: \, shape: \[32  9\]
Tensor FeedforwardNN/dense_1/MatMul;FeedforwardNN/dense_1/BiasAdd1 - dtype: \, shape: \[32\]
Tensor FeedforwardNN/batch_normalization/batchnorm/mul_1;FeedforwardNN/batch_normalization/batchnorm/add_1;FeedforwardNN/dense_1/MatMul;FeedforwardNN/dense_1/BiasAdd1 - dtype: \, shape: \[32 32\]
Tensor FeedforwardNN/dense_2/MatMul;FeedforwardNN/dense_2/BiasAdd1 - dtype: \, shape:  \[20\]
Tensor FeedforwardNN/batch_normalization_1/batchnorm/mul_1;FeedforwardNN/batch_normalization_1/batchnorm/add_1;FeedforwardNN/dense_2/MatMul;FeedforwardNN/dense_2/BiasAdd1 - dtype: \, shape: \[20 32\]
Tensor FeedforwardNN/dense_3/MatMul;FeedforwardNN/dense_3/BiasAdd1 - dtype: \, shape: \[4\]
Tensor FeedforwardNN/batch_normalization_2/batchnorm/mul_1;FeedforwardNN/batch_normalization_2/batchnorm/add_1;FeedforwardNN/dense_3/MatMul;FeedforwardNN/dense_3/BiasAdd1 - dtype: \, shape: \[ 4 20\]
Tensor FeedforwardNN/dense/BiasAdd/ReadVariableOp1 - dtype: \, shape: \[32\]
Tensor FeedforwardNN/dense/MatMul1 - dtype: \, shape: \[32  9\]
Tensor FeedforwardNN/dense/MatMul;FeedforwardNN/dense/BiasAdd - dtype: \, shape: \[ 1 32\]
Tensor FeedforwardNN/dense/leaky_re_lu/LeakyRelu - dtype: \, shape: \[ 1 32\]
Tensor FeedforwardNN/batch_normalization/batchnorm/mul_1;FeedforwardNN/batch_normalization/batchnorm/add_1;FeedforwardNN/dense_1/MatMul;FeedforwardNN/dense_1/BiasAdd2 - dtype: \, shape: \[ 1 32\]
Tensor FeedforwardNN/dense_1/leaky_re_lu_1/LeakyRelu - dtype: \, shape: \[ 1 32\]
Tensor FeedforwardNN/batch_normalization_1/batchnorm/mul_1;FeedforwardNN/batch_normalization_1/batchnorm/add_1;FeedforwardNN/dense_2/MatMul;FeedforwardNN/dense_2/BiasAdd2 - dtype: \, shape: \[ 1 20\]
Tensor FeedforwardNN/dense_2/leaky_re_lu_2/LeakyRelu - dtype: \, shape: \[ 1 20\]
Tensor FeedforwardNN/batch_normalization_2/batchnorm/mul_1;FeedforwardNN/batch_normalization_2/batchnorm/add_1;FeedforwardNN/dense_3/MatMul;FeedforwardNN/dense_3/BiasAdd2 - dtype: \, shape: \[1 4\]
Tensor StatefulPartitionedCall:0 - dtype: \, shape: \[1 4\]
[/code]
[b]Это мой тест:[/b]
Этот фрагмент кода занимает 3,8 секунды:
[code]interpreter = tf.lite.Interpreter(model_path="8bit_model.tflite")
interpreter.allocate_tensors()

def evaluate_quantized_model8bit(X_test):
predicted_labels = []
for i in range(len(X_test)):
input_data = X_test[i].reshape(1, -1).astype(np.uint8)
interpreter.set_tensor(input_details[0]['index'], input_data)
interpreter.invoke()
output_data = interpreter.get_tensor(output_details[0]['index'])
predicted_label = np.argmax(output_data)
predicted_labels.append(predicted_label)
return predicted_labels

predicted_labelsQ = evaluate_quantized_model(test_data)
[/code]
А вот этот занимает 1,1 с:
[code]interpreter = tf.lite.Interpreter(model_path="16bit_model.tflite")
interpreter.allocate_tensors()

def evaluate_quantized_model16bit(X_test):
predicted_labels = []
for i in range(len(X_test)):
input_data = X_test[i].reshape(1, -1).astype(np.float32)
interpreter.set_tensor(input_details[0]['index'], input_data)
interpreter.invoke()
output_data = interpreter.get_tensor(output_details[0]['index'])
predicted_label = np.argmax(output_data)
predicted_labels.append(predicted_label)
return predicted_labels

predicted_labelsQ = evaluate_quantized_model(test_data)
[/code]
Почему это происходит? 

Подробнее здесь: [url]https://stackoverflow.com/questions/79095486/why-is-my-8-bit-quantized-model-slower-than-my-16-bit-model[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Почему моя 8-битная квантованная модель медленнее, чем 16-битная?

Последнее сообщение Anonymous « 16 окт 2024, 22:03
Добавлено в форуме Python

Anonymous » 16 окт 2024, 22:03 » в форуме Python

Я квантовал свою модель тензорного потока нейронной сети как с 8-битной, так и с 16-битной точностью, чтобы повысить производительность, ожидая, что 8-битная версия будет быстрее из-за меньших требований к памяти и вычислениям. Однако я заметил, что...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
16 окт 2024, 22:03
JRE 32-битная или 64-битная

Последнее сообщение Anonymous « 29 окт 2024, 14:19
Добавлено в форуме JAVA

Anonymous » 29 окт 2024, 14:19 » в форуме JAVA

Я уже некоторое время использую Java, и мой типичный ритуал настройки новой машины для разработки требует загрузки и установки последней версии JDK с сайта Oracle.
Сегодня это вызвало необычный вопрос:
имеет ли значение, использую ли я 32-битный...

0 Ответы

20 Просмотры

Последнее сообщение Anonymous
29 окт 2024, 14:19
64 -битная и 32 -битная проблема в интеграции R и Java [закрыто]

Последнее сообщение Anonymous « 06 июл 2025, 08:50
Добавлено в форуме JAVA

Anonymous » 06 июл 2025, 08:50 » в форуме JAVA

Я использовал 64 -битную и 64 -битную машину, но она все еще жалуется на 32 бит. Не уверен, почему это говорит о 32-битной платформе
java.lang.UnsatisfiedLinkError: \statistics\R\sdk\library\rJava
\jri\x64\jri.dll: Can't load AMD 64-bit .dll on a...

0 Ответы

2 Просмотры

Последнее сообщение Anonymous
06 июл 2025, 08:50
Использование параллелизма в Java делает программу медленнее (в четыре раза медленнее!)

Последнее сообщение Anonymous « 09 мар 2025, 12:40
Добавлено в форуме JAVA

Anonymous » 09 мар 2025, 12:40 » в форуме JAVA

Я пишу осознание метода сопряженного градиента. Я использую мульти-потоки Java для матрицы обратной стороны. Синхронизация производится с использованием cyclicbarrier, countdownlatch.
Почему для синхронизации потоков требуется так много времени?...

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
09 мар 2025, 12:40
Как правильно сохранить и загрузить вложенную модель keras (модель, содержащую другую модель, переданную в качестве аргу

Последнее сообщение Anonymous « 21 янв 2025, 20:10
Добавлено в форуме Python

Anonymous » 21 янв 2025, 20:10 » в форуме Python

Я работаю над сохранением и загрузкой вложенной модели Keras, где внутренняя модель передается в качестве аргумента внешней модели. Код сохраняет модель без проблем, но когда я ее загружаю, восстанавливаются только слои внешней модели. Внутренняя...

0 Ответы

19 Просмотры

Последнее сообщение Anonymous
21 янв 2025, 20:10

Вернуться в «Python»

Programmiererforum