Почему размещение новое гораздо быстрее, чем прямое задание? - Цифровое Кемерово

Почему размещение новое гораздо быстрее, чем прямое задание? ⇐ C++

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Почему размещение новое гораздо быстрее, чем прямое задание?

Цитата

Сообщение Anonymous » 05 июн 2025, 15:15

Недавно я выяснил, что использование новое размещение быстрее, чем выполнение 16 назначений:

Рассмотрим следующий кусок кода (C ++ 11): < /p>
class Matrix
{
public:
double data[16];

Matrix() : data{ 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1 }
{
};

void Identity1()
{
new (this) Matrix();
};

void Identity2()
{
data[0] = 1.0; data[1] = 0.0; data[2] = 0.0; data[3] = 0.0;
data[4] = 0.0; data[5] = 1.0; data[6] = 0.0; data[7] = 0.0;
data[8] = 0.0; data[9] = 0.0; data[10] = 1.0; data[11] = 0.0;
data[12] = 0.0; data[13] = 0.0; data[14] = 0.0; data[15] = 1.0;
};
};
< /code>
Использование: < /p>
Matrix m;
//modify m.data

m.Identity1(); //~25 times faster
m.Identity2();

На моей машине Identity1 () примерно в 25 раз быстрее, чем вторая функция. А теперь мне любопытно, почему есть такая большая разница?void Identity3()
{
memset(data, 0, sizeof(double) * 16);
data[0] = 1.0;
data[5] = 1.0;
data[10] = 1.0;
data[15] = 1.0;
};
< /code>
Но это даже медленнее, чем Identity2 () < /code>, и я не могу представить, почему. < /p>

Информация о профилировании < /h2>
Я сделал несколько тестирования профилирования, чтобы увидеть, является ли это проблемой, связанной с профилированием, так что есть неверные тестирование, но также не тестируют, но также не тестируются, но и тестирование, но и тестирование. /> Метод профилирования 1: (хорошо известный тест цикла) < /p>
struct timespec ts1;
struct timespec ts2;

clock_gettime(CLOCK_MONOTONIC, &ts1);

for (volatile int i = 0; i < 10000000; i++)
m.Identity(); //use 1 or 2 here

clock_gettime(CLOCK_MONOTONIC, &ts2);

int64_t start = (int64_t)ts1.tv_sec * 1000000000 + (int64_t)ts1.tv_nsec;
int64_t elapsed = ((int64_t)ts2.tv_sec * 1000000000 + (int64_t)ts2.tv_nsec) - start;

if (elapsed < 0)
elapsed += (int64_t)0x100000 * 1000000000;

printf("elapsed nanos: %ld\n", elapsed);
< /code>
Метод 2: < /p>
$ valgrind --tool=callgrind ./testcase

$ # for better overview:
$ python2 gprof2dot.py -f callgrind.out.22028 -e 0.0 -n 0.0 | dot -Tpng -o tree.png
< /code>

Информация об сборке < /h2>
Как пользователь T.C. Указано в комментариях, это может быть полезно: < /p>
код на gcc.godbolt.org < /p>

компиляция и информация о машине < /h2>

Скомтилирован с: g ++ -st = c ++ 11- -Wall
-pg не проблема. Получил одинаковую дифференциацию времени в методе измерения 1 без использования этого флага. < /P>
< /blockquote>
Machine info (lscpu):

Architecture: x86_64
CPU op-mode(s): 32-bit, 64-bit
Byte Order: Little Endian
CPU(s): 8
On-line CPU(s) list: 0-7
Thread(s) per core: 2
Core(s) per socket: 4
Socket(s): 1
NUMA node(s): 1
Vendor ID: GenuineIntel
CPU family: 6
Model: 58
Model name: Intel(R) Core(TM) i7-3612QM CPU @ 2.10GHz
Stepping: 9
CPU MHz: 2889.878
CPU max MHz: 3100.0000
CPU min MHz: 1200.0000
BogoMIPS: 4192.97
Virtualization: VT-x
L1d cache: 32K
L1i cache: 32K
L2 cache: 256K
L3 cache: 6144K
NUMA node0 CPU(s): 0-7

Подробнее здесь: https://stackoverflow.com/questions/322 ... assignment

Реклама

1749125710

Anonymous

 Недавно я выяснил, что использование новое размещение быстрее, чем выполнение 16 назначений:

Рассмотрим следующий кусок кода (C ++ 11): < /p>
class Matrix
{
public:
double data[16];

Matrix() : data{ 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1 }
{
};

void Identity1()
{
new (this) Matrix();
};

void Identity2()
{
data[0]  = 1.0; data[1]  = 0.0; data[2]  = 0.0; data[3]  = 0.0;
data[4]  = 0.0; data[5]  = 1.0; data[6]  = 0.0; data[7]  = 0.0;
data[8]  = 0.0; data[9]  = 0.0; data[10] = 1.0; data[11] = 0.0;
data[12] = 0.0; data[13] = 0.0; data[14] = 0.0; data[15] = 1.0;
};
};
< /code>
Использование: < /p>
Matrix m;
//modify m.data

m.Identity1(); //~25 times faster
m.Identity2();

На моей машине Identity1 ()  примерно в 25 раз быстрее, чем вторая функция. А теперь мне любопытно, почему есть такая большая разница?void Identity3()
{
memset(data, 0, sizeof(double) * 16);
data[0] = 1.0;
data[5] = 1.0;
data[10] = 1.0;
data[15] = 1.0;
};
< /code>
Но это даже медленнее, чем Identity2 () < /code>, и я не могу представить, почему. < /p>

 Информация о профилировании < /h2>
Я сделал несколько тестирования профилирования, чтобы увидеть, является ли это проблемой, связанной с профилированием, так что есть неверные тестирование, но также не тестируют, но также не тестируются, но и тестирование, но и тестирование. />  Метод профилирования 1: (хорошо известный тест цикла) < /p>
struct timespec ts1;
struct timespec ts2;

clock_gettime(CLOCK_MONOTONIC, &ts1);

for (volatile int i = 0; i < 10000000; i++)
m.Identity(); //use 1 or 2 here

clock_gettime(CLOCK_MONOTONIC, &ts2);

int64_t start = (int64_t)ts1.tv_sec * 1000000000 + (int64_t)ts1.tv_nsec;
int64_t elapsed = ((int64_t)ts2.tv_sec * 1000000000 + (int64_t)ts2.tv_nsec) - start;

if (elapsed < 0)
elapsed += (int64_t)0x100000 * 1000000000;

printf("elapsed nanos: %ld\n", elapsed);
< /code>
Метод 2: < /p>
$ valgrind --tool=callgrind ./testcase

$ # for better overview:
$ python2 gprof2dot.py -f callgrind.out.22028 -e 0.0 -n 0.0 | dot -Tpng -o tree.png
< /code>

 Информация об сборке < /h2>
Как пользователь T.C. Указано в комментариях, это может быть полезно: < /p>
код на gcc.godbolt.org < /p>

 компиляция и информация о машине < /h2>

Скомтилирован с: g ++ -st = c ++ 11- -Wall  
-pg не проблема. Получил одинаковую дифференциацию времени в методе измерения 1 без использования этого флага. < /P>
< /blockquote>
Machine info (lscpu):

Architecture:          x86_64
CPU op-mode(s):        32-bit, 64-bit
Byte Order:            Little Endian
CPU(s):                8
On-line CPU(s) list:   0-7
Thread(s) per core:    2
Core(s) per socket:    4
Socket(s):             1
NUMA node(s):          1
Vendor ID:             GenuineIntel
CPU family:            6
Model:                 58
Model name:            Intel(R) Core(TM) i7-3612QM CPU @ 2.10GHz
Stepping:              9
CPU MHz:               2889.878
CPU max MHz:           3100.0000
CPU min MHz:           1200.0000
BogoMIPS:              4192.97
Virtualization:        VT-x
L1d cache:             32K
L1i cache:             32K
L2 cache:              256K
L3 cache:              6144K
NUMA node0 CPU(s):     0-7
 

Подробнее здесь: [url]https://stackoverflow.com/questions/32223377/why-is-a-placement-new-much-faster-than-a-direct-assignment[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Почему размещение новое гораздо быстрее, чем прямое задание?

Последнее сообщение Anonymous « 05 июн 2025, 19:07
Добавлено в форуме C++

Anonymous » 05 июн 2025, 19:07 » в форуме C++

Недавно я выяснил, что использование новое размещение быстрее, чем выполнение 16 назначений:

Рассмотрим следующий кусок кода (C ++ 11):
class Matrix
{
public:
double data ;

Matrix() : data{ 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1 }
{
};...

0 Ответы

2 Просмотры

Последнее сообщение Anonymous
05 июн 2025, 19:07
Веб -сайт, который я пытаюсь соскребить доходность гораздо быстрее отклика для сценария Python по сравнению со сценарием

Последнее сообщение Anonymous « 09 сен 2025, 14:00
Добавлено в форуме Python

Anonymous » 09 сен 2025, 14:00 » в форуме Python

Я пытался соскрести этот сайт с помощью node.js, но ответ слишком медленный, чтобы завершить, что в среднем занимает более минуты.import fetch from node-fetch ;

const url =

console.log( Fetching the website );
const res = await fetch(url);...

0 Ответы

1 Просмотры

Последнее сообщение Anonymous
09 сен 2025, 14:00
Неудачное копирование ввода тензора с/задание: localhost/replica: 0/Задача: 0/Устройство: ЦП: от 0 до/задание: localhost

Последнее сообщение Anonymous « 18 июл 2025, 10:01
Добавлено в форуме Python

Anonymous » 18 июл 2025, 10:01 » в форуме Python

У меня есть класс AutoEncoder, где я пытаюсь питать number_test_data с формой (2933314, 600) к кодирующему. Я получаю неудачный копирование ввода тензора от/задание: localhost/replica: 0/задача: 0/устройство: ЦП: от 0 до/задание: localhost/replica:...

0 Ответы

8 Просмотры

Последнее сообщение Anonymous
18 июл 2025, 10:01
Получение более быстрых выводов тем быстрее, чем быстрее я вызываю функцию

Последнее сообщение Гость « 13 окт 2023, 22:38
Добавлено в форуме Python

Гость » 13 окт 2023, 22:38 » в форуме Python

Я использую PyTorch для быстрого вывода изображения. Я заметил (и это скорее проблема измерения Python): чем быстрее я пропускаю изображения через свой конвейер, тем быстрее в среднем происходит каждый вывод.

Ниже опубликован код и то, как я...

0 Ответы

139 Просмотры

Последнее сообщение Гость
13 окт 2023, 22:38
Прямое объявление перечисления в заголовках C, используемых в коде C++.

Последнее сообщение Гость « 20 сен 2023, 16:06
Добавлено в форуме C++

Гость » 20 сен 2023, 16:06 » в форуме C++

Вы не можете пересылать объявление перечисления в C++, но можете в C.

Для базы кода C, в которой используется некоторый код C++, есть ли способ использовать перечисление, объявленное вперед в C, которое не вызывает ошибок, когда этот заголовок...

0 Ответы

33 Просмотры

Последнее сообщение Гость
20 сен 2023, 16:06

Вернуться в «C++»

Programmiererforum