Код: Выделить всё
struct C_AoS {
double comp1, comp2;
};
struct ElementAoSstruct {
C_AoS *firstVector;
C_AoS *secondVector;
};
Код: Выделить всё
ElementAoSstruct *ElementAoS = (ElementAoSstruct*) malloc(sizeof(ElementAoSstruct) * n_Elements);
for (size_t i = 0; i < n_Elements; ++i) {
ElementAoS[i].firstVector = (C_AoS*) malloc(sizeof(C_AoS) * nDof * 2);
ElementAoS[i].secondVector = &ElementAoS->firstVector[nDof];
for (size_t j = 0; j < nDof * sizeof(C_AoS) / sizeof(double); j++) { ((double *) ElementAoS[i].firstVector)[j] = j; }
for (size_t j = 0; j < nDof * sizeof(C_AoS) / sizeof(double); j++) { ((double *) ElementAoS[i].secondVector)[j] = j+0.2; }
}
Теперь я хочу изменить шаблон доступа к элементу [someindex]. Firstvector (oreverIndex) .comp1
И это фактически работает. Однако, если я сравню производительность обеих версий, я получаю около 20-30 % производительности с версией перегрузки оператора. Это полный код, который я использую для измерения производительности: < /p>
#include
#include
#include
struct C_AoS {
double comp1, comp2;
};
struct ElementAoSstruct {
C_AoS *firstVector;
C_AoS *secondVector;
};
struct AoS_Container {
C_AoS *_buffer;
__attribute__((always_inline)) C_AoS& operator()(size_t index) const {
return _buffer[index];
}
};
struct Element_AoS_OperatorOverload {
AoS_Container firstVector;
AoS_Container secondVector;
};
void printTime(std::string text, std::chrono::time_point start, std::chrono::time_point end) {
const std::chrono::duration elapsedTime( end - start );
const double seconds( elapsedTime.count() );
std::cout
Я знаю, что это не вина перегрузки оператора. Если я позвоню в SomeKernal с elementAos_operatorOverload .firstvector._buffer [/code] и второй вектор соответственно, я бы получил тот же штраф за производительность. Таким образом, штраф за производительность может быть вызвана слоем между ними, однако, поскольку я должен сделать оператор перегрузки в этом слое, которого я не вижу, чтобы избавиться от него. Видите ли вы какие -либо шансы изменить шаблон доступа к одному со скобками и при этом иметь одинаковое время выполнения?>
Подробнее здесь: https://stackoverflow.com/questions/783 ... ance-loose
Мобильная версия