< SIZE/32; ++i) { __m256i va = _mm256_load_si256((__m256i*)(A+32*i)); __m256i vb = _mm256_load_si256((__m256i*)(B+32*i)); __m256i mask = _mm256_cmpgt_epi8(va, vb); va = _mm256_and_si256(va, mask); __m256i vc = _mm256_load_si256((__m256i*)(C+32*i)); vc = _mm256_add_epi8(vc, va); _mm256_store_si256((__m256i*)(C+32*i), vc); }