Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Александр Белокрылов, Дмитрий Чуйко — Дорогая, ...

Moscow JUG
February 14, 2019

Александр Белокрылов, Дмитрий Чуйко — Дорогая, попробуем Arm?

Возможно, вы не знаете, но прямо сейчас происходит революция, и, похоже, гегемону придется поделиться своей властью. Можете ли вы предположить, что лучший CPU для вашего серверного приложения уже не x86?

«Это вообще законно? И при чём тут Java?» — спросите вы.

Процессоры ARM традиционно использовались для встроенных систем. А теперь сразу несколько производителей CPU бросают вызов Intel в сегменте железа для облаков и HPC. И на их ARM-тачках работает Java, a также всё, что есть в экосистеме. Серверные процессоры с архитектурой ARM64 — это горы быстрой памяти, десятки быстрых ядер, сотни нитей и здоровенные кластеры. Закономерно встаёт ряд вопросов:
- а действительно ли оно работает, и почему так быстро?
- когда же это работает действительно хорошо, и что можно оптимизировать для более эффективного использования ARM-серверов?

Из этого доклада вы узнаете о том, как эволюционировала экосистема Java на ARM, а также о фичах ARM-порта OpenJDK и о производительности некоторых рабочих нагрузок. Мы расскажем, как из порта AARCH64 за два года стала вырисовываться конфетка. А на подходе уже новое железо и Java 12.

Moscow JUG

February 14, 2019
Tweet

More Decks by Moscow JUG

Other Decks in Programming

Transcript

  1. 2 WWW.BELL-SW.COM Что мы знаем об Arm? • Arm =

    Advanced RISC Machines • основана в 1990 году • Англия, Кембридж • ARM = RISC архитектура • 30 миллиардов процессоров 2013 • Планирует продать 100 миллиардов процессоров к 2020
  2. 10 WWW.BELL-SW.COM Arm: архитектура, профайл и имплементация Timeline Performance &

    capabilities Cortex-M3 Cortex-M1 Cortex-M0 Cortex-M0+ Cortex-M4 Cortex-R4 Cortex-R5 Cortex-R7 Cortex-A8 Cortex-A5 Cortex-A7 Cortex-A53 Cortex-A57 Cortex-A15 Cortex-A9 • ARM v7 • Architecture profiles • v7-M (Embedded) • V7-R (Real-Time) • V7-A (Application) • ARM v8 • Architecture profiles • v8-M (Embedded) • V8-R (Real-Time) • V8-A (Application) Cortex-R52
  3. 11 WWW.BELL-SW.COM Arm: big.LITTLE Cache Coherent Interconnect Interrupt Control CP

    U CP U L2 Cache Cortex-A57 CPU L2 Cache Cortex-A53 CPU BIG LITTLE Performance on-demand Always connected
  4. 13 WWW.BELL-SW.COM OpenJDK Arm32 port • Available since OpenJDK 9

    • Minimal VM, Client VM, Server VM • Works on the Raspberry Pi • jlink + jdeps • Allows to create a smaller runtime (as small as 16 Mb) • Java FX Embedded • Allows to build fancy UI for the Raspberry Pi • EGL/DFB acceleration • Touch screen support
  5. 14 WWW.BELL-SW.COM Minimal VM • Optimized for footprint, rather than

    functionality • Serial GC • C1 JIT compiler • No JDWP support • No JMX support • But… it is < 4 Mb! • Linux x86_64 Server VM: 23 Mb • jlink @since jdk9 • java.base with Minimal VM under 16 Mb! • Modules for jetty: under 32 Mb
  6. 15 WWW.BELL-SW.COM ARMv8-A Specification ARMv8-A - 64 & 32-bit -

    31 GPRs - SIMD (NEON) - AES, SHA ARMv8.1-A - New Atomics - CRC32 ARMv8.2-A - Optional SVE (128-2048 bits) - Dot Product SIMD - Half-precision FP ARMv8.3-A - Complex FP SIMD - Nested virtualization ARMv8.4-A - SHA3, 512 - SM3, 4 Dec 2011 Jan 2014 Jan 2016 Oct 2016 2018
  7. 16 WWW.BELL-SW.COM Ampere Computing (ex APM) Up to 32 cores

    Up to 32 threads 8 DDR Channels 32 Mb L3
  8. 17 WWW.BELL-SW.COM Cavium/Marvell ThunderX2 32 cores/128 threads 32 Mb L3

    8 DDR Channels/socket Multi-socket Up to 4 TB RAM
  9. 21 WWW.BELL-SW.COM OpenJDK ARM ports • ARM – 32 bit

    / “64 bit” • ARM v6 • ARM v7 • ARM v8 • AARCH64 – 64 bit only
  10. 22 WWW.BELL-SW.COM Intrinsics Intrinsic: “function (subroutine) available for use in

    a given programming language which implementation is handled specially by the compiler.”
  11. 23 WWW.BELL-SW.COM Intrinsics • GCC/LLVM – Обертки над вызовами libc

    – Специализированные инструкции не выражаемые посредством языка • два типа HotSpot intrinsics – Stub – ассемблерные или нативные вставки • Обычно универсальны (C1/C2/Interpreter) • Код аллоцируется один раз • Стоимость вызова не 0 – Манипулирование с C2 IR • Обычно вызов специализированной ASM инструкции для данной архитектуры
  12. 24 WWW.BELL-SW.COM Что сделает C2 из математического кода на Java?

    java.lang.Math: /** * Returns as a {@code long} the most significant 64 bits of the 128-bit * product of two 64-bit factors. * @since 9 */ public static long multiplyHigh(long x, long y) { // Use technique from section 8-2 of Henry S. Warren, Jr., // Hacker's Delight (2nd ed.) (Addison Wesley, 2013), 173-174. ... // Use Karatsuba technique with two base 2^32 digits. ... return ...; }
  13. 25 WWW.BELL-SW.COM Что сделает C2 из математического кода на Java?

    public static long multiplyHigh(long x, long y) { if (x < 0 || y < 0) { long x1 = x >> 32; long x2 = x & 0xFFFFFFFFL; long y1 = y >> 32; long y2 = y & 0xFFFFFFFFL; long z2 = x2 * y2; long t = x1 * y2 + (z2 >>> 32); long z1 = t & 0xFFFFFFFFL; long z0 = t >> 32; z1 += x2 * y1; return x1 * y1 + z0 + (z1 >> 32); } else { … } }
  14. 27 WWW.BELL-SW.COM Может, можно быстрее? • Переписать на С +

    JNI call • Будет медленнее • Научить HotSpot оптимизировать IR этого кода* • Даже если получится, будут регрессии • Научить HotSpot распознавать этот метод и подставлять вместо него оптимальный код SMULH Xd, Xn, Xm “Signed multiply high”
  15. 28 WWW.BELL-SW.COM C2 Intrinsic How-to 1) Добавляем инструкцию SMULH в

    ${arch}/assembler_${arch}.hpp 2) Описываем ноду с инструкцией и ее стоимостью в ${arch}.ad 3) Помечаем в share/classfile/vmSymbols.hpp метод как intrinsic 4) Подстановка в IR с инлайнингом bool LibraryCallKit::inline_math_multiplyHigh() { set_result(_gvn.transform(new MulHiLNode(arg (0), arg (2)))); return true; } 5) Аннотируем j.l.Math.multiplyHigh() @HotSpotIntrinsicCandidate 6) Измеряем производительность
  16. 29 WWW.BELL-SW.COM Benchmarking (take 2, throughput) public class MultiplyHighBench {

    @Benchmark @OperationsPerInvocation(10000) public long bench() { long op = System.currentTimeMillis(); long accum = 0; for (int i = 0; i < 10000; i++) { accum += Math.multiplyHigh(op + i, op + i); } return accum; } } Good for JDK 11! SMULH cost: 4
  17. 30 WWW.BELL-SW.COM Польза для народного хозяйства • Что делает JVM

    при исполнении усредненной Enterprise программы? – Создает, копирует объекты, строки, массивы, освобождает память – Ищет или сравнивает объекты, строки, массивы – Проверяет что получена или отправлена верная информация
  18. 31 WWW.BELL-SW.COM String s = new String(“Can this work faster?”);

    • Compact Strings @since JDK 9 – подавляющее большинство строк не требуют UTF-16 для хранения – Внутреннее представление строк: • char[] -> byte[], coder • Либо ISO-8859-1/Latin-1 • Либо UTF-16 если требуется S t r i n g С т р о к а
  19. 32 WWW.BELL-SW.COM 1001 Heap Dump • Лог-нормальное распределение • <

    0.3% всех строк не Latin-1 • 18% строк < 8 символов • 66% строк < 32 символов • 95% строк < 128 символов Изменения не должны сделать хуже этому датасету 0 0,01 0,02 0,03 0,04 0,05 0,06 0 10 20 30 40 50 60 70 80 90 100 110 120 Вероятность встретить строку с заданной длиной Длина строк
  20. 33 WWW.BELL-SW.COM String s = new String(“Can this work faster?”);

    new String(…) StringDecoder.decode() decodeASCII() decodeLatin1() decodeUTF8() StringCoding.decode() hasNegatives() if (!hasNegatives()){ //ascii fastpath }
  21. 34 WWW.BELL-SW.COM StringCoding.hasNegatives() @HotSpotIntrinsicCandidate public static boolean hasNegatives(byte[] ba, int

    off, int len) { for (int i = off; i < off + len; i++) { if (ba[i] < 0) { return true; } } return false; }
  22. 35 WWW.BELL-SW.COM Немного ассемблера ARM – чтение из памяти Register

    Width (bits) Latency (cycles) LDRB GPR 8 4 LDRH GPR 16 4 LDR GPR 32 or 64 4 LDP GPR 64+64 5
  23. 38 WWW.BELL-SW.COM И сравнивать 8 байт за раз c 0

    const uint64_t UPPER_BIT_MASK=0x8080808080808080; ... __ tst(rscratch2, UPPER_BIT_MASK); for(int i = off; i < off + len; i++) { if (ba[i] < 0) { return true; } }
  24. 39 WWW.BELL-SW.COM Выровнять чтение из памяти x86: - в большинстве

    случаев на современных процессорах нет штрафа на unaligned memory access ARM это спецификация: - у одних производителей CPU нет штрафа - у других есть (20%, 50%, 100%)
  25. 40 WWW.BELL-SW.COM Выровнять чтение из памяти LDP LDR // pre-loop

    __ ldp(); … __ tst(…, UPPER_BIT_MASK); // main loop __ ldr(); //aligned … __ tst(…, UPPER_BIT_MASK);
  26. 41 WWW.BELL-SW.COM Итак, наш коварный план • Читать как можно

    больше байт за раз, не выходя за пределы страницы • Если близко край страницы • Читать меньше байт • Сдвигать чтение влево • Сравнивать как можно больше бит за раз • Выровнять чтение из памяти • Реальность • Код получается слишком большой – 200 инструкций • Это мешает инлайнингу • C2 инлайнит до 1500 инструкций
  27. 44 WWW.BELL-SW.COM Код слишком большой – что делать? if (len

    > 32) return stubHasNegatives(ba, 0, len); for (int i = 0; i < 32; i++) { if (ba[i] < 0) { // ldr, tst return true; } } return stubHasNegatives(ba, 32, len); // ldp, tst • Псевдокод ARM ASM на Java, который меньше исходного (27 инструкций) • не оптимальный, unaligned, но короткий • Весь остальной код – в stub
  28. 45 WWW.BELL-SW.COM Что такое stub? • Еще один тип ассемблерных

    вставок в HotSpot • Ближайшая аналогия – метод • Его можно вызывать из macroAssembler • Код подгружается в момент старта JVM один раз • Не инлайнится • Возможны несколько точек входа • Стоимость вызова stub не 0
  29. 46 WWW.BELL-SW.COM А что в stub? // align memory access

    __ bind(LARGE_LOOP); // 64 byte at a time 4x __ ldp(); //ary1, ary1+16, ary1+32, ary1+48 __ add(ary1, ary1, large_loop_size); __ sub(len, len, large_loop_size); 7x __ orr(…); __ tst(tmp2, UPPER_BIT_MASK); __ br(Assembler::NE, RET_TRUE); __ cmp(len, large_loop_size); __ br(Assembler::GE, LARGE_LOOP); ОК, мы помогли C2. Процессор тоже не всегда молодец. Поможем ему?
  30. 47 WWW.BELL-SW.COM Software Prefetching Подскажем процессору, откуда мы будем читать

    из памяти в следующий раз: __ prfm(Address(ary1, SoftwarePrefetchHintDistance)); // do local register or operations on data in cache __ ldp(); • Можно очень много выиграть в производительности если • Есть операции, которые процессор может выполнять пока идет загрузка (обычно цикл) • Правильно определить SoftwarePrefetchHintDistance: > d_cache
  31. 48 WWW.BELL-SW.COM Бенчмарк для new String() – много символов 0

    1 2 3 4 5 6 Ускорение по сравнению с C2, разы Количество символов 2 8 16 32 256 1024 16384 Хорошие новости: - ускорение в 5-6 раз - вроде не видно регрессий Действительно ли нет регрессий?
  32. 49 WWW.BELL-SW.COM 1 1,2 1,4 1,6 1,8 2 2,2 2,4

    2,6 2,8 3 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 Improvement over C2, times Бенчмарк для new String() – результат
  33. 50 WWW.BELL-SW.COM Бенчмарк для new String() – результат 1 1,5

    2 2,5 3 0 0,01 0,02 0,03 0,04 0,05 0,06 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 Length Probability Improvement over C2, times
  34. 51 WWW.BELL-SW.COM Let’s have a JEP, darling! • JEP 315:

    Improve Aarch64 Intrinsics – Integrated in JDK 11 – java.lang.String.new String() – java.lang.String.compareTo() – java.lang.StringUTF16.compress() – java.lang.StringLatin1.inflate() – java.lang.String.indexOf() – java.util.zip.CRC32.update() – java.utils.Arrays.equals() – java.lang.Math.log() – java.lang.Math.sin() – java.lang.Math.cos()
  35. 52 WWW.BELL-SW.COM Улучшение производительности • В микробенчмарках улучшение производительности -

    до 78x • Ускорилась работа Hadoop и Java “Enterprise” задач (XML, data decoding/encoding) * Среднее улучшение производительности по разным размерам, длинам, кодировкам 1 1,5 2 2,5 3 3,5 java.lang.Math.log() java.lang.Math.sin() java.lang.Math.cos() java.lang.String.new String() java.lang.String.compareTo() java.lang.StringUTF16.compress() java.lang.StringLatin1.inflate() java.lang.String.indexOf() java.util.zip.CRC32.update() java.utils.Arrays.equals() Среднее улучшение производительности*, раз
  36. 53 WWW.BELL-SW.COM JVM Benchmark #1 results 0 10000 20000 30000

    40000 50000 60000 70000 Max-jOPS Critical-jOPS SPECjbb2015 score (jOPS) Xeon Gold 6140 ThunderX2 CN9975 ARMv8: -Xmx24G -Xms24G -Xmn16G -XX:+AlwaysPreTouch -XX:+UseParallelGC -XX:+UseTransparentHugePages -XX:-UseBiasedLocking X86: -Xmx24G -Xms24G -Xmn16G -XX:+AlwaysPreTouch -XX:+UseParallelGC -XX:+UseTransparentHugePages -XX:+UseBiasedLocking • OpenJDK 11 • Average over 20 runs • JEP 315 in JDK 11 • TX2 outperforms Xeon 6140 – by 33% in Max-jOPS score – by 16% in Critical-jOPS score
  37. 54 WWW.BELL-SW.COM JVM Benchmark #2 results • LibericaJDK 11 •

    Настройки JVM по-умолчанию • Среднее за 20 запусков • TX2 outperforms Xeon 6140 – by 62% in Crypto – by 42% in MpegAudio – By 29% in XML – by 12% in Compress • Xeon 6140 outperforms TX2 – By 29% in scimark.small 0 500 1000 1500 2000 2500 3000 3500 composite compress crypto derby mpegaudio scimark.large scimark.small serial sunflow xml SPECjvm2008 score (ops/m) Xeon Gold 6140 ThunderX2 CN9975
  38. 58 WWW.BELL-SW.COM Выводы • Производители Arm серверов проделали большую работу

    • ARM сервера доступны у крупных клауд провайдеров • Ubuntu, Red Hat, Oracle Linux, SuSE поддерживают ARMv8 • OpenJDK 11 оптимизирован для ARMv8