Study/Computer System

[Intel Sapphire Rapids] AMX

와와치 2023. 5. 8. 19:27

 

SPR(Sapphire Rapids) 9462 기준 Computation Power 계산

Total Cores: 32 (= #of AMX) (=4Tiles * 8Cores/Tile) [1]

Base frequency: 2.7Ghz [1]

AMX computation power 2048 operation/cycle [2, 3]

 

SPR Computation Power : 32 * 2048 Ops/cycle * 2.7Ghz = 176.9 TOPS 


[1] SPR(Sapphire Rapids) 9462 (Wikipedia link)

 

[2] AMX Wikipedia Link

https://en.wikipedia.org/wiki/Advanced_Matrix_Extensions

 

[3] Accelerate Artificial Intelligence (AI) Workloads with Intel Advanced Matrix Extensions (Intel AMX) Link

 

 

 


그 외 자료

Intel advances AI capabilities with 4th Gen Intel® Xeon® Scalable processors and Intel AMX, delivering 3x to 10x higher inference and training performance versus the previous generation.

 

 

AMX inference/training 모두 지원.

Flexible use for AMX instruction set과 Processor ISA.

 

AMX architecture

 

Tile consist of eight two-dimensional registers, each 1KB in size.

Tile Matrix Multiplication(TMUL) is an accelerator engine attached to the tiles. (how many TMUL, what is the computation power of it)

INT8 for inference and BF16 which is a data type that delivers sufficientaccuracy for most trainig datatype support.

2048 INT8 operations per cycle. 

1024 BF16 operation per cycle.

Clock cycle은 base 1.9Ghz and boost 3.3Ghz w/ 420W 라고 함. (https://www.tomshardware.com/news/intel-sapphire-rapids-56-core-es-cpu-hits-33-ghz-at-420w)

 

Computation power per one AMX

INT8 3.89TOPS

BF16 1.94TOPS

 

AMX가 Sapphire rapids 하나의 chiplet안에 존재하는 것인지, 모두 합친 것인지 정확한 자료는 없으나, 하나에 해당한다는 합리적인 생각. 그렇다면 computational power for 1 sapphire rapids는 x4 해야함.

 

Computation power per one Sapphire rapids

INT8 15.56TOPS

BF16 7.76TOPS

 

 

 

그러니까, AVX 512에서는 FP32를 채택했다가, AMX에서는 FP32를 버리고, BF16을 가져온 것이 맞나? 아니면 둘다 지원하는 것인가?

좀 애매함. INT8은 그러면 AVC에서도 지원하고 AMX에서도 지원하나? 아키텍처는 하나고 ISA를 AVX/AMX 둘다 지원하는 것 같음. 그렇다면 AVC FP32 ISA는 어떻게 지원하는 지? approximate to BF16?