인텔, 메테오 레이크 아키텍처 공개: AI, 타일, 그리고 인텔 코어 CPU의 미래 : 클리앙

안녕하십니까!! 심심해❤️입니다.

번역기(DeepL)로 인한 오역이 있을 수 있습니다.

메테오 레이크 아키텍처 공개: AI, 타일, 그리고 인텔 코어 CPU의 미래

인텔 메테오 레이크 아키텍처 심층 분석: 모두를 위한 타일, 새로운 코어 및 AI

모바일 PC를 위한 인텔의 Meteor Lake 아키텍처가 곧 출시될 예정이며, Meteor Lake가 인텔의 설계 및 제조 접근 방식에서 가장 중요한 변화라고 말하는 것은 과소평가일 수 있습니다. 실제로 인텔은 지난 40년 동안 가장 큰 아키텍처 변화라고 불렀으며, 향후 10년 동안 디자인에 영향을 미칠 것입니다.

LINK

인텔은 Meteor Lake의 네 가지 핵심 요소를 설명했습니다. 첫째, 회사 역사상 가장 전력 효율이 높은 클라이언트 프로세서로 설계되었습니다. 둘째, 대규모 전용 AI 엔진을 제공하는 인텔 최초의 소비자 CPU가 될 것입니다. 셋째, 인텔은 전력 효율성과 함께 그래픽 성능의 비약적인 향상을 목표로 하고 있습니다. 마지막으로, 적어도 부분적으로는 인텔 4 프로세스의 데뷔작이 될 것입니다.

인텔, 메테오 레이크와 함께 분리에 베팅하다

LINK

메네오 레이크는 인텔 최초의 진정한 의미의 분리형 소비자 칩으로, 그 개발은 쉽지 않았습니다. 비분할이란 하나의 모놀리식 다이에 CPU 코어, 통합 GPU, I/O 기능 및 기타 비코어 '요소'를 수용하는 대신 다양한 엔진을 인텔이 타일이라고 부르는 여러 개의 칩으로 분할하는 것을 의미합니다.

이는 여러 가지 이유로 매력적인 접근 방식입니다. 금형은 경제적으로나 물리적으로 실현 가능한 범위 내에서만 크게 만들 수 있습니다. 현재 공정은 리소그래피 에칭 중 레티클 크기에 의해 제한되지만, 이러한 (다소) 엄격한 제한보다 고려해야 할 사항이 더 많습니다. 다이가 클수록 원형 300mm 웨이퍼의 가장자리 주변에 "낭비되는" 공간이 많아질 뿐만 아니라 결함이 발생할 가능성도 높아져 수율에 직접적인 부정적인 영향을 미칩니다. 칩이 작아지면 제조업체는 각 웨이퍼에서 더 많은 것을 추출하여 각 칩의 잠재적 가치를 극대화할 수 있습니다.

LINK

물론 디자인을 작은 조각으로 나누면 단점도 있습니다. 모든 것을 함께 패키징하는 것은 아무리 잘게 쪼개도 훨씬 더 복잡해집니다. 3D V-Cache는 잠시 접어두고, AMD는 프로세서를 위해 단일 PCB에 칩렛을 서로 배열하는 반면, 인텔은 Foveros 및 임베디드 멀티 다이 인터커넥트 브리지(EMIB) 기술을 사용하여 실리콘을 직접 쌓는 방식을 선택합니다. Foveros와 EMIB는 유사하지만 인텔이 몇 년 전부터 일부 제품에 사용하고 있는 고유한 고급 패키징 기술입니다.

LINK

EMIB는 2017년에 스트라틱스 10에 처음 등장했습니다. 이 기술은 필드 프로그래밍 가능 그리드 어레이(FPGA) 칩이었지만 대량 생산으로 발전하여 현재 사파이어 래피즈에서 사용하고 있습니다. EMIB는 55um 피치 인터커넥트를 사용하여 임베디드 실리콘 브리지 위에 다이를 장착합니다.

LINK

Foveros는 더 복잡한 액티브-온-액티브 "3D" 스태킹을 가능하게 합니다. 2020년 레이크필드와 함께 도입된 포베로스를 통해 인텔은 기본 다이 위에 PoP DRAM이 탑재된 컴퓨팅 다이를 레이어링한 후 패키지 기판에 장착할 수 있었습니다.

메테오 레이크의 타일 만나보기

LINK

Meteor Lake의 설계는 Foveros 3D 패키징 기술을 사용하여 조립된 베이스 타일 위에 4개의 타일을 사용합니다. 각각 컴퓨팅 타일, GPU 타일, SOC 타일, IO 타일로 구성되어 있으며, 각 타일의 핵심 기능에 대한 인사이트를 제공합니다. 하지만 여기에는 약간의 뉘앙스가 있으므로 더 자세히 알아보기 전에 각 타일의 높은 수준의 속성을 빠르게 살펴보겠습니다.

LINK

컴퓨팅 타일은 대부분의 프로세서 코어가 있는 곳입니다. 대부분이라고요? 곧 설명해드리겠습니다. 컴퓨팅 타일은 Alder Lake 및 Raptor Lake에서 익숙한 P코어와 E코어가 혼합되어 있으며, 일부 마이크로 아키텍처가 개선되었습니다. 컴퓨팅 타일은 인텔 4 프로세스 노드를 사용하여 구축되었으며 실제로 시스템에서 인텔이 직접 제작한 유일한 타일입니다.

LINK

다음은 GPU 타일입니다. 예상대로 여기에는 인텔의 아크 그래픽 아키텍처, 특히 Xe-LPG가 포함되어 있습니다. 이 아키텍처는 TSMC의 N5 공정에서 제작되었으며 12세대 Xe 그래픽에 비해 와트당 성능이 약 2배 향상되도록 설계되었습니다. 하지만 그래픽 타일에는 미디어 엔진이 포함되어 있지 않습니다. 미디어 엔진은 디스플레이 인터페이스와 함께 SOC 타일에 위치하도록 분리되었습니다.

LINK

SOC 타일은 두 개의 확장 가능한 패브릭에 걸쳐 다양한 기능이 있는 곳입니다. 북쪽에는 고성능 디바이스를 연결하는 네트워크 온 칩(NOC) 패브릭이 있고 남쪽에는 효율적인 PCIe 기반 IO 패브릭과 이 둘을 연결하는 IOC 브리지가 있습니다. 연결 및 미디어/디스플레이 엔진 외에도 NPU AI 엔진, 메모리 컨트롤러, 두 개의 특수 E-코어가 탑재되어 있습니다. IO 타일은 SOC 타일의 IO 패브릭을 확장하는 역할을 하며, 두 타일 모두 TSMC의 N6 프로세스를 사용하여 제작됩니다.

SOC 및 IO 타일 세부 정보

LINK

아키텍처에 대해 자세히 살펴보면서 SOC 타일부터 살펴보겠습니다. SOC 타일은 모든 것의 중심에 위치하며 컴퓨팅, 그래픽 및 IO 타일에 직접 연결됩니다. 사실상 이러한 연결은 기존의 모놀리식 다이 접근 방식에서 벗어나기 위해 "절단"이 이루어진 곳입니다. 잠시 뒤로 물러서서 SOC 아키텍처는 놀라울 정도로 복잡하며, 팹에서 시작된 프로세스와 새로운 노드를 늘리는 능력에 영향을 미칩니다. 이렇게 칩을 세분화하면 설계자가 IP에 적합한 제조 공정을 자유롭게 사용할 수 있습니다. 예를 들어, 세분화를 통해 미래 제품의 컴퓨팅 타일은 인텔 3 이상으로 빠르게 업그레이드할 수 있는 반면, 고급 프로세스 노드의 이점을 크게 누리지 못할 수 있는 SOC의 다른 부분은 더 느린 속도로 발전할 수 있습니다.

LINK

Meteor Lake의 아키텍처 변화와 설계 철학은 몇 가지 이니셔티브에 의해 주도되었습니다. 첫 번째는 고성능 디바이스의 요구 사항을 충족하기 위해 NOC 패브릭을 구현하는 동시에 IO 패브릭이 저전력 사용을 위한 효율적인 액세스를 제공하도록 하는 것이었습니다. IO 효율성을 개선하기 위해 인텔은 그래픽을 자체 타일로 옮겼지만 미디어 및 디스플레이 블록은 SOC 타일에 그대로 유지했습니다. 마지막으로, 전원 관리 시스템은 각 타일과 타일 내의 하위 시스템까지 제어할 수 있는 확장성이 필요했습니다. 예를 들어, 컴퓨팅 타일의 PMC는 사용 가능한 P- 및 E-코어 수에 따라 조정할 수 있는 반면, SOC 타일의 중앙 PMC는 컴퓨팅 타일 구성과 무관합니다.

LINK

"노스" NOC 패브릭은 컴퓨트 타일에서 그래픽 타일에 이르기까지 SOC 타일 전체에 걸쳐 캐시 일관된 정렬되지 않은 인터페이스입니다. SOC 타일 내에서는 메모리 컨트롤러, LP E-Core, NPU(신경 처리 장치), 미디어, 이미징, 디스플레이 엔진과 같은 고성능 디바이스를 연결합니다. 또한 지역 제어를 위한 로컬 전원 관리 장치(P-Unit)가 있어 효율성이 향상됩니다.

SOC에 LP E-코어가 포함된 것은 흥미로운 결정이며, 특히 Thread Director에 큰 영향을 미칩니다. 이 설계는 컴퓨팅 타일이 저전력 모드에 있거나 완전히 꺼져 있는 동안에도 이 코어 쌍이 활성 상태를 유지할 수 있도록 합니다. 그 결과 일반적인 사용 패턴에서 Meteor Lake의 효율성을 크게 향상시킬 수 있는 많은 잠재력이 생겼습니다.

LIN

"사우스" IO 패브릭은 정렬되어 있지만 비코히어런트 및 PCIe 기반입니다. 여기에는 Wi-Fi 및 Bluetooth, PCI Express 연결, 감지, USB 3/2, 이더넷, 전원 관리 컨트롤러(PMC) 및 보안 컨트롤러가 있습니다. 인텔은 기존의 컨버지드 보안 및 관리성 엔진(CSME)에서 실리콘 보안 엔진을 분리했습니다.

LINK

IO 타일은 IO 패브릭을 사용하여 추가 PCI Express 및 USB4/썬더볼트 연결을 제공합니다. IO 타일을 컴퓨트 타일과 나란히 배치한 것은 이 구성이 SOC의 표면적을 효과적으로 확장하여 외부 연결이 덜 혼잡하도록 하기 위한 의도적인 결정입니다.

LIN인텔 메테오 레이크 아키텍처 심층 분석: CPU 코어 세부 사항 및 스레드 디렉터 변경 사항

컴퓨트 타일 및 새로운 코어 uArch

LINK

실제 프로세서 코어는 일반적으로 이러한 아키텍처 심층 분석에서 가장 중요한 부분이지만, Meteor Lake는 플랫폼 전체에 큰 변화를 가져와 거의 부차적인 부분으로 밀려났습니다. 그럼에도 불구하고 여기에도 중요한 변화가 있습니다.

LINK

컴퓨팅 타일은 앨더 레이크에서 도입된 것처럼 P코어와 E코어가 결합된 하이브리드 설계를 사용합니다. 그러나 이제 이 두 코어가 SOC 타일에 상주하는 두 개의 저전력 E-코어와 결합되어 Arm이 DynamIQ 클러스터에 채택한 것과는 완전히 다른 세 가지 계층의 컴퓨팅 성능을 생성합니다.

LINK

레드우드 코브 P-코어는 성능 우선 워크로드를 위해 설계된 이 복합체에서 가장 강력한 성능을 발휘합니다. 레드우드 코브는 골든 코브(앨더 레이크 및 랩터 레이크)와 유사한 IPC를 제공하지만 더 큰 L2 캐시와 코어당 대역폭이 증가하여 많은 경우 성능에 도움이 됩니다.

LINK

새로운 크레스트몬트 E 코어는 효율적인 멀티스레드 처리량을 위해 배치되었습니다. 인텔은 그레이스몬트에 비해 4~6%의 소폭의 IPC 향상을 나타내지만, P-코어와 마찬가지로 몇 가지 다른 개선 사항도 제공합니다. 가장 주목할 만한 점은 크레스트몬트에는 이러한 프로세서가 AI 워크로드를 더 잘 처리할 수 있도록 VNNI 및 ISA가 크게 개선되었다는 점입니다. 또한 인텔 4 제조 공정을 사용함에 따라 컴퓨팅 타일의 P코어 및 E코어에 전력 및 주파수 이득이 있을 것입니다.

LINK

그리고 LP(또는 저전력 아일랜드) E코어가 있습니다. 컴퓨팅 타일에 포함되지는 않지만 여기서 자세히 설명하는 것이 더 합리적이라고 생각합니다. 이들은 컴퓨트 타일에 있는 것과 동일한 크레스트몬트 아키텍처를 가지고 있지만, SOC 시간에는 라스트 레벨 캐시와 고속 링 버스가 부족하다고 합니다. 이는 거의 사용량이 적은 백그라운드 작업에만 사용되는 용도로는 큰 의미가 없을 것으로 보입니다.

인텔 스레드 디렉터의 새로운 우선순위

LINK

스레드 디렉터는 운영 체제가 현재 서로 다른 종류의 코어 간에 작업을 보다 적절하게 예약할 수 있도록 돕기 위해 앨더 레이크에 도입되었습니다. 스레드 디렉터는 작업의 배치 위치를 지정하는 것이 아니라 OS 스케줄러에 힌트를 제공하는 역할을 합니다. QoS가 더 많이 필요한 작업은 P-코어에 할당되고, QoS가 낮은 작업은 E-코어에서 처리할 수 있습니다. 물론 필요한 경우 작업을 동적으로 재분류하고 이동할 수도 있습니다.

Meteor Lake는 작업의 우선순위를 다르게 지정합니다. 가능하면 LP E-Core에서 활성 프로세스를 억제하여 컴퓨팅 타일을 종료하여 전력을 절약할 수 있도록 합니다. 워크로드가 넘쳐나면 컴퓨팅 타일의 전원을 켜고 모든 스레드를 컴퓨팅 타일로 마이그레이션합니다. 다시 말하지만, 컴퓨팅 타일 E-코어만 사용하는 것으로 시작하여 더 높은 성능을 요구하는 프로세스가 있는 경우에만 P-코어를 사용합니다.

LINK

이것이 대기 시간을 유발할 수 있는 것처럼 보일 수 있지만, 스레드 디렉터는 다른 프로세스가 어떻게 실행되고 있는지에 대한 피드백도 P코어와 E코어로부터 받고 있습니다. 따라서 스레드 디렉터는 코어에서 제공하는 데이터에 따라 지속적이고 동적으로 분류되는 에너지 효율성 및 성능 요구 사항에 따라 각 프로세스의 점수가 매겨지는 피드백 테이블을 유지 관리하고 있습니다. OS 스케줄러는 피드백 테이블을 읽고 이를 사용하여 코어에 대한 작업 스케줄링에 영향을 미치지만 완전히 지시하지는 않습니다.

컴퓨팅 타일은 Meteor Lake의 모듈식 전원 관리 방식 덕분에 거의 즉각적으로 전원을 켜고 끌 수 있습니다. 즉, 예를 들어 마이그레이션이 완료되기 전에 워크로드가 완료될 것으로 예상되는 경우 스케줄러가 작업을 이동하지 않도록 선택하는 등, Thread Director는 작업이 실행될 것으로 예상되는 시간도 고려합니다.

LINK

인텔은 이 모든 것이 어떻게 작동하는지 더 잘 이해하기 위해 두 가지 스케줄링 시나리오를 안내해 주었습니다. 첫 번째 시나리오에서는 시스템이 P코어의 4개 스레드에서 사용률이 높은 포그라운드 앱을 실행하고 있으며, 사용률이 낮은 새로운 앱이 모두 컴퓨트 타일에 있는 E코어의 2개 스레드에서 실행되기 시작합니다. 사용률이 높은 앱은 작업을 완료했지만 사용률이 낮은 앱은 여전히 작동 중이므로 스케줄러는 해당 앱을 LP E-코어로 마이그레이션하고 전력을 절약하기 위해 컴퓨팅 타일을 종료합니다.

LINK

두 번째 예제에서는 LP E-Core의 두 스레드에서 실행되는 사용률이 낮은 앱만 있는 상태에서 시스템이 시작됩니다. 사용률이 높은 새로운 앱이 P-코어에서 4개의 스레드를 사용하면서 시작됩니다. 이제 컴퓨트 타일이 활성화되었으므로 스레드 디렉터가 업데이트되고 OS에 알림을 보내면 사용률이 낮은 앱이 LP E-코어에서 컴퓨트 타일 E-코어로 전송됩니다.

이 모든 것이 실제로 어떻게 작동하는지 매우 궁금합니다. 사용자 경험에 너무 자주 영향을 주지 않으면서 스레드를 LP E-코어에 성공적으로 배치할 수 있다면 이 접근 방식은 많은 전력을 절약할 수 있을 것입니다. 인텔은 비디오 재생과 같은 시나리오에서 미디어 및 디스플레이 엔진과 함께 LP E-코어가 컴퓨팅 타일로 넘어가지 않고도 시스템을 원활하게 실행할 수 있음을 보여주었습니다.

인텔 메테오 레이크 아키텍처 심층 분석: 새로운 미디어 엔진, 디스플레이 파이프라인 및 그래픽

미디어 및 디스플레이 엔진 개선 사항

LINK

그래픽 타일에 대해서는 잠시 후에 살펴보겠지만, 먼저 미디어 엔진과 디스플레이 엔진에 대한 몇 가지 주요 개선 사항을 살펴볼 필요가 있습니다.

LINK

미디어 엔진은 특정 코덱을 가속하기 위한 고정 기능 하드웨어로, 매우 효율적으로 작동할 수 있습니다. Meteor Lake의 구현은 디코딩과 인코딩 모두에서 AVC, HEVC 및 점점 인기를 얻고 있는 AV1을 지원하므로 콘텐츠 제작자에게 매우 만족스러울 것입니다. 어떤 범위까지 지원되는지에 대한 자세한 내용은 위 슬라이드에 자세히 나와 있습니다. 예를 들어 AV1 구현은 4:2:0 크로마 서브샘플링으로 10비트 심도를 제공하지만 HEVC는 필요한 경우 전체 10비트 4:4:4 크로마 서브샘플링을 제공할 수 있습니다.

LINK

미디어 엔진에는 각각 디코더와 인코더가 포함된 MFX 블록이 있습니다. 각 MFX 블록에는 비디오 스케일러와 색 공간 변환기가 있으며, 엔진은 비디오 인핸서, HDR 톤 매퍼, 베이어 프로세서를 공유합니다(예: 센서의 원시 이미지를 빨간색/파란색/녹색 하위 픽셀 그리드에서 디모자이크하기 위해).

LINK

디스플레이 엔진은 간과해서는 안 될 몇 가지 흥미로운 최적화 기능도 제공합니다. 디스플레이 엔진은 4개의 디스플레이 파이프를 제공하며, 이 중 2개는 저전력에 최적화되어 있습니다. 인텔은 메모리 수요를 줄이기 위한 버스트 채우기, 반복되는 프레임에 대한 페치 및 생성을 건너뛰는 패널 자체 새로 고침(PSR) 등의 기술을 기반으로 리소스 수요를 더욱 줄이고 있습니다.

LINK

새로운 전력 최적화 기법은 버스트 디코드 또는 선택적 업데이트 및 하드웨어 큐잉입니다. 이를 통해 디스플레이 엔진은 앞을 내다보고 최대 16개의 프레임을 대기열에 넣어 한 번에 디코딩한 다음 필요에 따라 대기열에 있는 프레임을 분배할 수 있습니다. 이 접근 방식은 버스트 디코드 블록 외부의 코어를 깨울 필요가 없으므로 전원 관리가 더 자주 작동할 수 있습니다. 이 방식은 PSR 및 선택된 가져오기와 같은 기술과 결합되어 새로 고침 시 반복되는 프레임은 리소스를 소비할 필요가 없고 새로 표시되는 프레임은 메모리와 디스플레이 파이프에만 액세스하면 됩니다.

그래픽 타일의 모든 기능을 갖춘 Xe-LPG 엔진

LINK

메테오 레이크의 그래픽 타일은 Xe-LP의 기반과 Xe-HPG의 전체 기능 세트를 융합하여 Xe-LPG를 탄생시켰습니다. 이는 Xe-LP에 비해 와트당 성능이 2배 향상되고 전체 성능도 약 2배 향상되는 것으로 선전되고 있습니다.

LINK

더 높은 클럭 주파수, 전반적으로 더 큰 GPU 구성, 앞서 언급한 아키텍처 효율성 개선을 통해 Xe-HPG의 성능이 Xe-LP에 비해 확장되었으므로 이를 단계별로 살펴보겠습니다.

LINK

Xe-LPG는 곡선의 모든 전압 지점에서 더 높은 클럭 속도를 제공합니다. 따라서 전체 클럭은 더 높지만 최소 전압이 더 낮다는 이점이 있습니다. 인텔은 AI를 사용하여 Meteor Lake의 타이밍 클로저를 미세 조정했으며, 그 결과 기존의 인간적인 최선의 노력보다 20% 개선되었다고 말합니다. 인텔은 또한 이러한 속도를 달성하는 데 도움이 된 TSMC의 N5 프로세스를 높이 평가합니다.

LINK

GPU 구성이 더 넓어져 이전 세대인 Xe-LP보다 더 많은 작업을 병렬로 처리할 수 있습니다. 이제 2개의 렌더 슬라이스 사이에 128개의 벡터 엔진에 해당하는 8개의 Xe 코어가 있습니다. 샘플러의 수는 6개에서 8개로 증가했으며, 이제 코어당 하나의 샘플러와 슬라이스당 2개의 픽셀 백엔드, 4개의 픽셀 백엔드가 있습니다. 풀 Xe 코어이기 때문에 레이 트레이싱 유닛도 포함되어 있어 총 8개의 RTU를 구성합니다. 네, 통합 그래픽에서 레이 트레이싱이 지원됩니다.

LINK

구조적으로 Meteor Lake는 Xe 코어당 192KB의 공유 L1 캐시를 사용하여 16 x 256비트 벡터 처리를 지원합니다.

LINK

벡터 엔진은 클럭당 16개의 FP32 연산 또는 클럭당 32개의 FP16 연산으로 전용 FP 실행을 실행할 수 있으며, 공유 실행 포트는 클럭당 64개의 INT8 연산, 클럭당 2개의 확장 수학 연산 또는 클럭당 단일 FP64 연산을 처리할 수 있습니다. 물론 초고속 FP64 지원은 아니지만 소프트웨어 호환성을 위해 필요한 기능입니다. 이제 FP와 INT/EM이 분리되어 있으므로 두 가지를 병렬로 사용하는 동시 발행 명령도 처리할 수 있습니다. 가장 중요한 것은 개별 Arc GPU와 동일한 파이프라인을 사용하여 소프트웨어 개발 속도가 빨라지고 전반적인 호환성과 안정성이 향상된다는 점입니다.

인텔 그래픽스 소프트웨어 스택

LINK

인텔 그래픽스 팀은 주로 불필요한 CPU 오버헤드를 줄임으로써 에너지 소비를 줄이는 데 중점을 두었습니다. 예를 들어, 최신 DX9 드라이버 최적화를 통해 API 오버헤드를 프레임당 326m줄에서 프레임당 226m줄로 줄여 거의 31%까지 줄였습니다. 또한 "절전" 모드로 볼 수 있는 XeSS 업스케일링 기능을 제공하는데, 예시에서 에너지 사용량을 네이티브 렌더링 시 프레임당 863m줄에서 526m줄로 40% 가까이 낮췄습니다.

LINK

XeSS는 Meteor Lake와 동일한 방식으로 작동하지만 검토해 볼 가치가 있습니다. 래스터, 조명 및 포스트 프로세싱을 통해 저해상도 프레임을 렌더링한 다음 모션 벡터를 적용하여 고해상도 이미지를 합성합니다. 또한 프레임 히스토리에서 세부 정보를 피드백하여 향후 슈퍼 샘플링을 개선하고 마지막으로 추가 포스트 프로세싱을 적용하여 화면에 표시되는 이미지를 개선합니다.

LINK

실제로 이렇게 하면 파이프라인의 렌더링 단계가 크게 단축됩니다. 앤티앨리어싱 단계는 AA+업스케일링이 되어 엄격한 앤티앨리어싱보다 시간이 조금 더 걸리지만, 최종 포스트 프로세싱 효과를 효과적으로 변경하지 않으면서도 저해상도로 렌더링할 때 절약할 수 있는 시간에는 미치지 못합니다.

LINK

인텔 아크 제어판에는 인듀어런스 게이밍이라는 기능도 도입되었습니다. 사용자는 이 기능의 활성화 여부를 제어할 수 있으며, 각각 60FPS, 45FPS, 30FPS를 목표로 하는 릴렉스, 밸런스, 맥스배터리 등 다양한 프리셋이 있습니다.

LINK

인듀어런스 게이밍은 총 패키지 전력 소비를 줄입니다. 표시된 예는 로켓 리그가 총 10와트에 불과한 SoC 전력 소모량으로 플레이하는 것을 보여 주며, 이 중 약 1와트만 GPU에서 소비됩니다. 물론 프레임 속도에 제약이 없는 것은 아니지만 게이머는 필요할 때 배터리 수명을 선택할 수 있습니다.

인텔 메테오 레이크 아키텍처 심층 분석: AI 주입 및 최종 생각

인텔 최초의 AI가 탑재된 소비자 CPU

LINK

컴퓨팅의 미래에는 AI를 피할 수 없으며, 인텔은 이러한 PC 혁신을 주도하기 위해 노력하고 있습니다. 오늘날 많은 AI 워크로드는 클라우드에서 실행됩니다. 클라우드는 대규모로 확장 가능한 컴퓨팅을 제공하지만 인터넷 연결이 필요하고 지연 시간이 길며 개인 정보 보호 문제가 발생할 수 있으며, 소프트웨어 공급업체가 애플리케이션을 실행하기 위해 컴퓨팅 성능을 대여해야 하므로 비용이 많이 들 수 있습니다. 클라이언트 및 엣지 컴퓨팅을 추가하면 이러한 각 문제점을 해결하거나 최소한 해결을 위한 단계를 밟을 수 있습니다.

LINK

현재 PC의 AI는 사용 사례가 상당히 제한적입니다. 배경 소음 억제와 같은 오디오 효과나 컨퍼런스 콜에서 비디오 배경을 흐리게 처리하는 데 사용할 수 있지만 인텔은 훨씬 더 많은 잠재력을 보고 있습니다. 더 많은 로컬 성능을 갖춘 AI는 일상 생활의 맥락을 파악하여 추천을 개선하고 일정을 처리하며 창의력을 증폭하고, 그 밖의 잡다한 작업을 대신 처리하여 생산성을 높이는 데 도움을 줄 수 있습니다.

LINK

Meteor Lake는 이러한 기반을 마련하는 데 도움을 주고 있지만, 처음으로 전용 NPU를 탑재하고 있지만 이것이 AI의 전부는 아닙니다. 실제로 다양한 종류의 AI 워크로드는 다양한 유형의 하드웨어에서 실행할 때 이점을 얻을 수 있습니다. 예를 들어, NPU는 지속적인 AI 워크로드에 적합하지만, 제너레이티브 AI와 같이 많은 미디어 및 3D/렌더 파이프라인을 사용하는 경우에는 여전히 GPU가 더 나은 옵션일 수 있습니다. 반대로, 지연 시간이 짧은 단일 추론 요청을 반환하는 데는 VNNI 및 기타 명령어를 갖춘 CPU가 충분할 수 있습니다.

LINK

서로 다른 IP가 안정적 확산을 통해 워크로드에 어떤 영향을 미치는지 확인할 수 있습니다. 이 AI 모델은 텍스트 프롬프트를 입력으로 받은 다음 "확산"을 통해 이미지를 생성합니다. 이미지 생성 프로세스는 순수한 노이즈로 시작한 다음, 주어진 프롬프트(Unet)에 대한 이해를 바탕으로 단계적으로 노이즈에서 저해상도 이미지를 추출합니다. 마지막으로 최종 이미지가 더 높은 해상도로 디코딩됩니다.

LINK

이 차트는 CPU에서 전적으로 실행할 때, GPU에서 전적으로 실행할 때, Unet이 NPU로 오프로드된 상태에서, Unet+와 Unet-가 GPU와 NPU로 분할된 상태에서 얼마나 잘 실행되는지 평가하는 다양한 메트릭을 보여줍니다. GPU를 사용하면 매우 빠른 결과를 반환할 수 있지만 전력 사용량은 모든 CPU 접근 방식과 거의 비슷합니다. 반대로 NPU는 매우 효율적이지만 GPU만큼 빠르지는 않습니다. 궁극적으로, 적당한 양의 에너지를 사용하면서 가장 빠른 결과를 얻으려면 하이브리드 GPU+NPU 접근 방식을 사용하는 것이 합리적일 수 있습니다.

OpenVINO와 AI 소프트웨어 스택

LINK

Meteor Lake의 AI 스택은 WinML, DirectML, ONNX RT 및 인텔의 자체 OpenVINO를 포함한 다양한 API를 지원합니다. 이러한 어느 정도 연결된 API는 서로 다른 IP를 활용하여 실행할 수 있는 다양한 라이브러리와 인터페이스합니다. 예를 들어 WinML은 MLAS 라이브러리를 사용하여 CPU에서 실행하거나 DirectML을 통해 체인화하여 GPU 또는 NPU를 활용할 수 있습니다.

LINK

각 애플리케이션은 다른 경로를 사용할 수 있습니다. 예를 들어 Microsoft Teams에는 Windows Studio 효과가 있습니다. 여기에는 NPU에 의해 가속화된 오디오 및 시각 처리가 적용됩니다. 이를 위해 OpenVINO 추론 엔진 스택을 사용합니다.

LINK

한편, Adobe Creative Cloud는 궁극적으로 GPU에서 실행되는 기능에 DirectML을 활용합니다.

하드웨어에서 AI 가속화

LINK

AI 가속을 위해서는 특정 명령어에 대한 지원이 필요하며, GPU와 NPU가 어떻게 구현되는지 살펴보겠습니다.

LINK

GPU는 주로 타이거 레이크의 Xe-LP에서 처음 도입된 INT8 데이터 유형으로 DP4A 명령어를 실행합니다. 계산은 단일 32비트 정수를 INT8 레인으로 분할한 다음 클럭당 64개의 INT8 연산 속도로 계산하는 방식으로 수행됩니다. Xe-LPG는 더 큰 엔진과 더 높은 클럭, 그리고 FP 파이프와 함께 명령어를 발행할 수 있는 기능을 제공합니다.

LINK

NPU의 아키텍처는 AI를 위해 특별히 설계되었습니다. 추론 파이프라인과 프로그래밍 가능한 SHAVE DSP를 포함하는 두 개의 신경 컴퓨팅 엔진으로 설계되었습니다.

LINK

스트리밍 하이브리드 아키텍처 벡터 엔진(SHAVE) 디지털 신호 프로세서(DSP)는 AI에 최적화되어 있으며 추론 파이프라인 및 DMA 엔진과 파이프라인화하여 매우 높은 성능으로 병렬 이기종 컴퓨팅을 수행할 수 있습니다(즉, INT4 ~ FP32 데이터 유형을 처리할 수 있음).

LINK

추론 파이프라인은 매트릭스 곱셈 및 컨볼루션인 MAC 어레이를 사용하여 매트릭스 곱셈, 활성화 함수 블록, 데이터 변환 블록으로 이어지는 모든 연산을 지원합니다.

LINK

MAC 어레이는 엔진당 2048 MAC/사이클을 지원하며 INT8 및 FP16 데이터 유형을 지원합니다.

LINK

활성화 함수는 가중치와 바이어스 후에 적용되며, 데이터 변환 블록이 정량화하여 스크래치패드 SRAM에 다시 쓰기 전에 몇 가지 중간값을 계산합니다.

LINK

가장 중요한 것은 추론 파이프라인이 고정 함수 연산을 통해 데이터 이동을 줄여 효율성을 높인다는 점입니다.

LINK

DMA 엔진은 NPU를 통해 데이터의 흐름을 조정하는 역할을 합니다. 최대한의 성능을 추출하면서 효율성을 최적화합니다. 데이터를 스크래치패드 RAM으로 가져오고 그래프 컴파일러를 사용하여 작업을 예약합니다.

Meteor Lake 마무리

LINK

결론부터 말씀드리자면, Meteor Lake는 인텔의 첫 번째 타일형 소비자용 CPU이며, 효율성 측면에서 큰 변화를 가져올 것으로 기대합니다. 인텔은 이제 컴퓨팅 타일의 P-코어 및 E-코어와 SOC 타일의 LP-코어 등 세 가지 계층의 CPU 코어를 보유하고 있으며, 대부분 와트당 성능 곡선의 하단을 확장하여 그 어느 때보다 적은 전력을 사용합니다. Xe-LPG 그래픽 아키텍처는 2배 향상된 와트당 성능 설계로 이러한 추진력을 보완하며, NPU는 CPU만 사용할 때보다 최대 8배 더 높은 효율로 지속적인 AI 경험을 제공할 수 있습니다. 이 모든 것이 인텔의 포베로스 고급 패키징 기술을 사용하여 하나로 통합되었습니다. 인텔은 포베로스를 통해 각 타일에 서로 다른 공정 기술을 사용하여 주어진 IP에 최적화할 수 있습니다.

이번 포스팅을 통해 이전 인텔 프로세서와 다른 점이 무엇인지, 그리고 클라이언트 컴퓨팅의 미래에 어떤 잠재력을 가지고 있는지 이해하는 데 도움이 되셨기를 바랍니다. 아직 구체적인 SKU 정보는 제공되지 않았지만, 이 프로세서를 탑재한 모바일 디바이스 디자인이 곧 시장에 출시될 것으로 예상됩니다.

모두의공원

인텔, 메테오 레이크 아키텍처 공개: AI, 타일, 그리고 인텔 코어 CPU의 미래 6