iPhone 17 A19 칩 AI 추론 성능 벤치마크 (25.9.24)

TechStock&Review/AI&Cloud&SW 2025. 9. 24. 21:37

요약

Apple은 온디바이스 AI 시대에 맞춰 iPhone을 새롭게 디자인했습니다.
실제 벤치마크에서 iPhone 17 Pro는 새로운 Neural Accelerators를 통해 GPU에서 대규모 Transformer 모델 추론을 수행하는 iOS 26 기반 iPhone 16 Pro보다 최대 3.1배 더 빠릅니다.
Neural Engine은 동일한 워크로드에서 25%만 향상되었지만, 더 빠른 추론 속도, 더 나은 에너지 효율성, 하루 종일 지속되는 배터리 수명, 기존 워크로드와의 리소스 경합 없음으로 인해 온디바이스 추론에 대한 확실한 선택으로 남아 있습니다.

Apple의 스토리텔링 - Storytelling by Apple

벤치마크를 자세히 살펴보기에 앞서, Apple이 새로운 제품을 어떻게 포지셔닝했는지 검토하여 새로운 iPhone 17 라인업에 대한 배경을 살펴보겠습니다.

A19 SoC 칩 다이 이미지 및 구성도

애플 A19 칩은 TSMC의 N3P 공정으로 제작되었으며, 전작 A18보다 더 작습니다.
2개의 성능 코어(P-core)와 8MB 공유 L2 캐시, 4개의 효율 코어(E-core)와 4MB 공유 L2 캐시를 탑재했습니다.
8코어 NPU(애플은 16코어로 표기), 2개의 6MB 시스템 레벨 캐시(SLC), 5코어 GPU를 포함합니다.

https://x.com/highyieldyt/status/1970533400151818256?s=46

GPU의 신경망 가속기 - Neural Accelerators on GPU

기조연설 발췌: "...저희 GPU의 또 다른 주요 업데이트는 AI입니다. 8년 전 Neural Engine을 처음 선보인 이후 저희는 AI 가속 분야를 선도해 왔습니다. 이후 머신 러닝 가속기를 CPU에 적용했습니다. 저희 GPU는 AI 연산에 항상 탁월한 성능을 보여왔지만, 이제 큰 진전을 이루고 있습니다. 각 GPU 코어에 신경 가속기를 내장하여 A18 Pro보다 최대 3배 높은 GPU 연산 성능을 제공합니다. 이는 iPhone에서 MacBook Pro 수준의 연산 능력을 구현하는 것입니다. GPU 집약적인 AI 워크로드에 이상적입니다..."

개선된 신경망 엔진 - Improved Neural Engine

기조연설 발췌: "...Apple Intelligence의 놀라운 온디바이스 성능을 구현하도록 개선된 Neural Engine을 탑재했습니다. A19의 향상된 메모리 대역폭과 결합되어 온디바이스 생성 모델과 대규모 언어 모델이 더욱 빠르게 실행될 것입니다..."

새로운 냉각 시스템 - New Cooling System

기조연설 발췌: "...iPhone 17 Pro와 iPhone 17 Pro Max가 뛰어난 성능을 발휘하면서도 편안한 그립감을 유지할 수 있도록 전력 소비량과 표면 온도를 꼼꼼하게 관리합니다... 이를 통해 부품에서 발생하는 열을 효율적으로 분산시켜 더욱 뛰어난 성능을 유지합니다. 증기 챔버 (vapor chamber) 는 열을 시스템 전체에 전략적으로 전달합니다... 기존 티타늄 소재보다 20배 더 강력합니다..."

https://www.youtube.com/shorts/WCLosRKOpkA

벤치마크 - Benchmarks

마케팅 스픽상 개선 사항을 실제로 테스트하기 위해 성능 벤치마크를 설계했습니다. 특히, 신속한 처리(컴퓨트 바운드 인코딩)와 토큰 생성(대역폭 바운드 디코딩) 구성 요소를 혼합하여 대규모 트랜스포머를 포함하는 버스트 워크로드에서 향상된 최대 GPU 및 Neural Engine 처리량을 테스트했습니다. 그런 다음, 동일한 대규모 트랜스포머 모델을 포함하는 지속적인 워크로드에서 열 동작을 테스트했습니다.

Workload 1: Burst File Transcription

이 워크로드는 Argmax Playground 앱을 사용하여 최첨단 음성-텍스트 변환 모델인 Nvidia Parakeet v3를 사용하여 10분 분량의 오디오 파일을 처리해야 합니다.

Argmax Playground에서 이 워크로드는 iPhone 16 Pro Neural Engine에서 15Tflops/s 이상의 성능을 달성하며, float16 정밀도에서 이론적 최대 처리량인 17.5Tflops/s의 거의 최대 활용률에 가깝습니다. iPhone 16 Pro에서 볼 수 있듯이 GPU 성능은 속도와 전력 효율 측면에서 경쟁력이 없었기 때문에 벤치마킹에 집중하지 않았습니다. 하지만 아래 결과에서 명확히 알 수 있듯이 iPhone 17 라인업은 GPU의 중요성을 부각시켰습니다.

처리 시간당 오디오를 텍스트로 변환 시간(seconds of audio transcribed per second of processing time)을 나타내는 속도 계수는 이 워크로드의 주요 벤치마크 지표입니다.

iPhone 16 Pro에서 Neural Engine은 0.6B 의 매개변수를 가진 ConvNet-Transformer 하이브리드 모델인 Nvidia Parakeet v3의 GPU보다 4.3배 더 빠릅니다. iPhone 17 라인업은 iPhone 16 Pro보다 GPU 성능이 2.5~3.1배 향상되었지만, Neural Engine의 경우 이 수치는 1~1.15배에 불과했습니다.

이러한 워크로드는 비대칭 인코더-디코더 아키텍처로 인해 오디오 인코더 구성 요소에서 심각한 병목 현상을 발생시키기 때문에 메모리 대역폭 향상보다는 최대 컴퓨팅 처리량 테스트에 적합합니다.

또한, 또 다른 인기 있는 음성-텍스트 변환 모델인 Whisper Large v3 Turbo 도 테스트했습니다. 이 모델은 0.1B (허깅페이스 스펙 상으론 809M) 매개변수와 균형 잡힌 인코더-디코더 지연 시간을 가진 순수 트랜스포머입니다.

https://huggingface.co/openai/whisper-large-v3-turbo#model-details

openai/whisper-large-v3-turbo · Hugging Face

Whisper Whisper is a state-of-the-art model for automatic speech recognition (ASR) and speech translation, proposed in the paper Robust Speech Recognition via Large-Scale Weak Supervision by Alec Radford et al. from OpenAI. Trained on >5M hours of labeled

huggingface.co

iOS 26의 추론 속도 벤치마크. 속도 계수는 처리 시간 1초당 오디오가 텍스트로 변환되는 시간 (seconds of audio transcribed per second of processing time.)을 측정합니다.

Workload 2: Sustained Real-time Transcription

이 워크로드는 Argmax Playground 앱에서 Nvidia Parakeet v3를 사용하여 1초 미만의 지연 시간으로 YouTube 동영상의 처음 30분을 실시간으로 기록했습니다. 이 워크로드는 컴퓨팅 사용량이 최고 수준에 가까워질 때 지속적으로 열을 방출하고 배터리에서 에너지를 소모하므로 iPhone 17 라인업의 새로운 냉각 시스템을 테스트하기에 이상적인 벤치마크입니다.

아래 영상:

왼쪽: GPU를 사용하는 iPhone 17 Pro (온도: 약 28.3)
가운데: GPU를 사용하는 iPhone 16 Pro (온도: 약 38.2)
오른쪽: Neural Engine을 사용하는 iPhone 17 (온도: 28.9)

https://youtu.be/_m0kXvtuflQ

결과는 자명합니다. iPhone 17 Pro의 새로운 냉각 시스템은 GPU에서도 지속적으로 발생하는 무거운 추론 작업 부하로 인한 열을 효과적으로 분산시킵니다.

Workload 3: Burst Speaker Diarization using CPU and Neural Engine

이 워크로드는 오픈소스 speaker diarization model 인 pyannote v3를 사용하여 Argmax Playground 앱을 사용하여 10분 분량의 오디오 파일을 처리해야 합니다. 이 모델은 1B의 매개변수를 갖는 ConvNet-LSTM 하이브리드 모델입니다. Argmax Playground는 이 모델을 CPU와 신경망 엔진에서 실행합니다. iPhone 17 라인업은 iPhone 16 Pro 대비 1.01~1.15배의 속도 향상을 달성합니다.

https://huggingface.co/pyannote/speaker-diarization-3.0

pyannote/speaker-diarization-3.0 · Hugging Face

This repository is publicly accessible, but you have to accept the conditions to access its files and content. The collected information will help acquire a better knowledge of pyannote.audio userbase and help its maintainers improve it further. Though thi

huggingface.co

결론 - Conclusion

Apple은 iPhone 17 라인업에 A19 및 A19 Pro 칩을 탑재하여 대규모 Transformer 추론 워크로드에서 시장 선도적인 성능 달성에 대한 우선순위를 크게 높였습니다. 이러한 개선 사항의 대부분은 iOS 26에서 "기본 제공"됩니다.

어느 정도 진전이 있었음에도 불구하고, Neural Engine에서 최고 성능을 달성하는 것은 대부분의 개발자에게 여전히 마법처럼 느껴집니다. 반면, GPU는 Metal을 사용하여 직접 프로그래밍할 수 있으며 MLX와 같은 프레임워크를 통해 Apple Silicon GPU에서 거의 최고 사용률에 가까운 인기 모델을 배포할 수 있습니다. 이러한 이유로 GPU 내 Neural Accelerators 발표는 Apple Silicon에서 접근성 높은 고성능 추론을 위한 매우 유망한 방향입니다.

iPhone 16 Pro에서 iPhone 17 라인업으로 GPU 속도가 최대 3.1배 향상되었습니다. 마케팅 스펙상 성능 향상은 최대 4배였으며, 나머지 성능 향상은 Core ML의 GPU 백엔드인 MPSGraph와 같은 기본 Apple 추론 프레임워크의 개선을 통해 이루어질 수 있습니다. MLX 개발자들은 향후 몇 주 안에 이러한 새로운 코어에 대한 지원을 추가할 것이라고 발표했습니다.

그럼에도 불구하고, 3B의 매개변수를 가진 트랜스포머인 Apple Foundation Model은 여러 가지 이유로 Neural Engine에 여전히 적용되고 있습니다. 배터리 수명을 극대화하는 최고의 에너지 효율성, 기본적으로 가속화된 고급 압축 기술, 그리고 A19 Pro GPU 업데이트 이후에도 더 높은 최대 처리량 등이 그 이유입니다.

Neural Engine이 대규모 온디바이스 추론에 여전히 확실한 선택이 될 수 있는 더 많은 이유를 알게 되었습니다.

기존 워크로드와의 리소스 경합 없이 실질적인 속도 저하 방지
저사양 및 고사양 기기에서 균일한 성능

Apple이 GPU와 Neural Engine을 번갈아 가며 개선하는 패턴을 발견했습니다. Apple의 (추정되는) A20이 Neural Engine에 어떤 변화를 가져올지 매우 기대됩니다.

원문 출처:
https://www.argmaxinc.com/blog/iphone-17-on-device-inference-benchmarks

iPhone 17 - Argmax

Apple has redesigned the iPhone for the on-device AI age. In our real-world benchmarks, iPhone 17 Pro is already up to 3.1x faster than iPhone 16 Pro on iOS 26 for large Transformer model inference on the GPU with the new Neural Accelerators. Despite the f

www.argmaxinc.com

'TechStock&Review > AI&Cloud&SW' 카테고리의 다른 글

어시스턴트 에서 에이전트로: Microsoft Copilot의 전진과 옆길 (25.10.13) (0)	2025.10.13
Microsoft 데이터 센터의 AI 칩 레밸 냉각기술 (25.9.25) (1)	2025.09.25
Claude - 최근 3가지 이슈에 대한 사후 분석 (25.9.19) (0)	2025.09.19
테슬라 AI 칩 세대 별 성능 비교 (25.9.17) (3)	2025.09.17
Oracle 이 AI 컴퓨팅 시장에서 승리하는 방법 (25.8.27) (7)	2025.08.27

ABOUT ME

spedtrder's blog spedtrder's blog

요약

Apple의 스토리텔링 - Storytelling by Apple

A19 SoC 칩 다이 이미지 및 구성도

GPU의 신경망 가속기 - Neural Accelerators on GPU

개선된 신경망 엔진 - Improved Neural Engine

새로운 냉각 시스템 - New Cooling System

벤치마크 - Benchmarks

Workload 1: Burst File Transcription

Workload 2: Sustained Real-time Transcription

Workload 3: Burst Speaker Diarization using CPU and Neural Engine

결론 - Conclusion

'TechStock&Review > AI&Cloud&SW' 카테고리의 다른 글

티스토리툴바

ABOUT ME

요약

Apple의 스토리텔링 - Storytelling by Apple

A19 SoC 칩 다이 이미지 및 구성도

GPU의 신경망 가속기 - Neural Accelerators on GPU

개선된 신경망 엔진 - Improved Neural Engine

새로운 냉각 시스템 - New Cooling System

벤치마크 - Benchmarks

Workload 1: Burst File Transcription

Workload 2: Sustained Real-time Transcription

Workload 3: Burst Speaker Diarization using CPU and Neural Engine

결론 - Conclusion

'TechStock&Review > AI&Cloud&SW' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바