LLM
-
네이버 플레이스, NVIDIA TensorRT-LLM으로 SLM 기반 vertical 서비스 최적화 (25.6.6)TechStock&Review/AI&Cloud&SW 2025. 6. 6. 12:09
2025년 3월 18일부터 NVIDIA Triton Inference Server는 이제 NVIDIA Dynamo로 바뀌었습니다.📌 NVIDIA Dynamo 란 ??NVIDIA Dynamo Platform은 2024년 GTC에서 처음 발표된 차세대 AI 인프라 플랫폼으로, 생성형 AI 워크로드(훈련 + 추론 + 배포)를 위한 엔드투엔드 데이터센터 플랫폼. NVIDIA는 이를 통해 AI 개발자 및 기업들이 모델 훈련부터 추론, 배포까지의 전 과정을 더욱 효율적이고 탄력적으로 수행할 수 있도록 지원하는 서비스 플랫폼.NVIDIA Triton Inference Server는 NVIDIA Dynamo Platform > NVIDIA Dynamo-Triton 로 이관https://developer.nvidia...
-
AMD vs Nvidia 추론 밴치마크: 누가 승자인가? - 백만 토큰 당 성능 & 비용 (25.5.28)TechStock&Review/AI&Cloud&SW 2025. 5. 28. 23:52
AMD vs NVIDIA Inference Benchmark: Who Wins? – Performance & Cost Per Million Tokens (AMD vs Nvidia 추론 밴치마크: 누가 승자인가? - 백만 토큰 당 성능 & 비용 )AMD의 AI 서버가 엔비디아보다 총소유비용(TCO) 대비 더 나은 추론 성능을 달성할 수 있다는 주장은 오랫동안 이어져 왔습니다. 저희(SemiAnalysis)는 지난 6개월 동안 엔비디아와 AMD가 제공하는 추론 솔루션에 대한 포괄적인 분석 및 벤치마킹을 통해 이러한 주장을 조사하고 검증했습니다. 간단한 답을 얻을 것으로 예상했지만, 결과는 훨씬 더 미묘하고 놀라웠습니다. 채팅 애플리케이션, 문서 처리/검색, 추론 등 작업별로 성능이 다르게 나타납니다.GPU를..