Tesla
-
Tesla Dojo에서 결함 컴퓨팅 노드 탐지 방법 및 효율화 (25.6.12)TechStock&Review/AI&Cloud&SW 2025. 6. 11. 23:30
핵심요약Tesla Dojo 개요: Tesla의 머신러닝 학습 슈퍼컴퓨터 Dojo는 노드 결함으로 인한 Silent Data Corruptions (SDCs) 발생 가능성이 있으며, 이를 방치하면 모델 학습 오류를 초래.differential fuzzing 적용: differential fuzzing 기법으로 결함 노드 모니터링을 진행, 무작위 명령어 실행 후 결과 비교로 오류 탐지.효율성 개선: 개별 노드 페이로드 실행과 레지스터 상태 XOR 저장으로 탐지율을 최대 10배 향상.Stress 도구 배포: "Stress" 도구로 결함 노드 탐지 성공, Google/Meta와 유사한 결함률 기록, 디자인/소프트웨어 버그도 발견. Dojo는 Tesla가 설계 및 구축한 ML 학습 슈퍼컴퓨터입니다. 대부분의 다른..