DRAM 오류 : 소프트에서 하드로

몇 년 전 DRAM의 악의적 인 오류 (error rate)가 수백 ~ 수천 배나 높은 것으로 밝혀졌습니다. 그러나 그 오류의 본질은 무엇입니까? 표류하는 알파 입자가 조금 뒤집히는 곳에서 그들은 일반적으로 믿어지는 것처럼 부드러운 오류입니까? 아니면 하드 오류가 있습니까?

오류가 부드럽고 열심히

그들이 부드럽고 무작위적인 경우 우리가 할 수있는 일은별로 없습니다. 그러나 그들이 힘들다면,보다 효율적으로 작동하면서 영향을 줄이기 위해 할 수있는 일이있을 수 있습니다.

토론토 대학교 (University of Toronto)의 연구 결과에 따르면 (Google은 Andy Hwang, Ioan Stefanovici, Bianca Schroeder의 Cosmic Rays Do not Strike : DRAM 오류의 성격과 시스템 디자인에 대한 함의에 따라) 수만 개의 프로세서를 살펴본 결과, 몇몇 국가 연구소에서는 하드 오류가 일반적이지만 그 성격은 바이너리가 아닙니다. 메모리 위치는 영구적으로 걸리지 않고 오류 패턴이 될 수 있으며 액세스 패턴에 민감 할 수 있습니다.

이 연구는 LLNL의 IBM Blue Gene / L (BG / L), Argonne 국립 연구소의 Blue Gene / P (BG / P), SciNet의 HPC 클러스터 및 20,000 대의 Google 서버에서 수행되었습니다. Google 시스템은 다른 시스템과 마찬가지로 설치되지 않았으므로 일부 오류는 보수적으로 추정되었습니다. 이 연구에서 가장 흥미로운 2 가지 세부 사항

이것이 당신에게 어떤 영향을 미치는지

곧 출시 될 Mac Pro를 제외한 모든 Mac을 포함하여 대부분의 소비자 PC에는 DRAM 오류 수정 코드 (ECC)가 없습니다. ECC 메모리 비용이 많이 들고 공급 업체는 소비자가 신경 쓰지 않고 지불하지 않을 것임을 알게되었습니다.

BSOD 또는 시스템 잠김? 중요한 시스템 코드에서 메모리 오류 일 수 있습니다.

대부분의 오류는 가장 많이 사용되는 메모리 영역 (주요 OS 프로그램이 실행되는 곳)에 집중되어 있으며 Google은 다른 연구원을 위해 Google DRAM 오류에서 데이터베이스를 공개하지 않았습니다. 왜? 나는 몇 가지 아이디어가있다.

워크 스테이션, 서버 및 수퍼 컴퓨터에는 일반적으로 감지 및 수정이 가능한 단일 비트 오류부터 전체 메모리 칩의 손실을 극복 할 수있는보다 정교하고 값 비싼 “칩 킬 (chipkill)”모듈에 이르기까지 일정 수준의 ECC가 있습니다. 수 테라 바이트의 DRAM이 장착 된 세계에서 가장 강력한 컴퓨터 중 하나에서 6 개월 시뮬레이션을 실행하는 경우 칩 하나에 장애가 발생하지 않도록하십시오.

스토리지 비트

“하드”오류의 일시적인 특성을 감안할 때 DRAM 문제가 있음을 알게 될 소비자는 거의 없을 것입니다. 몇주에 한 번씩 만 저주하면 다시 부팅하고 잊어 버릴 것입니다.

이 문제는 클라우드 제공자에게 중요합니다. 왜냐하면 클라우드 제공자는 경제적 인센티브를 가지고 있기 때문입니다. 수백만 개의 서버가 있으면 ECC의 비용, 에너지 및 성능이 증가합니다.

스토리지, Zaloni, 클라우드, EMC 파트너 사인 Michael Dell과 함께하는 데이터 레이크 용 중간 계층 시스템 출시 : ‘수십 년 내에 생각할 수있는 데이터 센터, Dell 기술의 리프트 : Dell, EMC, 기업 기업의 무리 결합, 스토리지, 페이스 북의 오픈 소스 Zstandard 데이터 압축 알고리즘, 지퍼 뒤에 기술을 대체하는 것을 목표로

연구팀이 수집 한 데이터를 공개하기를 거부 한 것으로 알려졌다. 확실한 추론 : 데이터를 사용하여 경쟁 우위를 높이고 시장에 첫발을 내딛고 싶습니다.

궁극적으로 Google의 구매력을 고려할 때 안정적인 클라우드 서비스와보다 우수한 서버 메모리 설계가 필요한 경우 나머지는 혜택을 볼 것입니다.

그러나 다음 PC에서는 수정하지 않아도됩니다. 공급 업체는이를 감당할 수 없습니다.

의견은 물론 환영합니다. 자세한 내용을 원하시면 StorageMojo에서이 게시물의 더 긴 버전을 작성했습니다.

NetApp, Zaloni와 파트너 인 데이터 호수를위한 미드 티어 시스템 출시

마이클 델 (Michael Dell)은 “EMC는 수십 년 안에 생각할 수있다.

델 테크놀로지가 떠오른다 : 엔터프라이즈 비즈니스가 결합 된 델, EMC의 모습을 볼 수있다.

페이스 북의 오픈 소스 Zstandard 데이터 압축 알고리즘, 지퍼 뒤에 기술을 대체하는 것을 목표로