견적 및 전화 요청

지원

HP Z8 G4 + NVIDIA RAPIDS 덕분에 빨라진 반복 작업

2020년 겨울

인도 Ruchi Bhatia

데이터 사이언티스트 책임자

2023년부터 마켓에 출시되는 제품의 경우, 로고와 로고 위치 변경이 예정되어 있습니다. 이에 실제 제품은 사진 및 영상 속 이미지와 다를 수 있습니다.

Z by HP 데이터 사이언스 글로벌 앰배서더 Ruchi Bhatia의 콘텐츠는 HP 제품 지원을 통해 제작되었습니다.

 

안녕하세요, Ruchi Bhatia입니다!

저는 Colgate Palmolive의 글로벌 정보기술 부서에서 경영진 어소시에이터로 근무하고 있으며, Kaggle의 데이터 세트 부문 6위에 랭크된 그랜드 마스터입니다.

 

현재 Z by HP 데이터 사이언스 글로벌 앰배서더로 활약하고 있습니다. HP로부터 데이터 사이언스 워크플로우를 매끄럽게 로컬로 실행할 수 있는 최첨단 기술을 지원받았습니다.

 

현재 사용 중인 장비는 다음과 같습니다.

- HP Z8 G4 워크스테이션: 초고성능 파워하우스

● 듀얼 6234 3.3GHz 8코어 제온 프로세서

● NVIDIA Quadro RTX 6000

● 96GB 메모리

● 2TB 스토리지

 

- HP ZBook Studio: 매우 가벼운 모바일 워크스테이션

● NVIDIA Quadro RTX 5000

● 인텔 코어 i9-10885H @2.4GHz x 16

● 32GB 메모리

● 2TB 스토리지

 

- HP Z38c: 풍성하고 몰입감 넘치는 곡면 디스플레이

 

HP Z8 G4 워크스테이션의 잠재력을 최대한 끌어내고자 NVIDIA RAPIDS 제품군을 살펴보았습니다. Pandas를 광범위하게 사용해 본 적이 있다면 아시겠지만, 데이터 사이언스 수명 주기에서 엔드 투 엔드 간 속도를 향상하려면 간단한 코드 변경만 하면 되기에 RAPIDS로 전환하기는 비교적 쉬웠습니다.

 

RAPIDS는 NVIDIA CUDA와 고대역폭 GPU 메모리를 사용합니다. 오픈 소스여서 누구나 자유롭게 사용할 수 있으며, 설명서는 아주 포괄적입니다.

 

저는 현재 진행 중인 WiDS 데이터톤 2021 대회에 참가하면서 RAPIDS를 처음 접했습니다. 여기에서는 집중 치료를 받는 첫 24시간 동안 여러 환자의 기록이 제공되며, 참가자는 ICU에 입원한 환자가 당뇨병의 특정 유형인 진성 당뇨병 진단을 받았는지를 파악해야 합니다.

 

표 형식의 데이터에는 181개의 열이 포함되어 있어 패턴과 특수 사례를 발견하고 모델 성능에 통계적으로 유의한 차이를 만드는 열을 가려내는 데 탐색적 데이터 분석이 중요합니다. CPU에서 실행되도록 조정된 라이브러리는 데이터 세트가 커지면 메모리 사용 및 시간으로 인해 흔하게 병목 현상을 일으킵니다.

 

데이터 세트의 몇 가지 기능 분포를 시각화한 스냅샷은 다음과 같습니다.

빨라진 엔드 투 엔드 워크플로우

RAPIDS를 접하기 전에 GPU 사용에 필요한 문제를 설명하고자 다음과 같은 단계를 수행했습니다.

 

1. 데이터 로드

2. ETL 작업: 데이터 정제, 기능 추출, 생성 및 선택

3. 출력을 GPU 가속 머신러닝 라이브러리에 특화된 형식으로 변환

4. GPU 메모리로 데이터 이동

5. GPU를 사용하여 모델 + 하이퍼 파라미터 튜닝 훈련

6. 호스트 메모리로 다시 데이터 이동

7. 모델 배포

 

1단계와 2단계는 CPU 처리의 도움으로 완료했습니다. 모델 훈련 속도가 썩 괜찮았고 CPU에서의 훈련 속도보다 훨씬 빨랐지만, 데이터 형식을 변환하는 작업이 많은 오버헤드를 유발했습니다.

 

RAPIDS는 GPU에서 Apache Arrow 열 데이터 형식을 실행하는 GPU 데이터 프레임을 통해 이 문제를 능수능란하게 처리합니다.

빨라진 성능

WiDS에 필요한 여러 코드 세그먼트를 실행하면서 느낀 점을 말해 보자면, Kaggle의 호스팅 환경보다 HP Z8 G4 워크스테이션에서 로컬로 함수를 실행하는 게 더 빨랐습니다.

워크플로우에 HP Z8 G4를 사용하니 속도가 엄청나게 빨라졌습니다.

강력한 Quadro RTX GPU의 성능과 RAPIDS의 빠른 속도가 어우러지니 여러 실험을 한꺼번에 실행하며 더욱 빠르게 인사이트를 얻을 수 있었습니다.

 

대규모 데이터 세트 읽기부터 모델 성능 개선을 위한 하이퍼 파라미터 튜닝에 이르는 모든 작업이 눈 깜짝할 새 이루어졌고, 전체 훈련 파이프라인이 GPU에서 실행되므로 프로젝트가 끊김 없이 진행되어 초고속 반복이 가능해졌죠.

사전 설치된 Data Science 소프트웨어 스택

HP Z8 G4에는 다음과 같은 Data Science 소프트웨어 스택이 사전 설치되어 있습니다.

- TensorFlow, PyTorch, RAPIDS와 같은 라이브러리

- PyCharm, Visual Studio Code와 같은 개발자 도구

- CUDA 등 클라우드 상호 운용 키트의 GPU 지원 도구

종속성 트리 문제를 해결하려면 시간이 많이 걸리고 라이브러리와 패키지를 매번 제거하고 다시 설치해야 할 수 있습니다.

 

그래서 저는 원래 Google Colab 또는 Kaggle 환경에서 작업하기를 선호했었는데요. Data Science 소프트웨어 스택을 사용하면 데이터 사이언스 도구와 라이브러리를 개별적으로 설치하는 데 시간을 들일 필요 없이 바로 워크플로우를 실행할 수 있습니다. 게다가 향후 스택 업데이트를 하면 최신 패키지 및 종속성으로 원활하고 편리하게 전환할 수도 있습니다. 즉, 처음부터 끝까지 설치 문제를 해결하고 수정하는 데 시간을 들이지 않아도 되니 생산성이 보장됩니다.

로컬 GPU의 장점

Kaggle의 GPU 최대 사용 시간과 한 번에 이용할 수 있는 GPU 인스턴스 수에는 주간 제한이 있습니다.

 

로컬 GPU를 사용하면 시간 제약이나 동시에 실행되는 실험 수 제한이 없어져 신경 쓰지 않고 실험을 유연하게 진행할 수 있습니다.  실제 프로젝트에 사용되는 데이터 양이 점점 늘어나니 비용과 시간을 고려할 수밖에 없습니다.

 

이 워크스테이션은 흔히 겪게 되는 이러한 문제는 물론 그 이상의 문제를 타파할 수 있는 해결책입니다.

이 링크는 WiDS용 Kaggle 노트로 연결됩니다.

 

LinkedIn 및 Twitter에서 제 작업에 대한 최신 소식을 확인하실 수 있습니다. 새로운 소식을 기대해 주세요!

질문이 있으신가요?
세일즈 서포트에 문의하세요. 

소셜 미디어에서 Z by HP 팔로우

Instagram

X

YouTube

LinkedIn

Facebook

제품 선택에 도움이 필요하신가요?

전화 요청

제품에 대한 지원이 필요하신가요?

지원 페이지로 이동

고지 사항

  1. 제품은 표시된 이미지와 다를 수 있습니다.

     

     

    제품 이미지는 단지 설명을 위한 것으로 나라별로 제품 가용성과 색상이 다를 수 있습니다

     

     

    본 문서에 포함된 정보는 예고 없이 변경될 수 있습니다. HP 제품 및 서비스에 대한 유일한 보증 사항은 해당 제품 및 서비스와 함께 제공되는 보증서에 명시되어 있습니다. 여기에 설명된 내용 중 어느 것도 추가적인 보증을 제공하지 않습니다. HP는 여기에 포함된 기술적, 편집상 오류나 누락에 대해 책임을 지지 않습니다.