EBS 최소 볼륨 실험기 & gp3로 전환한 이유

development/머신러닝 운영

root@soni 2025. 8. 10. 12:23

“이 모델이 진짜 8GB로 돌아갈 수 있을까?”라는 질문에서 시작된 실험. 그리고 비용, 성능, 탄력성을 모두 고려해 gp3로 갈아탄 이야기.

Stable Diffusion 기반 API를 운영하면서, 모델 구성 요소는 이미 EFS에 분리 저장한 상태였다.
그렇다면 애플리케이션 서버가 직접 사용하는 EBS는 꼭 125GiB까지 필요할까?

현재 서버는 g4dn.xlarge 타입인데, 여기에 다음 두 가지 스토리지가 기본으로 붙는다:

하지만 실제로 EBS를 얼마나 쓰는지, 그리고 어디까지 줄여도 안정적으로 운영할 수 있는지는 확인이 필요했다.

그래서 시작한 게 최소 EBS 볼륨 실험이었다.

실험: 최소 디스크 용량은 몇 GB?

# 초기 디스크 사용량 체크 (/dev/root 기준)
기본 환경 세팅 후 루트 볼륨 전체 사용량: 약 5.4GB  
EFS 마운트(/mnt/efs): 별도 스토리지로 로컬 디스크 사용량에 미포함  
남은 여유 공간: 약 2.6GB (총 8GiB 볼륨 기준)

EFS에 있는 모델 파일은 실제 디스크를 차지하지 않지만, 문제는 Stable Diffusion 컨테이너 실행 시 발생하는 temp 파일이었다.

Docker 이미지 설치, OS, 임시 파일 등을 감안하면 25~30GB 이상의 여유 공간이 필요할 것으로 추정

따라서 실질적으로 안정적인 운영을 위해선 최소 40GB 이상의 EBS 볼륨을 확보하는 게 적절하다고 판단

실험하면서 자연스럽게 “그럼 지금 쓰고 있는 EBS 타입은 최적인가?”라는 의문도 생겼다.
기존 인스턴스는 gp2 볼륨을 사용하고 있었고, AWS에서는 이제 gp3를 기본 권장하고 있다.

결과적으로:
더 싸고, 성능 기본값도 좋고, 필요 시 조정도 가능
→ 컨테이너 기반 MLOps 환경에는 gp3가 압도적으로 유리함.

이제 환경은 모두 정리되었고, 다음에는 이 구조를 자동화 파이프라인(n8n) 및 로그 관리, 모니터링과 연계하는 작업을 정리해보려고 한다.
인프라-모델-API가 모두 안정화된 후의 운영 자동화, 기대해도 좋다!!

Stable Diffusion 기반 API 서버 혹은 유사한 딥러닝 모델 인퍼런스 환경을 기준으로, 용도별 최소 권장 용량을 정리해봤어:

용도권장 용량비고

💡 캐시를 정리하거나 미리 이미지 빌드를 해두는 방식으로 최적화가 가능하지만, 운영 환경에서는 20GB 이하로 잡는 것은 리스크가 있다는 판단이야.

예: 로그 처리량이 많거나 디스크 I/O가 병목일 때

aws ec2 modify-volume \
  --volume-id vol-xxxxxx \
  --iops 6000 \
  --throughput 250 \
  --size 20

📌 단, 성능 설정은 요금에 영향을 미칠 수 있으니 필요한 경우에만 조절