HBM(고대역폭 메모리)이란 무엇인가 — 한국이 주도하는 AI 메모리 혁명 [1편]

키워드: HBM, 고대역폭 메모리, TSV, 3D 스태킹, AI 메모리, 삼성전자, SK하이닉스, GPU 메모리, HBM4, 반도체

이 글은 KAIST 김정호 교수의 AI 반도체 심층 강연을 바탕으로,

HBM 기술의 원리부터 한국 반도체 산업이 세계 AI 인프라를 어떻게 떠받치고 있는지를

독자 여러분이 직관적으로 이해할 수 있도록 재구성한 심층 해설 기사입니다.

AI 시대의 새로운 병목: 왜 메모리가 핵심인가

인공지능(AI) 기술이 폭발적으로 성장하면서 세상의 관심은 자연스럽게 GPU와 대규모 언어모델(LLM)로 쏠렸다. 하지만 AI 연구자와 반도체 전문가들이 오래전부터 경고해온 진짜 병목 지점은 따로 있다. 바로 메모리(Memory)다.

CPU나 GPU가 아무리 강력해도, 처리할 데이터를 메모리에서 충분히 빠르게 공급받지 못하면 프로세서는 멍하니 대기해야 한다. 이를 컴퓨터 과학에서는 ‘메모리 월(Memory Wall)’이라고 부른다. 클록 속도와 연산 능력은 수십 년간 무어의 법칙을 따라 빠르게 발전했지만, 메모리 대역폭의 성장은 그 속도를 따라가지 못했다.

ChatGPT를 필두로 한 대규모 언어모델은 수백억~수천억 개의 파라미터(가중치)를 저장하고 추론할 때마다 이 데이터를 메모리와 프로세서 사이에서 끊임없이 주고받아야 한다. GPT-4 수준의 모델이라면 단 한 번의 토큰 생성에도 수백 기가바이트의 데이터가 이동한다. 이 과정이 느리면 AI 서비스 전체가 느려진다.

이 거대한 병목을 뚫어줄 해법으로 등장한 것이 바로 HBM(High Bandwidth Memory, 고대역폭 메모리)이다. 그리고 이 HBM을 세계에서 가장 잘 만드는 나라가 바로 대한민국이다.

HBM의 탄생: 반도체 역사를 바꾼 수직 혁명

HBM 반도체 메모리 칩 — HBM 반도체 — 여러 DRAM 다이를 수직으로 쌓아 초고속 대역폭을 구현한다.

GDDR과 HBM, 무엇이 다른가

기존 그래픽 메모리인 GDDR(Graphics Double Data Rate)은 메모리 칩을 GPU 옆에 평면으로 배치하고, 긴 금속 배선(와이어)으로 연결하는 방식이었다. 이 방식은 배선 길이가 길어 신호 지연이 생기고, 배선이 차지하는 기판 면적이 넓어 전력 효율도 낮다. GDDR6X 기준 대역폭은 약 1TB/s 수준이지만, 전력 소비가 크고 발열이 심하다는 단점이 있다.

반면 HBM은 발상을 완전히 뒤집었다. 메모리 다이 여러 장을 수직으로 쌓아 올리고, 칩을 관통하는 TSV(Through-Silicon Via, 실리콘 관통 전극)로 연결한다. 그 적층된 메모리 스택을 GPU 다이 바로 옆에 인터포저(Interposer) 위에 함께 놓고, 짧은 구리 범프(마이크로 범프)로 연결한다. 이를 2.5D 패키징이라고 한다.

이 구조의 핵심은 두 가지다. 첫째, 수직 적층으로 면적을 줄이면서도 엄청난 수의 입출력(I/O) 핀을 확보한다. 둘째, GPU와 메모리의 물리적 거리가 극도로 짧아져 신호 전달이 빨라지고 전력 소비가 준다. 결과적으로 HBM3E 기준 대역폭은 최대 1.15TB/s에 달하며, GDDR6X 대비 절반 이하의 전력으로 더 높은 성능을 낸다.

TSV: 반도체에 뚫린 수직 고속도로

TSV 기술을 이해하려면 먼저 반도체 칩이 얼마나 얇은지를 알아야 한다. 현재 양산되는 반도체 웨이퍼는 가공 전 두께가 약 750마이크로미터이지만, HBM 적층에 쓰이는 다이는 30~40마이크로미터 수준으로 얇게 연마(그라인딩)된다. 머리카락 한 올(약 70마이크로미터)보다도 얇다.

이 극초박형 다이에 레이저나 플라즈마 에칭으로 수천~수만 개의 미세 구멍을 뚫고, 절연막을 씌운 뒤 구리(Cu)를 채워 넣으면 TSV가 완성된다. 구멍 하나의 직경은 5~10마이크로미터, 깊이는 다이 두께만큼 약 30~40마이크로미터다.

이 수직 도선 덕분에 상하 다이 사이의 신호 경로가 와이어 본딩의 수 mm에서 수십 마이크로미터로 단축된다. 신호가 이동하는 거리가 100분의 1로 줄어들면, 전송 지연도 그만큼 줄고 전력 소모도 함께 감소한다. 특히 HBM은 TSV를 통해 수천 개의 병렬 입출력을 구현해 대역폭을 기하급수적으로 높인다. GDDR이 64~256비트 버스를 쓰는 것과 달리, HBM3E는 한 스택에서 1,024비트 너비의 버스를 사용한다.

인터포저와 2.5D 패키징의 진화

HBM 스택은 단독으로 작동하지 않는다. GPU/AI 가속기 다이와 함께 인터포저(Interposer)라 불리는 중간 기판 위에 나란히 올려진다. 인터포저는 실리콘 또는 유리 소재로 만들어진 배선 기판으로, GPU와 HBM 스택 사이에 수만 개의 미세 배선을 제공한다.

엔비디아의 A100, H100, B200 GPU에 탑재된 HBM은 모두 이 2.5D 패키징 방식을 사용한다. HBM4부터는 GPU 다이 위에 HBM 다이를 직접 적층하는 3D 패키징도 검토 중이다. 이렇게 되면 신호 경로가 더욱 짧아지고 전력 효율이 한층 더 높아지지만, 제조 난이도와 수율(yield) 관리 측면에서 전례 없는 도전이 따른다.

삼성전자와 SK하이닉스: HBM 시장을 지배하는 두 거인

AI 연산 반도체 프로세서 — AI 연산의 심장부 — GPU와 HBM이 하나의 패키지에서 유기적으로 결합된다.

세계 최초 HBM 상용화, SK하이닉스의 선제적 투자

HBM의 역사를 이야기할 때 빼놓을 수 없는 이름이 있다. SK하이닉스다. SK하이닉스는 AMD의 협력 하에 2013년 세계 최초로 HBM 기술을 개발하고 양산에 성공했다. 당시만 해도 HBM은 고성능 워크스테이션이나 HPC(고성능 컴퓨팅) 분야에만 쓰이는 틈새 제품이었다.

그러나 2022년부터 ChatGPT와 대규모 언어모델 붐이 일어나자 HBM 수요가 폭발적으로 증가했다. SK하이닉스는 미리 쌓아 온 기술력 덕분에 엔비디아 H100 GPU에 HBM3를 독점 공급하며 시장 선두를 굳혔다. 2024년에는 HBM3E 양산을 세계 최초로 시작했으며, 2025년 현재 SK하이닉스의 HBM 시장점유율은 50%를 상회한다.

SK하이닉스의 성공 비결 중 하나는 과감한 선행 투자다. HBM 수요가 가시화되기 이전부터 TSV 공정 라인과 적층 설비에 조(兆) 단위의 투자를 단행했다. 반도체는 설비 투자부터 양산 시작까지 최소 2~3년이 걸리기 때문에, 앞을 내다보는 투자 결정이 오늘의 시장 지배력을 만든 셈이다.

삼성전자의 HBM 추격전: 수율과 기술 격차 극복

삼성전자는 세계 최대 메모리 반도체 기업이지만 HBM 시장에서는 후발 주자다. HBM3E 인증 과정에서 엔비디아의 까다로운 수율·성능 기준을 통과하는 데 어려움을 겪으며 시장 진입이 늦어졌다. 그러나 삼성전자는 포기하지 않았다.

삼성은 HBM4 개발을 엔비디아와 긴밀히 협력하면서 맞춤형 HBM(Custom HBM) 전략을 추진하고 있다. 기존처럼 표준 규격의 메모리를 납품하는 것이 아니라, GPU 아키텍처에 최적화된 커스텀 설계를 공동으로 진행하는 방식이다. 또한 삼성전자는 HBM-PIM(Processing-In-Memory) 기술도 함께 개발 중인데, 이는 HBM 내부에 간단한 연산 회로를 내장해 데이터를 메모리에서 직접 처리하는 혁신적인 접근이다.

삼성전자 & SK하이닉스 — 공식 정보 바로 가기

삼성 반도체 홈페이지
삼성전자 주가 (네이버)
SK하이닉스 홈페이지
SK하이닉스 주가 (네이버)

HBM의 세대별 진화: HBM1에서 HBM4까지

세대	대역폭 (스택당)	핀 수	주요 탑재 GPU/AI칩	양산 시기
HBM1	128 GB/s	1,024	AMD Fury X	2015
HBM2	256 GB/s	1,024	AMD Vega, NVIDIA V100	2016~2018
HBM2E	461 GB/s	1,024	NVIDIA A100, AMD MI250	2019~2021
HBM3	819 GB/s	1,024	NVIDIA H100	2022~2023
HBM3E	1,150 GB/s	1,024	NVIDIA H200, AMD MI325X	2024~현재
HBM4 (예정)	1,500+ GB/s	2,048	NVIDIA B300 시리즈 등	2025~2026

KV 캐시와 HBM의 관계: AI의 단기 기억을 담다

HBM이 AI에 얼마나 중요한지를 이해하려면 KV 캐시(Key-Value Cache)를 알아야 한다. LLM이 텍스트를 생성할 때, 이전에 생성한 토큰들의 어텐션(Attention) 정보를 계속 재사용한다. 이 재사용 정보를 저장하는 고속 임시 저장소가 KV 캐시다.

모델이 길수록, 맥락(컨텍스트)이 길수록 KV 캐시에 필요한 메모리 용량이 기하급수적으로 증가한다. GPT-4 수준의 모델이 긴 문서를 처리할 때 KV 캐시만으로도 수십 기가바이트가 필요할 수 있다. 이 KV 캐시가 HBM에 올라가야 빠른 추론이 가능하다. 즉, HBM 용량 = AI의 단기 기억 용량이라는 등식이 성립한다.

HBM3E 기준으로 엔비디아 H200에 탑재된 HBM 총용량은 141GB다. 반면 B200은 HBM3E 192GB를 탑재한다. HBM 용량이 늘어날수록 한 번에 더 긴 맥락을 처리할 수 있고, 더 복잡한 AI 작업이 가능해진다.

HBM 제조의 극한 난이도: 수율이 전부다

왜 HBM은 만들기 어려운가

HBM 제조의 핵심 과제는 수율(Yield)이다. 여러 개의 DRAM 다이를 쌓아 올릴 때, 각 다이의 TSV 연결이 완벽해야 한다. 만약 8단 적층 HBM에서 단 하나의 다이라도 불량이면 스택 전체가 불량이 된다. DRAM 다이 하나하나는 수율이 95%라 해도, 8단 적층 HBM의 이론적 수율은 0.95의 8승인 약 66%에 불과하다. 이 수율을 90% 이상으로 끌어올리는 것이 HBM 제조의 핵심 경쟁력이다.

이를 위해 SK하이닉스와 삼성전자는 MR-MUF(Mass Reflow-Molded Underfill) 공정, TC-NCF(Thermal Compression Non-Conductive Film) 공정 등 독자적인 접합 기술을 개발했다. 이 공정들은 다이 적층 시 발생하는 열·압력·정렬 오차를 최소화해 수율을 극대화한다.

HBM 테스트의 어려움: 시간이 돈이다

완성된 HBM 스택은 수천 개의 핀을 통해 전기적 특성, 데이터 무결성, 열 특성을 모두 검증해야 한다. 이 테스트 과정만 수 시간이 걸린다. 특히 엔비디아와 AMD 같은 고객사들은 단순한 스펙 충족을 넘어 자사 시스템에서의 실제 성능까지 검증하기 때문에, HBM 공급업체는 고객의 실제 워크로드에 맞춘 최적화 능력도 갖춰야 한다.

한국의 HBM 생태계: 소재·장비·설계까지

반도체 소재 강국으로서의 한국

HBM 경쟁력은 삼성과 SK하이닉스만의 이야기가 아니다. 그 뒤에는 탄탄한 반도체 소재·부품·장비(소부장) 생태계가 있다. 한국의 솔브레인, 동진쎄미켐, SKC 등은 HBM 제조에 필수적인 고순도 화학물질, 포토레지스트, 구리 연마 슬러리 등을 공급한다. 테크윙, 한미반도체 등은 HBM 제조와 테스트에 필요한 핵심 장비를 제공한다.

특히 한미반도체의 TC 본더(열압착 본딩 장비)는 HBM 적층 공정에서 전 세계 시장 점유율 80% 이상을 차지한다. HBM이 팔릴수록 한미반도체 장비도 팔린다는 구조다. 이러한 생태계 전체가 한국의 HBM 경쟁력을 구성한다.

KAIST와 학계의 역할: 원천 기술을 지키는 방패

KAIST 김정호 교수팀을 비롯한 국내 대학과 연구소들은 HBM의 미래 기술인 PIM(Processing-In-Memory), NDP(Near-Data Processing), 뉴로모픽 컴퓨팅 등의 원천 기술을 연구하고 있다. 이 연구들은 단기 이익을 내기 어렵지만, 5~10년 후 차세대 메모리 경쟁에서 한국이 계속 우위를 유지할 수 있는 기반을 만든다.

핵심 인사이트: HBM은 왜 한국만 잘 만드나

HBM 제조는 메모리 설계, 초박형 다이 가공, TSV 공정, 3D 적층, 패키징, 테스트를 하나의 라인에서 통합 운영해야 한다. 이 모든 공정에서 세계 최고 수준의 역량을 동시에 보유한 기업은 지구상에 삼성전자와 SK하이닉스 둘뿐이다. 미국, 일본, 중국이 추격하고 있지만, 이 통합된 제조 생태계를 구축하는 데는 수십 년이 필요하다.

HBM4, HBF, 그리고 미래 전망

HBM4: 핀 수 2배, 대역폭 혁신

2025~2026년 양산 예정인 HBM4는 핀 수를 현재 1,024비트에서 2,048비트로 두 배 늘리고, 대역폭을 1.5TB/s 이상으로 높이는 것이 목표다. HBM4에서 특히 주목받는 것은 로직 다이(Logic Die)의 도입이다. 기존 HBM 스택 하단에 단순한 버퍼 다이가 있었다면, HBM4에서는 이 다이를 최신 파운드리 공정으로 제조해 다양한 로직 기능을 추가할 수 있다. 이는 메모리가 단순한 저장 장치를 넘어 연산에 참여하는 PIM의 초기 구현이다.

HBF(High Bandwidth Flash): 차세대 스토리지 혁명

HBM과 개념적으로 유사하지만 플래시 메모리를 사용하는 HBF(High Bandwidth Flash)도 주목받고 있다. HBF는 NAND 플래시를 수직으로 적층해 SSD보다 훨씬 높은 대역폭을 달성하면서도, HBM보다 저렴한 비용으로 대용량 AI 메모리를 제공할 수 있다. SK하이닉스와 삼성전자는 모두 HBF 관련 기술 개발에 투자 중이다.

FAQ: HBM에 대해 자주 묻는 질문

Q. HBM(고대역폭 메모리)이란 무엇인가요?

A. HBM은 여러 개의 DRAM 다이를 수직으로 적층하고 TSV(Through-Silicon Via, 실리콘 관통 전극)로 연결한 고성능 메모리입니다. 기존 GDDR 대비 대역폭이 5~10배 이상 높아 AI 학습·추론, 그래픽 처리 등 초고속 데이터 전송이 필요한 분야에 핵심적으로 사용됩니다.

Q. TSV 기술은 어떤 원리로 작동하나요?

A. TSV는 반도체 칩을 수직으로 관통하는 미세한 구멍(홀)에 전도성 물질을 채워 넣어 전기 신호가 위아래 칩 사이를 직접 오가도록 하는 기술입니다. 기존 와이어 본딩보다 수백 배 짧은 거리로 신호가 이동하므로 전송 속도가 획기적으로 빨라지고 전력 소비도 줄어듭니다.

Q. 삼성전자와 SK하이닉스 중 HBM을 먼저 개발한 곳은 어디인가요?

A. SK하이닉스가 세계 최초로 HBM을 개발해 2013년 양산에 성공했습니다. 이후 삼성전자도 뒤를 이어 HBM 시장에 진입했으며, 현재 두 기업이 전 세계 HBM 시장의 대부분을 점유하고 있습니다.

Q. HBM이 AI에 꼭 필요한 이유는 무엇인가요?

A. 대규모 언어모델(LLM) 같은 AI는 수백억~수천억 개의 파라미터를 처리할 때마다 방대한 양의 데이터를 메모리와 프로세서 사이에서 주고받아야 합니다. 이 병목을 메모리 월(Memory Wall)이라고 하는데, HBM은 초고속 대역폭으로 이 병목을 크게 완화시켜 AI 연산 속도를 수 배 이상 높여 줍니다.

Q. HBM3E와 HBM4의 차이점은 무엇인가요?

A. HBM3E는 현재 양산 중인 최신 세대로, HBM3 대비 대역폭과 용량이 약 50% 향상됐습니다. HBM4는 기존 2.5D 패키징을 넘어 GPU 다이와 메모리 다이를 하나의 패키지에 더 긴밀하게 결합하는 방식으로, 대역폭 1TB/s 이상과 더 낮은 전력 소비가 목표입니다. 2025~2026년 양산이 예상됩니다.

시리즈 전체 보기

이 게시물이 얼마나 유용했습니까/

평점을 매겨주세요.

평균 평점 0 / 5. 투표수 : 0

가장 먼저 게시물을 평가해 보세요.