알파고와 구글의 부활

블로그글 1편에서 우리는 1956년 다트머스 회의의 마빈 민스키와 존 매카시에서 시작해, 인공지능이 기호주의와 연결주의의 두 갈래로 갈라진 이야기를 했다. 2편에서는 강화학습의 아버지 리치 서튼이 그 두 갈래 모두 답이 아니라고 말한 The Bitter Lesson을 다뤘다. 3편에서는 Wolfram Schultz가 30년간 원숭이 뇌의 단일 뉴런을 들여다본 끝에 발견한 도파민 예측오차가, 1980년대에 서튼이 컴퓨터 안에서 만든 강화학습 알고리즘과 같은 신호라는 사실을 다뤘다. 그리고 그 발견이 가리키는 AI의 다음 좌표가 우연성이라고 결론지었다.

4편의 주인공은 그 우연성을 알고리즘에서 산업의 무기로 옮긴 회사다. 이름은 DeepMind. 회사의 미션 한 줄은 다음과 같다.

Solve intelligence, then use it to solve everything else. 지능 자체를 풀고, 그 지능으로 나머지 모든 문제를 푼다.

이 한 줄이 2010년 9월 런던에서 창업된 한 작은 스타트업의 출발 좌표였다. 그리고 16년 뒤, 같은 회사가 게임으로 인간 챔피언을 이기고, 단백질 폴딩 50년 문제를 풀고, 노벨 화학상을 받고, 자기를 인수한 모회사가 ChatGPT 충격으로 무너질 위기에 처했을 때 그 모회사 AI 전체의 키를 통째로 받게 된다.

회사를 창업하고 끌고 온 사람의 이름은 Demis Hassabis. 게임 디자이너 출신, 신경과학 박사, 그리고 지금 Google DeepMind의 단일 CEO다.

그의 이야기는 한 사람의 일대기처럼 보이지만, 본질은 한 회사의 사상사다. DeepMind라는 한 사상의 응집체가 16년 동안 한 가지 일을 일관되게 추구해온 이야기다. 그 일은 시뮬레이션 안에서 미래를 미리 두어보는 도구를 만드는 일이었다. 도구의 이름은 매번 달랐다. AlphaGo, AlphaGo Zero, AlphaZero, AlphaStar, AlphaFold, Gemini Deep Research. 그러나 사상은 한 번도 바뀌지 않았다.

그리고 그 사이 9년 동안, DeepMind가 일하는 모회사 안에서는 두 사상이 평행으로 굴러갔다. 한쪽은 DeepMind가 추구한 강화학습과 탐색이었고, 다른 쪽은 같은 회사 안의 다른 조직 Google Brain이 만든 LLM이었다. 두 사상은 한 머릿속에서 통합되지 못했고, 9년이 지나도록 한쪽은 자기 발명을 자기 제품에 적용하지 못했다. 그러다 5개월의 위기가 닥쳤다. 그 5개월이 9년 평행 구조의 비용을 한 번에 청구했다.

이 이야기를 시간순으로 풀자.

1막. 1994 — 17세, Theme Park를 디자인한 소년

Hassabis는 1976년 런던에서 태어났다. 부친은 키프로스계 그리스인, 모친은 중국계 싱가포르인이다. 7세에 체스를 시작했고, 13세에 영국 Under-13 챔피언이자 체스 마스터 등급에 올랐다. 16세에 케임브리지 대학 컴퓨터과학과에 합격했지만, 그는 입학 전에 1년의 휴학을 요구했다.

그 1년 동안 그가 한 일이, 4편 전체의 출발점이다.

휴학 기간 동안 그는 영국 길드포드의 작은 게임 스튜디오 Bullfrog Productions에 입사했다. 스튜디오의 대표는 Peter Molyneux. 1990년대 영국 게임 산업을 주도한 게임 디자이너 중 한 명이다. 17세의 Hassabis는 거기서 Theme Park라는 시뮬레이션 게임을 Molyneux와 공동으로 디자인하고, 본인이 lead developer 겸 chief programmer로 코드를 직접 작성했다. 1994년 출시, 약 1,500만 카피 판매. 그 시대 게임 산업에서 가장 큰 히트작 중 하나였다. Hassabis는 이 게임으로 번 돈으로 케임브리지 학비를 본인이 직접 충당했다.

게임의 본질은 단순했다. 플레이어는 가상의 놀이공원 운영자다. 어떤 놀이기구를 어디에 둘지, 입장료를 얼마로 책정할지, 직원을 몇 명 고용할지 결정한다. 그리고 게임은 그 결정의 6개월 뒤 미래를 시뮬레이션 안에서 보여준다. 입장객 수가 어떻게 변하는지, 매출이 어떻게 달라지는지, 다른 결정을 했다면 어떻게 됐을지를 비교할 수 있다.

이 게임이 한 일을 한 줄로 옮기면 이렇다 — 결정의 미래를 미리 두어보는 도구를 만든 것이다.

22년 뒤, 같은 사람이 만든 다른 도구의 이름이 AlphaGo였다. 알파고의 핵심 알고리즘 Monte Carlo Tree Search, 줄여서 MCTS는 정확히 같은 일을 한다. 다음 수가 아니라 다음 수에서 펼쳐질 미래의 시뮬레이션 트리를 두어보고, 가장 기대값이 높은 가지를 고른다. 17세 Hassabis가 만든 게임의 사상적 DNA가 22년 뒤 인간 챔피언을 이긴 알고리즘으로 반복된 셈이다.

게임에서 노벨상까지 가는 길은 멀어 보이지만, 그가 그 사이에 한 일을 사상의 결로 보면 한 번도 바뀐 적이 없다. 시뮬레이션 안에서 미래를 미리 두어보는 도구를 만든 일이 전부였다.

케임브리지 학부를 졸업한 뒤 그는 Lionhead Studios로 옮겨 Black & White에 참여했고, 자기 게임 회사 Elixir Studios를 차려 Republic: The Revolution을 만들었다. 게임 산업에서 9년을 보낸 뒤 2005년, 그는 게임을 떠나 University College London에서 인지신경과학 박사 과정을 시작했다. 지도교수는 Eleanor Maguire. 그가 박사 과정 중 Science에 발표한 2007년 논문은 해마(hippocampus)가 손상된 환자가 과거 기억뿐 아니라 미래 상상도 못 한다는 발견이었다. Science가 그 해의 Top 10 Breakthrough로 선정했다.

미래를 상상하는 능력이 뇌의 어느 부분에서 일어나는지를 본 것이다. 게임 디자이너가 시뮬레이션 게임을 만든 것과, 신경과학자가 미래 상상 회로를 본 것은 같은 질문의 다른 면이었다.

박사 과정을 마친 뒤 그는 Gatsby Computational Neuroscience Unit에서 박사후 연구원으로 1년을 보냈다. 그 자리에 같이 있던 사람이 Peter Dayan이었다. 시리즈 3편의 주인공 중 한 명이자, 1996년에 Schultz의 도파민 신호를 TD-error로 통합한 이론가다. Hassabis는 박사후 시절 Dayan과 같은 건물에서 일했다. 사상의 결로 보면 이 1년이 결정적이다. 게임 디자이너의 시뮬레이션 사상과, 신경과학자의 도파민 예측오차 이론이, 한 사람의 머릿속에서 만난 자리가 여기다.

그리고 2010년 9월, 그는 Mustafa Suleyman, Shane Legg와 함께 런던에서 한 회사를 창업한다. 회사 이름은 DeepMind Technologies였고, 미션은 다음 한 줄이었다.

Solve intelligence, then use it to solve everything else.

지능 자체를 푸는 회사. 그 지능으로 다른 모든 문제를 푸는 회사. 16년 뒤에 같은 미션이 그대로 노벨 화학상 시상대에 올라간다.

2막. 2010–2020 — DeepMind라는 한 사상의 응집체

DeepMind는 창업 4년 만에 구글에 인수된다. 2014년 1월, 약 4억 파운드, 6.5억 달러 규모. 당시 영국 IT 역사상 최대 규모의 인수였다.

인수된 직후 이 회사가 발표한 첫 번째 큰 작업이 2015년 2월 Nature에 실린 DQN 논문이다. Atari 게임 49종을 강화학습만으로 인간 수준으로 플레이하게 한 것. 인간이 룰을 한 줄도 가르쳐주지 않은 상태에서, 알고리즘이 보상 신호 하나만 보고 게임을 익혔다. 이 한 편의 논문이 회사의 사상을 드러냈다. DeepMind가 추구하는 것은 지능 자체이고, 그 지능을 만드는 방법은 보상 신호와 시뮬레이션과 탐색이라는 사실이다.

그 다음에 이어진 작품들의 목록을 한 줄씩 옮기자.

2016년 3월 — AlphaGo가 이세돌 9단을 4승 1패로 이긴다. 사용된 알고리즘은 MCTS와 정책망과 가치망의 결합이다. 알고리즘은 다음 수를 두기 위해 그 자리에서 수십만 번의 시뮬레이션을 돌린다. 다음 수가 아니라 그 수에서 펼쳐질 미래의 시뮬레이션 트리를 두어보고, 가장 기대값이 높은 가지를 고른다. 17세 Hassabis가 Theme Park에서 만든 도구의 알고리즘 버전이다. 이세돌 4국에서 나온 신의 한 수 78수는, AlphaGo가 그 직전에 자기 정책망이 추천하는 수와 다른, 등장 확률을 1만분의 1로 평가한 수를 던졌기 때문에 가능했다. 인간 챔피언의 가장 위대한 한 수가, 알고리즘이 자기 안에서 던진 우연성의 응답으로 나왔다. 이 사실 하나가 시리즈 3편의 결론 — 우연성이 학습의 연료다 — 과 1:1 호응한다.

2017년 10월 — AlphaGo Zero. 인간 기보를 한 줄도 보지 않고 self-play로만 학습한 알고리즘이 인간 데이터로 학습한 이전 버전을 100대 0으로 이긴다. 인간 데이터 없이도 강화학습과 탐색만으로 인간을 능가할 수 있다는 결정적 증명이다. AlphaGo의 진짜 발견은 게임에서 인간을 이긴 것이 아니라, 인간 지식 없이도 자체 학습으로 인간을 능가할 수 있다는 사실이었다.

2017년 12월 — AlphaZero. 같은 알고리즘 하나로 체스, 쇼기, 바둑 셋을 모두 인간 챔피언 수준으로 마스터한다. 게임마다 다른 알고리즘을 짤 필요가 없다. 한 사상이 세 게임에 일관되게 작동한다. 회사의 미션 한 줄이 작품에 그대로 드러난 사건이다.

2019년 10월 — AlphaStar가 StarCraft II에서 그랜드마스터 수준에 도달한다. 게임 트리가 폐쇄적인 보드게임이 아니라, 실시간으로 정보가 부분만 보이는 환경에서도 강화학습과 탐색이 작동한다는 증명이다.

2020년 11월 — AlphaFold 2. 게임이 아니라 과학으로 같은 사상을 적용한 첫 사례다. 단백질 구조 예측 분야의 50년 묵은 문제를 사실상 풀어버린다. CASP14 대회에서 압도적인 점수. 학계가 즉시 반응했다 — 이건 노벨상이다. 실제로 4년 뒤 그렇게 됐다.

5년 동안의 작품 목록을 보면 한 가지 사실이 드러난다. 이름은 매번 달랐지만 사상은 한 번도 바뀌지 않았다. 강화학습과 탐색을 결합한 시스템 안에서, 시뮬레이션으로 미래를 두어보고 가장 좋은 가지를 고르는 도구를 만드는 일이었다. 이 일관성이 우연이 아니다. 회사가 세운 미션 한 줄이 작품 하나하나에 그대로 들어 있는 것이다.

이 일관성을 가능하게 한 또 한 가지가 사상의 응집체였다. DeepMind 안에 모인 핵심 연구자들의 사상이 한 결로 이어진다.

AlphaGo의 연구를 이끈 David Silver의 박사 지도교수가 다름 아닌 리치 서튼이다. 시리즈 2편의 그 서튼이다. 서튼은 1980년대에 TD-error 알고리즘을 만들었고, 1998년 Reinforcement Learning: An Introduction 교과서를 썼다. David Silver는 서튼이 캐나다 앨버타 대학에서 박사 학위를 지도한 직계 제자다. 사상의 직접 계보가 이어진다.

Hassabis 본인은 2009–2010년 박사후 시절 Peter Dayan과 같은 건물에서 일했다. Dayan은 1996–1997년에 Schultz의 도파민 신호를 TD-error 알고리즘으로 통합한 이론가다. 시리즈 3편 3막의 그 Dayan이다. 즉 Hassabis는 도파민 예측오차 이론을 직접 정립한 사람과 같은 공간에서 박사후 1년을 보냈다.

DeepMind 다른 핵심 연구자들도 같은 결로 모인다. DQN 논문의 1저자 Volodymyr Mnih는 토론토 대학에서 Geoffrey Hinton 밑에서 박사를 받았다. AlphaGo의 핵심 엔지니어 Aja Huang은 대만에서 바둑 AI 박사를 받은 사람이다. AlphaFold 2의 1저자 John Jumper는 시카고 대학에서 생물물리학 박사를 받은 사람이다.

서튼의 강화학습 사상, Dayan의 도파민 RPE 사상, Hinton의 신경망 사상, 그리고 신경과학과 생물물리학과 게임 AI의 결이 한 회사 안에 모였다. DeepMind는 단순한 스타트업이 아니라, 한 사상의 응집체였다.

회사 미션 한 줄이 자리잡은 곳, 사상이 응집된 연구자들이 모인 곳, 그 위에 5년 동안 일관된 작품들이 나온 곳. 이 셋이 한 회사 안에 들어 있다는 사실이 4편의 출발점이다.

그러나 같은 회사를 인수한 모회사 안에서는 9년 동안 정반대의 일이 벌어진다.

3막. 2014–2023 — 9년의 평행 구조 + 5개월의 위기 + 한 결정

이 막이 4편의 진짜 드라마다. 시간순으로 세 장으로 나누어 풀자.

3-A. 2014–2017 — 모회사 안의 별개 사상으로 들어간 DeepMind

2014년 1월 구글이 DeepMind를 인수했을 때, 가격 6.5억 달러보다 더 중요한 것이 있었다. Hassabis가 협상에서 내건 조건들이다.

조건은 셋이었다. 첫째, DeepMind는 런던에 그대로 둔다. Mountain View로 이전하지 않는다. 둘째, 운영 독립을 보장한다. 연구 어젠다는 DeepMind가 결정하고, 구글은 자기 제품에 통합하라고 강제하지 않는다. 셋째, AI 윤리위원회를 별도로 설치한다. 군사 목적으로는 사용하지 않는다.

이 조건들의 표면은 운영 독립이지만, 본질은 미션 보호 장치다. "Solve intelligence, then use it to solve everything else." 이 미션을 지키려면 한 가지가 필수였다. 모회사의 단기 ROI 압박에서 연구 어젠다를 떼어내는 일. 광고 매출 카니발리제이션 같은 본진 보호 논리에 연구가 끌려 다니지 않게 하는 일. 윤리위원회는 단순한 거버넌스가 아니라 사상의 자유 보장 장치였다. AI for Science 어젠다를 자유롭게 추구할 권리, 그리고 AGI 안전 연구를 자기 결대로 진행할 권리. 그게 인수 조건의 진짜 내용이었다.

2015년 8월, 구글은 알파벳(Alphabet)이라는 지주사로 재편된다. Larry Page가 만든 이 구조 안에서 DeepMind는 구글의 자회사라기보다 알파벳의 sister company에 가까운 위치를 받았다. 같은 부모를 가진 형제 회사 같은 구조였다. Larry Page가 알파벳을 만든 이유 중 하나가 정확히 이것이었다. 검색 광고 매출이라는 본진과, DeepMind 같은 미래 베팅을 분리해서 운영하려는 것.

2015년부터 2017년까지 DeepMind는 런던 King's Cross 본사에서 거의 별개 회사처럼 운영됐다. 직원 수는 몇 년 만에 200명 대에서 1,000명 대로 늘었다. 적자도 같이 늘었다. 2016년 약 1.54억 파운드, 2017년 약 3.02억 파운드, 2018년 약 4.70억 파운드 적자가 영국 Companies House에 공시됐다. 2018년에는 알파벳에 대한 누적 채무가 약 10억 파운드를 넘어섰다. 모회사가 그 적자를 매년 부담했다.

그 적자의 대가가 무엇이었나. AlphaGo, AlphaGo Zero, AlphaZero, AlphaStar. 사상의 일관성을 학계와 일반 대중 양쪽에서 입증한 작품들이다. 그러나 매출 측면에서는 여전히 약했다. 모회사 입장에서 DeepMind의 가치는 학술적 권위에 머물러 있었다. 그 권위가 회사 매출로 어떻게 변환되는지가 보이지 않았다.

이 시점부터 본진과 사상의 응집체 사이에 긴장이 쌓이기 시작한다.

3-B. 2017–2022 — 두 사상의 평행 경쟁, 그리고 Brain이 자기 발견을 못 살린 이유

여기서부터 진짜 비극이 시작된다.

2017년 6월 12일, 모회사 안의 다른 조직 Google Brain의 8명이 한 논문을 arXiv에 올린다. 제목은 Attention Is All You Need. 저자는 Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan Gomez, Łukasz Kaiser, Illia Polosukhin. 이 8명의 affiliation을 보면 다수가 Google Brain 또는 Google Research 소속이고, 일부는 Google 외부(예: 토론토 대학) 또는 별도 소속이다. 정보가 모이는 자리는 한 곳이다 — DeepMind 사람은 한 명도 없다.

이 논문이 발표한 것이 Transformer라는 신경망 아키텍처다. 그리고 이 Transformer가 5년 뒤 ChatGPT의 G(Generative) P(Pretrained) T(Transformer)에서 T를 담당한다. LLM이라는 시대 전체의 사상적 원형이 같은 회사 안에서, 그것도 DeepMind가 아닌 Brain에서 나왔다는 사실이다.

같은 시기 DeepMind는 무엇을 하고 있었나. AlphaGo Zero를 만들고 있었고, AlphaZero를 만들고 있었고, AlphaStar를 만들고 있었다. RL+탐색 라인을 일관되게 추구하는 중이었다.

두 조직이 한 회사 안에 있었지만, 한 빌딩에 있지도 않았고 인사 교류도 거의 없었다. 한쪽은 Mountain View의 본사 안에 있었고, 다른 쪽은 런던 King's Cross에 있었다. 두 도시 사이의 거리만큼 두 사상의 거리도 떨어져 있었다. 시너지가 아니라 평행 경쟁이었다.

Brain이 만든 Transformer 위에 BERT가 올라갔다. BERT는 구글 검색에 통합됐다. 검색의 정확도를 올렸다. 거기까지였다. Brain의 LLM 라인이 검색을 보완하는 도구로는 들어갔지만, 검색을 대체하는 챗봇으로는 절대 만들지 않았다. 이유는 단순했다. 검색 광고 매출이 모회사 전체 매출의 60% 이상을 차지하고 있었기 때문이다. ChatGPT 같은 챗봇이 사용자의 검색 행동을 흡수해버리면 광고 매출이 무너진다. 자기 본진을 자기가 잡아먹는 구조에 모회사 본사는 동의할 수 없었다. 사상의 회피가 발명의 회피로 이어진 시기였다.

DeepMind 쪽에서도 평행 경쟁의 비용이 가시적으로 표면화되기 시작했다. 2018년 11월, DeepMind Health 부문이 통째로 Google Health로 이관된다. DeepMind Health는 영국 NHS와 협력해 환자 데이터를 다루는 의료 AI 부문이었다. 인수 당시 설치된 윤리위원회가 이 데이터에 대한 거버넌스를 책임지고 있었다. 그러나 모회사는 이 부문을 자기 산하로 흡수했다. Hassabis는 강하게 반대했지만 결정은 뒤집히지 않았다. The Guardian과 MIT Technology Review는 이 사건을 두고 DeepMind의 윤리위원회가 사실상 기능을 잃었다고 비판하는 기사를 실었다.

이 사건의 표면은 거버넌스 갈등이었지만, 본질은 사상 갈등이었다. 모회사 본사는 DeepMind를 자기 제품 라인 안으로 끌어들이고 싶어했다. DeepMind는 미션 한 줄을 지키며 장기 연구를 이어가고 싶어했다. 두 입장 사이의 충돌이 의료 데이터라는 가장 민감한 자리에서 터진 것이다.

2018년에서 2019년 사이, Mustafa Suleyman을 중심으로 DeepMind를 비영리 또는 독립 법인으로 분사하려는 시도가 진행됐다는 보도가 여러 곳에서 나왔다. 회사의 구조를 '주식을 발행하지 않고 헌장(charter)에 의해서만 운영되는 보증유한책임회사(company limited by guarantee)' 형태로 바꾸자는 제안이었다. 이 시도를 위해 Hassabis와 Suleyman은 외부 자본을 끌어들이려 했다. 벤처투자가 Reid Hoffman이 약 10억 달러를 지원하겠다고 약속했다. 변호사와 투자은행가들이 3년에 걸쳐 알파벳과 협상을 이어갔다. 결과는 거부였다. 매년 늘어나는 적자를 정당화하려면 DeepMind의 연구가 구글 제품에 들어와야 했고, 그러려면 분사는 불가능했다.

이 시점부터 Hassabis와 Sundar Pichai 사이에 분명한 긴장이 사내에 퍼져 있었다. 외부에는 잘 알려지지 않았지만, DeepMind는 언제든 떠날 수 있다는 인식이 사내에서 진지하게 회자되던 분위기였다.

그러다 2020년 11월에 한 사건이 권력 균형을 처음으로 흔든다.

DeepMind가 그 달 발표한 AlphaFold 2가 단백질 구조 예측 분야의 50년 묵은 문제를 사실상 풀어버렸다. 단백질 구조 예측 대회 CASP14에서 압도적인 점수를 받았다. 학계는 그 자리에서 즉시 반응했다. 이건 노벨상이다. 실제로 4년 뒤 그렇게 됐다.

AlphaFold 2는 LLM이 아니다. 강화학습과 구조 탐색이 결합된 시스템이다. DeepMind 사상의 가장 가시적인 증명이었다. 학계와 일반 대중이 동시에 DeepMind 사상이 옳다는 신호를 보낸 사건이었다. 모회사 사내의 권력 균형이 이 시점부터 처음으로 DeepMind 쪽으로 기울기 시작한다.

2021년에는 Isomorphic Labs가 분사된다. AlphaFold의 기술을 신약 개발에 산업화하기 위한 회사다. Hassabis가 CEO로 직접 맡았다. DeepMind 사상의 산업화 베팅이 가시화된다.

그러나 매출 측면에서는 여전히 약했다. 알파벳 본사 입장에서 DeepMind의 가치는 학술적 권위에 머물러 있었다. 9년 평행 구조의 비용이 누적되고 있었다. 누군가 청구서를 보내기를 기다리고 있었다.

2022년 11월 30일, 그 청구서가 도착한다.

3-C. 2022-11 ~ 2023-04 — 5개월의 위기와 한 결정

OpenAI가 ChatGPT를 발표한 날이다. 5일 만에 사용자 100만 명을 넘었다. 2개월 뒤에는 월 활성 사용자가 1억 명을 돌파했다. 컨슈머 앱 역사에서 가장 빠른 성장 곡선이었다.

핵심은 ChatGPT의 기술적 토대가 Transformer라는 사실이다. 5년 전 구글 Brain의 8명이 발표한 그 논문 위에 OpenAI가 GPT 시리즈를 올렸고, 그 GPT-3.5를 챗봇 인터페이스에 입혀 ChatGPT로 출시했다. 모회사가 발명한 사상의 핵심을 OpenAI가 제품으로 옮겨 모회사를 추월한 사건이다.

2022년 12월 21일, New York Times가 한 보도를 낸다. Sundar Pichai가 사내에 Code Red를 발령했다는 내용이었다. 모든 팀이 ChatGPT 대응에 리소스를 재배분하라는 지시였다. 같은 보도는 한 가지 사실을 더 전했다. Larry Page와 Sergey Brin이 다시 호출됐다. Page는 2019년 일선에서 물러난 뒤 거의 모습을 보이지 않던 인물이다. 그가 4년 만에 이사회 차원에서 다시 끌려 나왔다는 사실이 위기의 깊이를 보여준다. 단순한 제품 위기가 아니라 회사 사상 전체의 재설계가 필요한 위기라는 신호였다.

2023년 2월 6일, 구글이 황급히 Bard를 발표한다. ChatGPT에 대한 직접 응답이다. 공식 발표 자료에 들어간 데모 영상에서, Bard는 첫 답변에서 사실 오류를 낸다. 질문은 어린이가 9세 아이에게 James Webb Space Telescope의 발견에 대해 무엇을 말해줄 수 있느냐였다. Bard의 답변에 JWST가 우리 태양계 밖 행성을 처음으로 사진 찍었다는 문장이 들어 있었다. 사실은 그렇지 않다. 태양계 밖 행성의 첫 사진은 2004년 다른 망원경이 찍었다.

이 오류가 데모 영상에 그대로 살아남아 발표됐다. 다음 날 알파벳 주가는 약 7–9% 사이로 급락했고, 시가총액 약 1,000억 달러가 하루 만에 증발했다. 단순한 PR 사고가 아니었다. 모회사가 이제 못 따라잡는다는 시장 시그널로 해석됐다.

이 Bard 데모의 사실 오류는, 한 발 떨어져 보면 시리즈 2편에서 안드레이 카파시가 말한 명제의 가장 공개적인 증거이기도 하다. LLM은 본질적으로 통계적 증류이고, ground truth와 분리되어 있다. 다음 토큰을 예측하는 능력이 사실 검증 능력과 같지 않다. Brain의 LLM 라인을 그대로 따라가면 안 된다는 사실을, 모회사가 자기 손으로 전 세계 앞에서 증명해버린 사건이다.

2023년 3월 14일, Microsoft가 OpenAI에 100억 달러 추가 투자를 발표한다. 같은 달 Bing에 GPT-4가 통합된다. 검색 시장의 20년 패권이 흔들리기 시작한다는 분석이 NYT, WSJ, Financial Times 1면에 동시에 올라왔다.

여기까지가 위기의 5개월이다. 그리고 2023년 4월 20일, Sundar Pichai가 한 결정을 내린다.

Google Brain과 DeepMind를 통합한다. 새 조직 이름은 Google DeepMind. 그리고 Hassabis를 단일 CEO로 임명한다. Jeff Dean — 구글에서 20년 이상 일한 거인이자 Brain의 영원한 얼굴이었던 인물 — 은 Chief Scientist 자리로 옮긴다.

이 결정의 의미를 한 문장으로 옮기면 이렇다. 9년 전 인수했던 작은 런던 스타트업 창업자에게, 모회사 AI 전체의 키가 통째로 넘어간 것이다.

표면적으로는 조직 통합이지만, 본질은 사상 통합이다. RL+탐색이라는 DeepMind 사상과 LLM이라는 Brain 사상을 한 사람의 머릿속에서 합치겠다는 결정이다. 9년 전 Hassabis가 인수 협상 때 내건 운영 독립이라는 조건을 자기 손으로 깬 셈이다. 그러나 그가 받은 대가는 모회사 AI 전체의 사상을 자기 손으로 다시 그릴 권한이었다.

이 결정이 4편 thesis의 결정적 근거다. LLM 단일 베팅으로는 거대 기업도 무너질 수 있다. 두 사상이 평행으로만 굴러가는 회사는 9년이 지나도 자기 발명을 자기 제품에 적용하지 못한다. 한 머릿속에서 통합되는 순간에 비로소 다음 좌표가 잡힌다.

4막. 2023–2025 — Hassabis가 끌어올린 구글 부활

2023년 4월의 통합 발표 이후, 새 조직의 첫 작품은 같은 해 12월 6일 Gemini 1.0으로 나온다. Ultra, Pro, Nano 세 티어로 출시. 멀티모달 기반. 이게 통합 이후 첫 작품이라는 사실이 중요하다. 새 조직이 만든 모델에 RL+탐색 사상이 LLM 본체에 처음으로 통합되어 들어간 것이다.

2024년에 들어서면서 사건이 줄을 잇는다.

5월에는 Project Astra가 시연된다. 사용자의 카메라와 음성을 실시간으로 처리하는 범용 AI 에이전트다. 같은 달 8일, AlphaFold 3가 Nature에 실린다. AlphaFold 2가 단백질의 자체 구조 예측이었다면, AlphaFold 3는 단백질과 다른 분자(리간드, DNA 등) 사이의 결합 구조까지 예측한다. 신약 개발의 가장 어려운 자리에 직접 들어가는 도구다.

7월 25일, AlphaProof와 AlphaGeometry 2가 발표된다. 두 시스템이 국제수학올림피아드 IMO 2024에서 28점을 얻으며 은메달 수준의 점수를 기록한다. 6문제 중 4문제 정답. AlphaProof가 algebra 2문제 + number theory 1문제를 풀었는데, 그중에는 그 해 IMO 출전자 600여 명 중 단 5명만 푼 최고난도 문제도 포함됐다. AlphaGeometry 2가 geometry 1문제를 풀었다. 흥미로운 사실 하나 — IMO 같은 어려운 수학 문제는 LLM 단독으로는 거의 풀지 못한다. 다음 토큰을 예측하는 능력이 증명을 구성하는 능력과 같지 않기 때문이다. AlphaProof는 LLM에 정형 검증 도구와 탐색 알고리즘을 결합해 그 한계를 우회했다. RL+탐색이 LLM의 빈자리를 메우는 가장 가시적인 사례 중 하나가 됐다.

10월 9일, 노벨 화학상이 발표된다. 수상자는 David Baker, Demis Hassabis, John Jumper. 후자 두 사람이 AlphaFold로 수상했다. 게임 디자이너 출신이 노벨상을 받은 첫 사례다.

이 수상의 의미를 한 줄로 옮기면 이렇다. DeepMind가 2010년에 정한 미션 — Solve intelligence, then use it to solve everything else — 의 후반부가 노벨 무대 위에서 직접 작동한 사건이다. 지능을 푸는 시스템(AlphaFold)을 만들었고, 그 시스템으로 다른 문제(단백질 폴딩)를 풀었다. 14년 전 창업할 때 세운 미션 한 줄이 한 글자도 바뀌지 않은 채로 노벨상 시상대까지 갔다. 회사가 자기 미션을 일관되게 지킨다는 것이 어떤 결과를 낳는지를 보여준 가장 권위 있는 사례다.

AlphaFold는 LLM이 아니다. RL+구조 탐색 시스템이다. 즉 노벨 화학상이 DeepMind 사상의 가장 권위 있는 검증 자리가 됐다. 스케일링 법칙만으로 충분하다는 LLM 단일 베팅 진영의 사상이, 노벨상 무대 위에서 부분적으로 부정된 사건이다.

12월 11일, Gemini 2.0이 출시된다. 핵심 기능 두 가지가 들어간다. 하나는 Deep Research. 사용자가 한 가지 질문을 던지면, Gemini가 그 자리에서 수십 번의 검색을 수행하고, 각 검색 결과의 신뢰도를 평가하고, 가장 좋은 경로를 선택해 종합 보고서를 만들어낸다. 다른 하나는 Agentic 기능. Gemini가 사용자를 대신해 여러 단계의 작업을 자율적으로 수행한다.

Deep Research의 메커니즘을 한 줄로 옮기면 이렇다. 한 번의 답변이 아니라, 답변에 도달하는 탐색 트리를 두어보고 가장 기대값이 높은 경로를 고른다. MCTS의 LLM 버전이다. 17세 Hassabis가 Theme Park에서 만든 도구의 사상이, 30년 뒤 Gemini 2.0의 핵심 기능으로 다시 등장한다.

같은 12월에 Veo 2도 발표된다. 영상 생성 모델. OpenAI의 Sora에 대한 직접 응답이다.

그리고 2025년 1분기, Sensor Tower와 similarweb의 분석이 한 그래프를 보여준다. Gemini의 모바일 사용자가 ChatGPT의 모바일 사용자를 처음으로 추월하기 시작했다는 그래프다. 2년 전 -1,000억 달러 사건을 겪었던 회사가, 사상 단일 인수와 한 결정 끝에 다시 1등을 노리는 자리에 서 있다.

2025년 4월, Time이 100 Most Influential People 표지에 Hassabis를 두 번째로 올린다. 표지 한 줄 — "The architect of Google's AI revival." 모회사 AI 부활의 설계자. 그게 Hassabis가 받은 공식 호칭이다.

이 부활의 핵심을 한 문장으로 옮기면 이렇다. LLM 자체가 부활을 이끈 게 아니다. LLM과 RL과 탐색과 World Model을 한 시스템 안에 통합한 사상이 이끌었다. Brain과 DeepMind가 한 지붕 아래로 들어가서, 두 사상이 한 머릿속에서 작동하기 시작한 결과다.

5막. 그래서 우리는 어디로 가는가 — 패션회사의 매달 사입 결정, LeCun, 그리고 결론

여기서 우리 회사 운영으로 넘어와 보자.

5-A. 패션회사의 매달 사입 SKU 포트폴리오 결정

패션회사는 매달 중국과 베트남 현지에 직접 사입을 다닌다. 사입 한 번에 buyer가 마주하는 SKU 후보의 수는 수천 단위다. 1년에 두 번 SS와 FW로 끊어서 결정하는 회사가 아니다. 매달 같은 일을 다시 한다. 트렌드가 매달 움직이기 때문이다.

이 결정에 들어가는 변수는 한꺼번에 작동한다. 매입 단가, 품질, 현지 공장과의 협상 조건, 다음 한 달의 트렌드 감지 신호, 우리 브랜드 정체성과의 결, 기존 재고와의 충돌, 다음 한 달 매출에 미칠 영향, 그 다음 달 사이클과의 흐름. 한 SKU 후보 앞에 buyer가 섰을 때, 그 한 결정의 가지가 다음 두세 달의 회사 운영에 동시에 작용한다. 한 SKU 결정이 끝이 아니다. 그 결정이 다음 결정의 전제 조건이 되고, 그 다음 결정이 또 그 다음 결정의 전제가 된다. 한 달치 사입이 한 회의실에서 끝나는 게 아니라 현지 시장에서 끝없이 펼쳐지는 결정의 연쇄다.

빅데이터로 답을 찾으면 결과는 정해져 있다. 작년 같은 달 매출 1위 SKU의 변주가 답이다. 작년 10월에 베이지 트위드 자켓이 1위였다면 올해 10월에도 비슷한 트위드 라인을 사입. 안전한 답이고, 누구나 도달하는 답이다. 시리즈 3편의 용어로 옮기면, 이건 exploitation의 결과다. 그러나 사입을 매달 하는 회사에서는 이 답이 늦다. 트렌드는 매달 움직이고, 작년 데이터로는 그 움직임의 다음 한 발자국을 잡아낼 수 없다. 빅데이터만으로는 매달 한 발씩 늦은 결정이 누적된다.

우리는 다른 일을 했다. 회사의 인격을 온톨로지로 정리했다. 무엇을 정리했느냐. 브랜드 정체성, 과거 사입 결정의 누적 히스토리, 핵심 고객 페르소나, SNS와 시장에서의 트렌드 응답 패턴, 기존 재고의 회전 곡선, 경쟁사 매대 변동. 이 모든 정보를 회사의 인격으로 정리한 뒤, 그 위에서 수천 후보 SKU를 다음 한 달의 미래로 미리 두어봤다.

한 SKU를 어느 수량으로 사입하면 어떻게 풀리는지를 시뮬레이션 트리 안에서 두어봤다. 첫째, 그 SKU가 우리 브랜드 정체성의 결에 어떻게 떨어지는가. 둘째, 그 SKU가 어떤 채널과 어떤 매대에서 가장 잘 풀리는가. 셋째, 그 SKU가 다음 한 달 트렌드 응답의 어디에 자리잡는가. 넷째, 그 한 SKU의 매입 결정이 다음 달 사입 사이클의 또 다른 결정에 어떻게 이어지는가. 한 가지가 결정되면 그 다음 가지가 펼쳐지고, 또 그 다음 가지가 펼쳐졌다.

이게 정확히 AlphaGo가 MCTS로 한 일이다. 다음 수가 아니라 수의 시뮬레이션 트리를 두어보고, 가장 기대값이 높은 가지를 고른다. 17세 Hassabis가 Theme Park에서 만든 도구가 30년 뒤 중국과 베트남 현지에서 사입 결정을 내리는 한 패션 회사의 자리에서 다시 작동했다.

그 결과 빅데이터만으로는 절대 도달하지 못했을 SKU 조합이 매달 사입됐다. 작년 베스트의 변주가 아니라, 회사의 인격이 자기 다음 한 달을 미리 두어본 끝에 도달한 결정이었다. 한 달 한 달 누적된 결정이 회사가 자기를 학습하는 방식이었다. 사입은 단순한 매입 행위가 아니라, 회사가 자기 다음 수를 두는 게임이었다.

이것이 우리가 매일 하는 일이다. 빅데이터(exploitation)와 시뮬레이션 탐색(exploration)을 둘 다 안고 가는 것. 시리즈 3편의 명제 — 한 시스템이 자기를 학습하는 방식은 원숭이 뇌도, 인간 뇌도, 우리 클라이언트 회사도 같다 — 의 4편 적용판이다.

LLM만으로는 부족하다. LLM은 과거 데이터의 통계적 증류일 뿐, 미래의 시뮬레이션 트리를 두어보지 못한다. 그래서 우리는 클라이언트의 LLM 위에 RL+탐색을 결합한다. 한 회사가 자기 다음 수를 두는 자리에서, AlphaGo가 한 것과 같은 메커니즘이 작동해야 살아있는 결정이 나오기 때문이다.

5-B. 카운터 사상 — Yann LeCun의 "RL은 케이크 위 체리"

물론 이 사상이 학계의 유일한 답은 아니다. 시리즈 3편의 마지막에 우리가 Friston의 Free Energy Principle을 카운터로 다뤘던 것처럼, 4편의 자리에서도 정반대 입장의 거장 한 명을 짚어야 한다. Yann LeCun이다.

LeCun은 Meta의 AI Chief Scientist이자 2018년 Turing Award 공동 수상자다. Hinton, Bengio와 함께 딥러닝 3대 거장으로 불린다. 그가 일관되게 견지하는 입장이 있다. 2016년 NeurIPS 강연 이후로 같은 비유를 반복해서 말해왔다. Self-supervised learning이 케이크의 본체이고, supervised learning은 아이싱이며, RL은 그 위 체리에 불과하다. 같은 비유를 2020, 2022, 2024년 강연에서 반복했다.

LeCun이 제시하는 대안의 이름은 JEPA다. Joint Embedding Predictive Architecture. 입력 데이터를 그 자체로 self-supervised로 학습해서 World Model을 만들자는 입장이다. RL+탐색 진영을 향해 그가 던지는 비판은 명확하다. RL은 보상 신호 한 줄을 받기 위해 너무 많은 시도를 해야 하고, 그 효율성으로는 인간 지능에 도달할 수 없다. 진짜 답은 자체 학습으로 World Model을 만들고, 그 모델 안에서 미래를 예측하는 것이다.

Hassabis는 정반대 입장에 서 있다. RL+탐색 없이는 시스템 2 사고가 가능하지 않다는 입장이다. 인간 지능의 본질은 LLM의 다음 토큰 예측이 아니라, 시뮬레이션 안에서 미래를 두어보는 능력이라는 입장이다. 두 거장이 같은 좌표를 두고 정면으로 부딪히는 중이다.

LeCun이 옳은 부분이 있다. LLM이 인간 지식의 거대한 사전 분포를 흡수하는 능력은 RL이 한 적 없는 일이다. 시리즈 2편의 카파시 "유령" 비유의 강한 부분이 정확히 이 자리에 있다. 진화가 동물에게 부여한 사전 분포를, 인터넷 텍스트의 통계적 증류가 LLM에게 부여하는 셈이다.

Hassabis가 옳은 부분도 있다. 그 사전 분포 위에서 시뮬레이션을 두어보지 못하면 시스템 2 사고가 안 된다. AlphaProof가 IMO 2024에서 은메달 수준에 도달한 사실이 그 증거다. LLM 단독으로는 풀지 못하는 문제를 RL+탐색이 우회했다. 그리고 노벨 화학상이 같은 사상을 학계의 가장 권위 있는 자리에서 검증했다.

METAL AI의 입장은 명확하다. 학습이라는 영역에서, LLM 없는 RL+탐색은 효율이 안 나오고, RL+탐색 없는 LLM은 미래를 두어보지 못한다. 우리는 두 사상을 한 시스템 안에 통합한다. 한쪽만으로는 살아있는 회사를 학습시킬 수 없다는 것이 우리가 매일 내리는 결정이다.

그리고 9년의 평행 구조가 우리에게 가르쳐준 것이 한 가지 더 있다. 두 사상이 한 회사 안에 평행으로만 존재하면 시너지가 안 나온다. 비용만 쌓인다. 두 사상이 한 머릿속에서 통합되는 순간 — 2023년 4월 20일 Hassabis가 단일 CEO로 임명된 그 결정 — 비로소 폭발한다. 이 사실이 우리가 클라이언트마다 LLM과 RL+탐색을 한 시스템 안에서 통합하는 이유다. 평행으로 두지 않는다. 한 머릿속에 합친다.

5-C. 결론

여기서 30년 전 17세 소년의 게임으로 다시 돌아가자.

Hassabis는 같은 도구를 30년 동안 만들었다. 이름이 매번 달랐다. Theme Park, AlphaGo, AlphaFold, Gemini 2.0의 Deep Research. 그러나 본질은 같았다. 시뮬레이션 안에서 미래를 미리 두어보는 도구를 만드는 일이었다. 그리고 그가 창업한 회사 DeepMind는 14년 동안 같은 미션 한 줄을 지켰다. Solve intelligence, then use it to solve everything else. 한 글자도 바뀌지 않았다. 작품 하나하나에 그 미션이 그대로 드러났다.

같은 16년 동안, DeepMind가 일하는 모회사 안에서는 두 사상이 평행으로 굴러갔다. 한쪽은 그가 추구한 RL+탐색이었고, 다른 쪽은 같은 회사 안의 다른 조직이 만든 LLM이었다. 두 사상은 한 머릿속에 통합되지 못했고, 9년이 지나도록 한쪽은 자기 발명을 자기 제품에 적용하지 못했다. 그러다 5개월의 위기가 닥쳤다. 그 5개월이 9년 평행 구조의 비용을 한 번에 청구했다.

위기 끝에 한 결정이 내려졌다. 9년 전 인수된 작은 런던 스타트업 창업자에게 모회사 AI 전체의 키가 통째로 넘어갔다. 두 사상이 비로소 한 머릿속에서 통합되기 시작했다. 그리고 1년 반 만에 노벨상이 왔고, 2년 만에 Gemini가 ChatGPT의 모바일 사용자를 추월하기 시작했다.

이 사건의 메시지를 한 줄로 옮기면 이렇다.

두 사상이 평행으로 있는 회사는 9년이 지나도 자기 발명을 살리지 못한다. 한 머릿속에서 통합되는 순간에 다음 좌표가 잡힌다.

— METAL AI 운영 원칙

시리즈 1편의 끝에서 우리는 마빈 민스키의 한 줄을 남겼다. 지능의 힘은 단 하나의 완벽한 원리가 아니라, 우리의 광대한 다양성에서 비롯된다. 시리즈 2편의 끝에서는 리치 서튼과 안드레이 카파시가 던진 같은 질문 — LLM은 자체 경험으로부터 학습하지 못한다 — 에 대한 한 가지 실용적 대응책을 METAL AI는 한 시간 단위 인터뷰로 운영하고 있다고 적었다. 시리즈 3편의 끝에서는 회사도 살아있는 인간이고, 빅데이터로 인격을 세우고 우연성으로 미래를 던진다고 적었다. 시리즈 4편의 끝에서, 우리는 두 사상이 한 머릿속에서 통합되는 순간에 비로소 다음 좌표가 잡힌다는 사실을 남긴다.

LLM은 우리 회사의 도서관이다. RL+탐색은 우리 회사의 회의실이다. 둘 다 없으면 살아있는 결정이 안 나온다. 한쪽만으로는 다음 수가 안 나온다.

거대 조직이 두 사상을 평행으로만 굴리면 9년이 지나도 자기 발명을 살리지 못한다는 사실은, 회사의 크기와 무관하게 작동하는 법칙이다. 모회사가 매출 60%의 본진을 지키느라 자기 안에서 나온 Transformer를 자기 제품에 통합하지 못한 사건은, 본진이라는 단어가 들어가는 모든 회사에 같은 형태로 적용된다. LLM 단일 베팅으로 회사 미래 전체를 거는 모든 자리에 이 9년 평행 구조의 청구서가 같은 모양으로 도착한다. 그 청구서를 미리 받지 않으려면, 두 사상을 한 머릿속에 합쳐야 한다. METAL AI가 클라이언트마다 매일 작업하는 일의 본질이 거기에 있다.

다음 글에서는 노벨 화학상으로 검증된 AlphaFold 한 작품을 따로 풀거나, 또는 LeCun이 추구하는 World Model 사상을 더 깊게 다루거나, 또는 다음 인물로 넘어갈 것이다. 어느 쪽으로 가든 결론은 같은 자리로 모인다. 한 회사가 자기 다음 수를 두는 방식은, DeepMind가 AlphaGo로 만든 메커니즘과 같다. 빅데이터로 판을 읽고, 시뮬레이션으로 미래를 두어본다.

— 김현국 (Hyunkook Kim) · METAL AI 대표 · 2026년 5월 11일 (월)