도파민과 예측오차

AI의 미래는 결정론이 아니라, 우연성에 있다. 그리고 이 답은 인공지능 연구실이 아니라 30년 전 원숭이 뇌에서 먼저 나왔다.

블로그글 1편에서 우리는 1956년 다트머스 회의의 마빈 민스키와 존 매카시에서 시작해, 인공지능이 기호주의와 연결주의의 두 갈래로 갈라진 이야기를 했다. 2편에서는 강화학습의 아버지 리치 서튼이 그 두 갈래 모두 답이 아니라고 선언한 The Bitter Lesson을 다뤘다 — "진짜 길은 인간의 지식을 대량으로 넣어서 시스템에 가두어 넣는 게 아니라, 시스템이 경험으로부터 학습하는 것이다."

3편의 주인공은 누구인가. 이름은 Wolfram Schultz. 영국 케임브리지 대학의 신경과학자다. 그가 30년간 원숭이 뇌의 단일 뉴런을 들여다본 끝에 증명한 것은 이렇다 — 1980년대에 서튼이 만든 강화학습 알고리즘이, 진짜로 우리 머릿속에서 작동하고 있다.

그리고 그 발견의 한가운데에 있는 단어가 우연성이다.

여기서 말하는 우연성은 단순한 무작위가 아니다. 강화학습 이론에서는 Exploration이라 부르는 것 — 알고리즘이 자기가 모르는 길을 일부러 시도해보는 행위다. 그리고 동시에, 뇌의 도파민이 가장 강하게 반응하는 트리거이기도 하다. 우연한 행동이 일어나야 예측이 빗나간다. 예측이 빗나가야 학습이 일어난다. 이걸 30년 동안 학계는 실험과 이론을 번갈아 던지면서 증명해왔다.

시간순으로 가보자.

1막. 1980년대 — Schultz가 본 이상한 신호

먼저 잘못 알려진 것 하나를 깨고 시작하자. 도파민은 쾌락 호르몬이 아니다. 사탕이 아니다. 놀라움이다.

1980년대 후반, Wolfram Schultz는 마카크 원숭이의 머릿속에 미세 전극을 꽂고 도파민 뉴런 하나하나의 활동을 기록하고 있었다. 실험은 단순했다. 원숭이 앞에 작은 상자를 두고, 어떤 신호(불빛이나 소리)가 울리면 잠시 후 상자에서 주스가 나온다. 원숭이는 학습한다. 신호 → 주스. 도파민 뉴런이 언제 발화하는지를 본다.

처음 며칠 — 주스가 입에 닿는 순간 도파민 뉴런이 강하게 발화한다. "쾌락 호르몬"이라는 통설과 일치한다. 그런데 학습이 진행되면서 이상한 일이 일어난다. 원숭이가 신호를 듣고 "이제 주스가 나오겠구나"라고 예측하기 시작하자, 도파민은 주스를 받는 순간이 아니라 신호가 울리는 순간에 발화한다. 정작 주스를 받는 순간엔 침묵한다.

더 이상한 일도 있다. 신호는 울렸는데 주스가 나오지 않는다. 그러면 도파민이 발화하지 않는 정도가 아니라, 평소 기준선 아래로 푹 꺼진다. 활동이 죽는다.

여기서 Schultz가 본 패턴은 셋이다.

예상하지 못한 보상이 왔을 때 — 도파민 폭발
예상한 대로 보상이 왔을 때 — 도파민 무반응
예상한 보상이 오지 않았을 때 — 도파민 함몰

이건 보상 신호가 아니다. 예측이 빗나간 정도를 측정하는 신호다. 도파민은 사탕이 아니라, "어, 내 예측이랑 다르네?"라는 놀라움의 양을 뇌에 코딩하고 있었다.

문제는 1980년대의 Schultz에게는 이걸 설명할 이론적 도구가 없었다는 것이다. 그는 데이터만 쌓아갔다. 답은 다른 곳에서 만들어지고 있었다.

2막. 1981/1988 — Sutton-Barto가 만든 공학적 답

1981년, 미국 매사추세츠 대학의 박사과정생이던 리치 서튼과 그의 지도교수 앤드루 바토는 동물 학습 이론에 빠져 있었다. 1972년 심리학자 Robert Rescorla와 Allan Wagner가 만든 모델이 있었다 — 학습이란 "예측오차"에 비례한다. 동물은 "예상한 만큼"이 아니라 "예상이 빗나간 만큼" 학습한다.

서튼-바토는 이걸 컴퓨터 알고리즘으로 옮겼다. 1981년 Psychological Review에 실린 "Toward a modern theory of adaptive networks"가 그 결과다. 핵심 아이디어 하나로 압축된다 — 시간상 연속하는 두 예측의 차이로 학습하라. 이게 Temporal Difference, 줄여서 TD-error다. 1988년 서튼은 단독 논문 "Learning to predict by the methods of temporal differences"를 Machine Learning에 실으면서 이 이름을 학계에 새겨놓았다.

TD-error를 한 줄로 옮기면 이렇다.

학습 신호 = 다음 순간의 예측 - 지금 순간의 예측

알고리즘이 어떤 행동을 한다. 보상이 들어온다. 그 보상에 따라 미래에 대한 예측이 갱신된다. 이전 예측과 갱신된 예측의 차이 — 그게 TD-error다. 알고리즘은 이 오차의 크기만큼만 학습한다. 예측이 정확하면 학습은 0. 예측이 빗나가면 빗나간 만큼만 가중치가 움직인다.

서튼-바토는 1980년대 내내 이 알고리즘을 키웠다. 1989년 Cambridge의 박사과정생 Chris Watkins가 Q-learning을 발표하면서 강화학습은 더 정교한 도구를 얻었다. 1992년에는 Gerald Tesauro가 TD-Gammon이라는 백개먼 프로그램을 만들어 세계 챔피언을 이겼다. 흥미로운 건 TD-Gammon이 인간이 한 번도 가르친 적 없는 수를 발견했다는 사실이다. 백개먼 고수들이 절대 두지 않는 수를 알고리즘이 자기 학습으로 발견했고, 그게 사람을 이겼다. 인간 지식을 넣지 않은 시스템이 인간을 넘어서기 시작하는 첫 신호였다.

그리고 1998년, 서튼과 바토는 17년의 작업을 한 권의 책으로 묶는다. Reinforcement Learning: An Introduction. 이 책은 강화학습 분야의 교과서가 됐고, 2016년 AlphaGo가 이세돌을 이긴 사건의 사상적 토대가 됐다. 서튼이 뿌린 씨앗이 35년 뒤 결실을 맺은 셈이다.

하지만 이건 어디까지나 컴퓨터 안의 이야기였다. 뇌가 정말로 이렇게 작동하는지는 아무도 몰랐다.

원숭이 뇌의 데이터와 컴퓨터 안의 알고리즘. 두 흐름은 서로 모르는 채 1990년대 중반까지 평행으로 흘렀다.

3막. 1996/1997 — 두 흐름의 만남

만남은 한 사람을 통해 일어났다. Peter Dayan. 영국 출신의 이론신경과학자다. Dayan은 서튼-바토의 강화학습 이론을 알고 있었고, Schultz의 원숭이 데이터도 알고 있었다. 그리고 그는 깨달았다 — 두 개가 같은 신호다.

1996년, Dayan은 P. Read Montague, Terrence Sejnowski와 함께 Journal of Neuroscience에 12쪽짜리 논문을 실었다. 제목은 "A framework for mesencephalic dopamine systems based on predictive Hebbian learning". 이 논문이, Schultz의 원숭이 도파민 뉴런 활동을 TD-error로 정확히 설명할 수 있다는 첫 이론적 통합이었다.

그리고 1년 뒤. 1997년 3월, 세 사람의 이름이 Science 표지에 나란히 오른 논문이 나온다.

Schultz, Dayan, Montague — A Neural Substrate of Prediction and Reward. Science 275, 1593-1599.

7쪽짜리 이 논문이 신경과학과 인공지능의 역사를 바꿨다. Schultz의 실험 데이터와 Dayan-Montague의 이론이 한 페이지에서 만났다. 도파민 뉴런이 발화하는 패턴은 TD-error 알고리즘의 출력과 거의 일치한다. 인용 횟수 9,425회 이상. 신경과학에서 가장 많이 인용된 논문 중 하나다.

이 논문이 보여준 것은 단순한 상관관계가 아니다. 서튼이 1981년에 동물학습 이론을 보고 만든 공학적 알고리즘이, 1990년대에 와서 진짜 동물의 뇌 안에서 작동하고 있다는 것이 발견된 사건이다. 공학이 먼저였고, 뇌가 그 공학을 사후 검증해줬다.

여기서 멈추면 안 된다. 1997년의 발견은 원숭이 한정이었다.

4막. 2003 → 2017 — 인간 뇌에서도, 그리고 Brain Prize

2003년, Neuron 저널에 두 편의 논문이 거의 동시에 실렸다.

John O'Doherty 외 — "Temporal difference models and reward-related learning in the human brain"
Sam McClure, Greg Berns, Read Montague — "Temporal prediction errors in a passive learning task activate human striatum"

방법은 fMRI였다. 사람을 자석 안에 넣어 뇌를 영상으로 찍으면서, 원숭이에게 했던 것과 똑같은 실험을 인간에게 시켰다. 신호를 주고, 시간 차를 두고 보상이 따라온다. 학습이 일어난다.

결과는 정확히 같았다. 인간의 선조체와 안와전두피질에서, 원숭이 도파민 뉴런이 보였던 것과 동일한 TD-error 패턴이 나타났다. 인간 뇌도 같은 알고리즘으로 학습한다. 종을 넘어선 보편 원리였다.

도파민 RPE 가설이 자리잡은 뒤, 임상 의학의 풍경도 함께 바뀌었다. 약물 중독은 도파민 시스템이 우연한 보상에 과민반응하도록 학습된 상태로 재정의됐다. 우울증의 무쾌감(anhedonia)은 보상 신호가 무뎌진 결과로 해석되기 시작했다. 도박 중독자가 손해가 누적되는데도 베팅을 멈추지 못하는 이유, 파킨슨병 환자가 도파민 뉴런 자체의 손실로 의지의 점화에 어려움을 겪는 이유 — 모두 같은 RPE 메커니즘 위에서 다시 풀렸다. 30년 전 원숭이 뇌의 작은 신호 하나가 인간 정신의 폭을 다시 그리게 됐다.

그리고 2017년. 덴마크 Lundbeck Foundation이 주는 The Brain Prize를 Wolfram Schultz, Peter Dayan, Ray Dolan 세 사람이 공동 수상한다. 신경과학계에서 가장 큰 상이다. 수상 사유는 한 줄로 적혀 있다 — "보상 관련 학습의 신경 메커니즘 발견 공로."

여기까지가 발견의 역사다. 이제 진짜 중요한 질문이 남는다.

그래서 AI는 어디로 가는가.

5막. 그래서 AI는 어디로 가는가 — 우연성이 단서다

Schultz가 발견한 것의 본질을 한 번 더 짚자. 도파민은 "예상 못한 것"에 반응한다. 보상 그 자체가 아니라, 보상에 대한 예측이 빗나간 정도에. 그래서 모든 게 예상대로면 도파민도, 학습도 없다.

그런데 여기서 진짜 질문이 생긴다.

그 "예상 못함"은 어디서 오는가.

답은 두 갈래다. 첫째, 환경이 우연히 새로운 것을 던질 때. 둘째, 알고리즘 자신이 우연한 행동을 시도할 때. 둘 중 후자가 핵심이다. 환경은 통제할 수 없지만, 행동은 학습 시스템이 스스로 던질 수 있기 때문이다.

1980년대 서튼-바토가 강화학습에 심은 메커니즘 중 하나가 ε-greedy다. 알고리즘은 대부분의 시간엔 자기가 가장 좋다고 믿는 행동을 한다 — 이게 exploitation이다. 그러나 정해진 확률 ε만큼은 무작위로 다른 행동을 한다 — 이게 exploration이다. 이 무작위 시도가 없으면, 알고리즘은 자기가 처음 발견한 작은 보상에 갇혀버린다. 더 큰 보상이 다른 길에 있다는 걸 영원히 모른다.

서튼의 강화학습은 우연성 없이는 작동하지 않는다.

그리고 인간 뇌도 똑같다.

2010년대 들어 신경과학자들은 인간이 어떻게 탐색하는지를 직접 측정하기 시작했다. 결과는 명확했다. 인간 뇌는 directed exploration(불확실한 옵션을 의도적으로 시도하는 것)과 random exploration(아예 무작위로 시도하는 것)을 혼합해서 쓴다. 후자는 노르아드레날린이라는 신경전달물질에 의해 변조된다. 더 거슬러 올라가면 1987년 Gerald Edelman이 Neural Darwinism에서 내놓은 명제 — "뇌는 무작위 변이와 선택의 시스템이다" — 가 같은 자리에 도달한다.

이제 산업으로 넘어와 보자. 가장 명확한 사례가 테슬라의 자율주행이다.

테슬라 FSD는 v12까지 imitation learning이었다. 수백만 시간의 인간 운전 데이터를 신경망에 먹이고, 인간 행동을 모방하게 했다. 30만 줄의 룰 기반 코드가 통째로 신경망으로 교체된 시점이 이때다. 결과는 인상적이었지만 한계가 명확했다. 모방은 학습한 데이터 분포 안에서만 통한다. rare하고 safety-critical한 시나리오 — 사고 직전의 엣지 케이스 — 에서 모방은 답을 만들지 못한다. 인간 운전자가 한 번도 보여주지 않은 상황엔 신경망이 답이 없다.

그래서 v13/v14에서 테슬라가 명시적으로 택한 방향이 강화학습 + 시뮬레이션 기반 exploration이다. 시뮬레이션 안에서 알고리즘이 우연한 변동을 던져 가며 위험 시나리오를 무수히 시도한다. 인간이 한 번도 시도해본 적 없는 행동을 알고리즘이 우연으로 시도하고, 시뮬레이션 환경이 결과로 보상한다. v12.5에서 v13으로 가면서 critical intervention 빈도가 100배에서 1000배까지 개선될 것으로 예측된 근거가 이 전환에 있다. 2025년 6월 오스틴에서 출범한 Robotaxi 프로그램도 이 라인 위에서 가능해진 사건이다.

이 시대 가장 어려운 AI 문제 중 하나인 자율주행을, 인간을 모방하는 것이 아니라 인간이 한 번도 시도해본 적 없는 행동을 우연히 던지는 것으로 풀어내고 있다는 게 핵심이다.

그리고 우리 회사의 운영에 대해

이걸 우리 회사 운영에 적용하면 어떻게 되는가.

METAL AI는 클라이언트의 빅데이터를 ERP에서 수집한다. 매출, 매입, 재고, 단가, 채널별 전환율, 부서별 의사결정 로그 — 모든 정보가 정확한 숫자로 기록되어 있다. ERP는 회사의 골격을 가장 잘 보여주는 시스템이다. 빅데이터는 회사의 뼈대를 말해준다.

그런데 빅데이터만으로는 회사의 다음 한 발자국이 어디로 가야 하는지 알 수 없다.

이유는 단순하다. 빅데이터는 본질적으로 exploitation의 도구다. 이미 발견된 작은 보상 안에서 가장 안전한 길을 추천한다. 작년 베스트 카테고리의 변주, 인기 색상의 미세 조정, 매출 1위 매장의 복제. 그러나 서튼이 1980년대에 지적했듯, exploitation만 있으면 회사는 자기가 처음 발견한 작은 보상에 갇혀, 더 큰 보상이 다른 길에 있다는 걸 영원히 모른다.

그래서 우리는 한 가지 작업을 한다. 클라이언트 회사를 살아있는 인간으로 본다. 한 회사의 결정·히스토리·사상이 그 회사의 인격을 만든다고 본다. 그리고 그 인격을 온톨로지로 박아 올린 뒤, 빅데이터에 우연성을 던진다.

패션회사라는 우리 클라이언트 회사가 있다. 패션 브랜드다. 신규 오프라인 매장 위치를 결정하던 시점, 빅데이터는 가장 안전한 답을 알려줬다 — "강남역 1번 출구 반경 200m". 임대료, 유동인구, 인접 경쟁사, 매출 평균 — 모든 숫자가 그 좌표를 가리켰다. 누구나 아는 답이다. 그리고 누구나 도달하는 답이다. 그 길로 가면 회사는 자기가 이미 발견한 작은 보상의 변주만을 반복하게 된다.

우리는 빅데이터에 우연성을 결합했다. 회사의 사상과 히스토리를 온톨로지에 심은 뒤, 인간 운영자가 절대 던지지 않을 가설을 알고리즘이 던지게 했다. "임대료 50% 더 비싸지만 유동인구는 1/3인 한적한 골목에 200평 플래그십을 세우면?" "지방 도시의 한적한 길에 매장을 세우면?" "백화점 입점이 아니라 인테리어 회사 옆 1층 코너에 들어가면?" 이런 가설들이 회사의 인격(빅데이터로 학습된) 위에 떨어졌다. 의외의 미래들이 시뮬레이션됐다. "굳이 찾아오는 매장"이 되어 브랜드 충성도가 폭발하는 시나리오. 한적한 입지가 콘텐츠가 되어 SNS에서 자생적으로 퍼지는 시나리오. 또는 폭망하는 시나리오.

어느 쪽이든 빅데이터만으로는 절대 발견하지 못할 새로운 알고리즘이 거기서 나왔다.

이게 우리가 매일 하는 작업의 본질이다. 빅데이터는 exploitation, 우연성은 exploration. 둘이 같이 있어야 회사가 자기를 학습한다. 한 시스템이 자기를 학습하는 방식은 원숭이 뇌도, 인간 뇌도, 우리 클라이언트 회사도 같다.

카운터 사상 — Friston의 Free Energy Principle

물론 이 사상이 학계의 유일한 답은 아니다. 신경과학의 또 다른 거대한 사상가 칼 프리스턴(Karl Friston)은 정반대 입장에 서 있다. 그가 1990년대부터 정립한 Free Energy Principle은 "뇌는 surprise(놀라움)를 최소화하려 한다"고 본다. 뇌의 본질은 우연성이 아니라 예측의 정밀화라는 입장이다. Friston의 입장에서는 도파민 RPE는 단지 surprise를 줄이기 위한 보조 메커니즘일 뿐이다.

두 사상은 학계에서 여전히 논쟁 중이다. 그러나 흥미롭게도 — Friston 자신도 인간이 왜 새로운 것을 적극 찾아 나서는지(소위 'dark room problem' — 만약 surprise 최소화가 본질이라면 왜 인간은 어두운 방에 가만히 있지 않는가)를 설명하기 위해 결국 exploration을 인정한다. 정밀화와 우연성은 대립이 아니라 같은 시스템의 두 축인 것이다.

METAL AI의 입장은 명확하다. 학습이라는 영역에서, 정밀화 없는 우연성은 카오스고, 우연성 없는 정밀화는 정체다. 빅데이터(정밀화)와 가설 시뮬레이션(우연성)을 둘 다 안고 가는 게 우리가 매일 내리는 결정이다. 한쪽만으로는 살아있는 회사를 학습시킬 수 없다.

결론

여기서 30년 전 원숭이 뇌로 다시 돌아가자. Schultz의 원숭이는 우연한 시도를 했다. 그 시도의 결과가 예측을 빗나갔다. 빗나간 만큼 도파민이 발화했다. 발화한 만큼 학습이 일어났다. 인간도 같은 알고리즘으로 학습한다. 테슬라 FSD도 같은 알고리즘으로 학습한다. 우리가 매일 다루는 클라이언트 회사도 같은 알고리즘으로 학습한다.

네 시스템이 모두 우연성을 학습의 연료로 쓰고 있다.

그래서 결론은 이것이다.

인간 뇌가 학습하는 방식의 본질은 우연성이다. 그리고 그게 AI의 다음 좌표다.

시리즈 1편에서 우리는 민스키와 매카시가 인공지능을 결정론적 기호 조작으로 정의했던 1956년 다트머스 회의에서 출발했다. 그로부터 70년이 지난 지금, 답이 어디로 향하고 있는지가 점점 명확해진다. AI가 인간 지능에 가까워지는 길은 더 정밀해지는 게 아니다. 더 결정론적이게 되는 게 아니다. 더 우연해지는 것이다.

1편의 끝에서 우리는 마빈 민스키의 말을 한 줄 옮겨놓았다 — "지능의 힘은 단 하나의 완벽한 원리가 아니라, 우리의 광대한 다양성에서 비롯된다." 3편의 끝에서는 우리 회사의 운영 원칙을 새긴다.

회사도 살아있는 인간이다. 빅데이터로 인격을 박고, 우연성으로 미래를 던진다. 한 번도 시도하지 않은 결정에서 새로운 알고리즘이 발견된다.

— METAL AI 운영 원칙

다음 글에서는 이 우연성을 알고리즘으로 옮긴 사람들 — Peter Dayan과 Read Montague — 의 이야기를 쓰거나, 아니면 그 우연성을 산업의 무기로 만든 Demis Hassabis와 DeepMind의 AlphaGo로 넘어갈 것이다. 어느 쪽이든 결론은 같은 자리로 모인다.

— 김현국 (Hyunkook Kim) · METAL AI 대표 · 2026년 5월 10일 (일)

📚 참고 사료

Rescorla, R. A., & Wagner, A. R. (1972). A theory of Pavlovian conditioning.
Sutton, R. S., & Barto, A. G. (1981). Toward a modern theory of adaptive networks: Expectation and prediction. Psychological Review, 88, 135–171.
Edelman, G. M. (1987). Neural Darwinism: The Theory of Neuronal Group Selection. Basic Books.
Sutton, R. S. (1988). Learning to predict by the methods of temporal differences. Machine Learning, 3, 9–44.
Watkins, C. J. C. H. (1989). Learning from delayed rewards (PhD thesis, Cambridge). Q-learning의 원논문.
Tesauro, G. (1992). Practical issues in temporal difference learning. Machine Learning — TD-Gammon.
Montague, P. R., Dayan, P., & Sejnowski, T. J. (1996). A framework for mesencephalic dopamine systems based on predictive Hebbian learning. Journal of Neuroscience, 16(5), 1936–1947.
Schultz, W., Dayan, P., & Montague, P. R. (1997). A Neural Substrate of Prediction and Reward. Science, 275, 1593–1599.
Sutton, R. S., & Barto, A. G. (1998). Reinforcement Learning: An Introduction. MIT Press. 강화학습 분야의 교과서.
O'Doherty, J. et al. (2003). Temporal difference models and reward-related learning in the human brain. Neuron.
McClure, S., Berns, G., & Montague, P. R. (2003). Temporal prediction errors in a passive learning task activate human striatum. Neuron.
Friston, K. (2010). The free-energy principle: a unified brain theory? Nature Reviews Neuroscience. — 카운터 사상.
The Brain Prize 2017 (Schultz, Dayan, Dolan), Lundbeck Foundation.