점토판에서 분산 원장까지 — 데이터 시스템이 빚어낸 문명의 골격
7 views
# 점토판에서 분산 원장까지 — 데이터 시스템이 빚어낸 문명의 골격
## 1. 기록이 없는 문명은 존재하지 않는다
문명은 돌이 아니라 기록 위에 세워졌다. 피라미드보다 오래된 것은 그것을 짓기 위해 배급된 보리의 수량이며, 만리장성보다 끈질긴 것은 그 축조에 동원된 인부의 명부다. 우리는 거대한 구조물을 문명의 증거로 여기지만, 사실 구조물은 데이터의 부산물에 가깝다. 누군가가 수량을 세었고, 누군가가 그것을 검증했으며, 또 누군가가 검증된 결과를 다음 세대로 넘겼다. 그 연쇄가 끊긴 자리에는 잡초만 남는다.
기원전 3200년경 우루크의 신전 창고에서 작성된 점토판은 지금까지 수십만 점이 발굴되었다. 그 대다수는 시도, 보리, 양털, 노예의 숫자다. 서사시도 법전도 신화도 아닌 회계 장부가 인류 최초의 문자였다. 우아하지는 않지만 정직한 사실이다. **문자는 시를 짓기 위해서가 아니라, 빚을 잊지 않기 위해 발명되었다.**
여기서 데이터 시스템을 이렇게 정의해두자. 사실을 일정한 형식으로 고정하고, 그 형식을 사회가 신뢰하도록 만드는 제도적 장치. 이 정의에는 형식, 신뢰, 제도라는 세 요소가 있다. 이후 5천 년의 역사는 결국 이 세 요소가 어떻게 정교해져 왔는가의 이야기다.

## 2. 형식의 발명: 수메르에서 한대 호적까지
### 토큰에서 표의문자로
수메르의 회계는 처음에 점토 토큰으로 시작했다. 양 한 마리는 양 모양의 토큰 하나, 항아리 한 단지는 항아리 모양의 토큰 하나였다. 거래가 끝나면 토큰을 점토 봉투(bulla)에 넣어 봉인했는데, 봉투를 깨지 않으면 내용을 확인할 수 없다는 문제가 생겼다. 그래서 봉투 표면에 내용물의 자국을 미리 찍기 시작했고, 곧 사람들은 깨달았다. 봉투는 필요 없다. 자국만 남기면 된다. 토큰은 사라지고 자국이 문자가 되었다.

이 일화는 정보 시스템의 본질을 압축한다. **저장은 검증의 비용을 줄이기 위해 추상화된다.** 실물에서 토큰으로, 토큰에서 각인으로, 각인에서 표의문자로. 단계마다 정보의 밀도는 올라가고 검증의 비용은 내려갔다.
### 호적, 국가가 인간을 데이터로 환원한 순간
기원후 2년경 한대(漢代)의 인구 조사는 약 5,959만 명을 기록한 것으로 전해진다. 이 숫자의 정확도를 오늘의 기준으로 따질 일은 아니다. 중요한 것은 그 시대에 국가가 개인을 호(戶) 단위로 묶고, 호를 향(鄕)으로, 향을 현(縣)으로 묶어 중앙에 집계하는 위계적 데이터 모델을 운영했다는 사실이다.
조선의 호적은 이를 더 정교하게 다듬었다. 3년마다 갱신하고, 사조(四祖)를 명기하며, 양반·상민·천민의 신분을 고정했다. 호적은 인간을 분류하는 도구였고, 분류는 곧 통치였다. 푸코가 통치성을 말하기 훨씬 전에, 동아시아의 관료들은 이미 알고 있었다. 셀 수 없는 것은 다스릴 수 없다.
> 子曰, "必也正名乎." (반드시 이름을 바로잡겠다.) — 『논어』 자로편
공자가 정명(正名)을 말한 것은 윤리의 문제였지만, 행정의 차원에서 그것은 곧 데이터 스키마의 문제이기도 했다. 무엇을 무엇이라 부를지 합의되지 않으면, 어떤 집계도 진실이 될 수 없다.
## 3. 신뢰의 발명: 복식부기와 이중 기입의 형이상학
### 1494년, 파치올리의 책
15세기 베네치아 상인들은 곤혹스러운 문제와 마주했다. 동방과의 교역은 한 번에 수년이 걸렸고, 출자자와 운영자가 분리되어 있었으며, 화폐는 여러 통화로 흘렀다. 단일 장부로는 거짓을 가려낼 수 없었다. 1494년 루카 파치올리가 『산술·기하·비례 및 비례성 대전』에서 정리한 복식부기는 이 문제에 답했다. 모든 거래는 차변과 대변에 동시에 기록되고, 둘의 합은 언제나 같아야 한다.

이것은 단순한 회계 기법이 아니다. **이중 기입은 진실을 구조 안에 가두는 장치다.** 한쪽만 거짓을 쓰면 즉시 불균형이 드러난다. 거짓을 위해서는 양쪽 모두 정합적인 거짓을 써야 하는데, 그 정합성이 곧 거짓의 추적 가능성을 의미한다. 사기는 가능하지만 들키지 않기는 어렵다. 신뢰는 사람에 대한 믿음이 아니라, 형식이 강제하는 균형에서 발생한다.
베버는 자본주의의 정신을 프로테스탄트 윤리에서 찾았지만, 좀바르트는 복식부기에서 찾았다. 두 견해는 양립한다. 정신은 형식을 빚고, 형식은 정신을 재생산한다.
### 동아시아의 사개치부법
조선과 개성의 상인들이 운영했다고 전해지는 사개치부법(四介治簿法)은 입(入)·출(出)·차(借)·대(貸)의 네 항목으로 거래를 분류했다. 서양의 복식부기와 독립적으로 발전했다는 평가도 있으나, 정확한 발생 시점과 체계의 완성도에 대해서는 학계의 견해가 갈린다. 다만 한 가지는 분명하다. 상업이 일정한 규모를 넘으면 어느 문화권에서든 이중 검증 구조가 자생적으로 출현한다. 신뢰의 형식은 발명되는 것이 아니라 발견되는 것이다.
## 4. 제도의 발명: 도서관, 통계국, 데이터센터
### 알렉산드리아에서 통계청까지
기록의 양이 일정 임계를 넘으면, 기록 자체가 관리 대상이 된다. 약 50만 권의 두루마리를 소장했다고 전해지는 알렉산드리아 도서관은 단순한 책의 더미가 아니라 분류 체계였다. 칼리마코스가 작성한 『피나케스』는 인류 최초의 도서 목록학이자 메타데이터의 원형이다. 무엇을 가지고 있는지 아는 것이, 무엇을 가지고 있는가보다 중요해진 순간이다.
19세기에 이르러 국민국가는 같은 문제를 더 큰 규모로 마주했다. 1790년 미국의 첫 인구조사는 종이와 펜으로 9개월이 걸렸다. 1880년 조사는 결과 집계에만 7년이 걸렸고, 다음 조사가 시작되기 전에 끝나지 않을 위기에 처했다. 허먼 홀러리스가 1890년 도입한 천공카드 집계기는 같은 작업을 약 1년 만에 끝냈다. 이 기계의 후신이 IBM이다. 컴퓨터의 역사는 계산이 아니라 집계의 역사에서 출발했다.
### 관계형 모델, 데이터에 부여된 수학적 위엄
1970년 에드거 코드는 IBM 산호세 연구소에서 「대규모 공유 데이터뱅크를 위한 관계형 데이터 모델」을 발표했다. 그가 한 일은 데이터에 집합론을 부여한 것이다. 테이블은 관계(relation)이고, 질의는 술어 논리이며, 정합성은 정규형으로 보장된다. 이전까지 데이터는 응용 프로그램에 종속된 더미였다. 코드 이후 데이터는 응용과 무관하게 그 자체로 존재하는 객체가 되었다.
```sql
SELECT name FROM citizens WHERE province = '京畿';
```
이 한 줄의 단순함은 기만적이다. 그 뒤에는 술어 논리, 집합 연산, 정규화 이론, 트랜잭션 격리 수준, B-트리 인덱스, 그리고 ACID라는 네 글자가 응축되어 있다. 한대 관리가 죽간을 펼쳐 호를 헤아리던 작업이, 2천 년 후 한 줄의 선언으로 압축된 것이다. 추상화의 누적이 곧 문명의 두께다.
## 5. 분산의 시대: 합의가 곧 진실이 되는 세계

중앙집중적 데이터 시스템은 하나의 가정 위에 서 있었다. 신뢰할 수 있는 중심이 존재한다는 것. 국가, 은행, 플랫폼이 그 중심이었다. 21세기의 분산 원장은 그 가정 자체를 의심한다. 2008년 사토시 나카모토의 비트코인 백서가 제시한 것은 새로운 화폐가 아니라 새로운 신뢰 모델이었다. 중심 없이도 합의에 도달할 수 있는가. 비잔틴 장군 문제에 대한 작업증명 기반의 해답이 그것이다.
이 모델의 효율성과 환경 비용에 대해서는 여전히 논쟁이 있다. 그러나 한 가지는 분명하다. 인류는 5천 년 동안 신뢰를 중심으로 축적해왔는데, 처음으로 신뢰를 네트워크 전체에 분산시키는 실험을 시작했다는 사실이다.
반론도 정직하게 세워보자. 분산 원장은 결국 채굴 풀과 거래소라는 새로운 중심을 낳지 않았는가. 그렇다. 모든 탈중심화는 부분적으로 재중심화된다. 그러나 이 반론은 핵심을 비껴간다. 중요한 것은 완전한 탈중심이 아니라, 중심을 의심하고 검증할 수 있는 프로토콜의 존재 그 자체다. 점토 봉투에 자국을 새기던 수메르 서기와 블록 해시를 검증하는 노드는 같은 일을 한다. 검증 비용을 분산시켜 위조 비용을 끌어올리는 일이다.
## 6. 데이터 시스템이 빚어낸 인간
데이터 시스템의 역사를 훑고 나면 불편한 진실에 도달한다. 우리는 데이터를 다루는 존재이자, 데이터에 의해 다뤄지는 존재이기도 하다. 호적은 인간을 신분으로 환원했고, 복식부기는 활동을 차대변으로 환원했으며, 관계형 모델은 정체성을 외래키로 환원했다. 환원은 폭력이지만, 환원 없이는 협력의 규모가 일정 수준을 넘을 수 없다.
장자는 말했다.
> 道行之而成, 物謂之而然. (도는 걸어가서 이루어지고, 사물은 불러서 그러하다.) — 『장자』 제물론
이름이 사물을 만든다는 통찰은, 데이터베이스의 스키마가 현실을 재단한다는 오늘의 명제와 멀지 않다. 우리가 어떤 칼럼을 정의하느냐가 어떤 현실을 볼 것인지를 결정한다. '성별'을 두 값으로 정의한 시스템은 두 값의 세계만 본다. '국적'을 단일 값으로 강제한 시스템은 이중국적자를 예외로 본다. 형식은 결코 중립이 아니다.
데이터 시스템은 거울이 아니라 조각도다. 세계를 비추는 것이 아니라 세계를 깎아낸다. 그 칼날 끝에서 문명이 빚어졌고, 동시에 문명이 보지 못하는 사각이 만들어졌다.
## 7. 닫으며 — 남길 것과 잊을 것
문명의 발전이란 무엇을 기록할 가치가 있는가에 대한 합의의 정교화다. 수메르 서기는 보리를 기록할 가치가 있다고 여겼다. 한대 관리는 인구를 기록할 가치가 있다고 여겼다. 파치올리는 거래의 양면을 기록할 가치가 있다고 여겼다. 그리고 오늘 우리는 모든 클릭과 모든 위치와 모든 심박을 기록할 가치가 있다고 여기는 시대에 산다.
그러나 기록할 수 있다는 것이 기록해야 한다는 것을 의미하지는 않는다. 망각은 결함이 아니라 기능이다. 보르헤스의 푸네스는 모든 것을 기억했기에 아무것도 사유할 수 없었다. 사유는 망각 위에서 솟아오른다. 다음 5천 년의 데이터 시스템이 마주할 질문은 아마 이것일 것이다. **무엇을 남길 것인가가 아니라, 무엇을 잊을 권리를 보장할 것인가.**
수메르의 점토판은 깨지지 않기 위해 구워졌다. 우리의 데이터는 깨질까 두려워 백업된다. 그러나 정작 두려워해야 할 것은 깨지는 것이 아니라 깨지지 않는 것일지도 모른다. 영원히 남는 기록 앞에서, 인간은 비로소 잊힐 자유를 갈망하기 시작했다.
기록은 권력이었다. 이제 망각이 권리가 된다.