4할 타자는 멸종했는가. 이 질문은 세계의 야구 팬이 열광하는 단골 수다거리다. 미국에서는 1941년 테드 윌리엄스 이후  맥이 끊겼다. 한국 프로야구는 개막 원년인 1982년 백인천 선수가 최초이자 마지막 4할 타자이다. 일본에는 아예 전례가 없다.

왜 4할 타자는 사라졌을까? 타자들이 무능해졌을까. 투수의 분업화가 이뤄져서 좋은 투수를 더 많이 상대해야 하기 때문일까. 투수들이 예전에는 상상도 못했던 구질을 속속 개발해 던지기 때문일까. 그것도 아니면….


ⓒ뉴시스

야구팬의 심심풀이 정도로 여겨지던 이 질문을, ‘집단지성’의 힘을 빌려 ‘과학’으로 풀어보겠다는 야심찬 계획이 있다. 이름하여 백인천 프로젝트. 뇌과학자이자 야구 팬인 정재승 카이스트 교수가 트위터에서 처음 제안했고, 이에 반응해 이력도 특기도 관심사도 각양각색인 수십 명이 넉 달 동안 함께 연구를 했다. 4월12일(백인천 선수의 타율이 0.412였다)에는 정식 논문 형태로 된 연구 결과를 세상에 내놓는다. 인문학 전공으로 학부만 졸업한 평범한 직장인도 과학 논문의 저자가 되는 셈이다(지금 이 기사를 쓰는 기자가 정확히 이렇다). 프로젝트에 직접 참여해 모든 과정을 지켜본 기자가 이 기상천외한 집단지성의 모험을 되짚어봤다.


  1. 집단지성 프로젝트, 얼떨결에 탄생하다

2011년 봄, 정재승 교수는 트위터에 “한국 프로야구에서 4할 타자가 왜 사라졌는지 연구하고 싶은데, 데이터를 어떻게 구하나요?”라는 질문을 별 생각 없이 올렸다. 반응은 기대를 훌쩍 뛰어넘었다. 순식간에 멘션 수십 개가 쏟아졌다고 한다. 어디를 가면 데이터가 있는지 알려주는 이부터 ‘4할 타자 실종’에 대한 나름의 이론을 펼치는 이까지 종류도 다양했다. 뇌과학자의 트위터 계정을 난데없이 ‘야구 덕후’(야구 마니아를 뜻하는 인터넷 조어)들이 점령했다.


 

그때 그는 직감했다. “느낌이 왔어요. 아, 이게 폭발력이 있는 질문이구나. 이 정도 에너지를 끌어낼 수 있는 주제라면, 훈련받지 않은 대중이 모여서 과학 연구를 해볼 수도 있겠구나.” 대중이 단순히 각자의 지식을 공유하는 위키피디아 모델을 넘어, 과학 논문이라는 지식 생산까지 나아가는 시도, 이른바 ‘집단지성’을 통한 과학 연구라는 구상이 탄생하는 순간이었다. 


  2. 원조를 찾아서

정 교수는 이 아이디어를 미국의 ‘선배 괴짜 과학자’에게서 얻었다. 4할 타자의 멸종을 과학의 연구 주제로 끌어올린 사람은 세계적인 진화생물학자 스티븐 제이 굴드. 아니나 다를까 야구광이었던 굴드는 “4할 타자가 사라진 것은 타자의 수준이 떨어져서가 아니라 야구의 수준이 향상되었기 때문이다”라는 새로운 관점을 제시했다.

굴드는 미국 야구 통계를 분석해, 리그의 평균 타율은 장기적으로 2할6푼에서 안정되며, 최상위 타자와 최하위 타자의 타율 차이가 갈수록 줄어든다는 사실을 밝혀냈다. 이로부터 나오는 결론은 이렇다. 첫째, 리그 평균 타율은 변하지 않았기 때문에, 4할 타자가 사라진 것은 타자의 수준 하락이나 투수의 수준 상승으로 설명할 수 없다. 둘째, 야구라는 생태계는 시간이 갈수록 최고와 최저 사이의 폭이 줄어들며 안정화된다(사실은 거의 모든 생태계가 그렇다고 굴드는 주장한다. 진화생물학자가 야구를 연구한 이유다).

거듭된 경쟁이 최고 수준의 선수들만을 리그에 남기기 때문에, 시간이 지날수록 선수들의 능력은 상향 평준화된다. 인간에게는 생리적·물리적 한계가 있어서 능력이 무한히 상승할 수는 없고 언젠가는 벽에 부딪히게 된다. 최고 선수들이 벽에 부딪힌 후에도 평범한 선수들은 계속해서 더 뛰어난 선수들로 바뀐다.

그 결과가 59쪽 〈그림〉이다. 왼쪽에서는 경쟁이 타자들을 오른쪽으로 밀어붙이고(즉, 뒤떨어진 타자를 퇴출시키고), 오른쪽에는 인간의 한계라는 벽이 있다. 그래서 야구 초창기 타자들의 타율분포곡선은 완만한 반면, 현대 타자들의 곡선은 양쪽에서 눌려 뾰족하다.

평균 타율이 2할6푼에서 안정되어 있다는 사실을 기억하자(타자만큼 투수도 ‘오른쪽 벽’으로 밀어붙여지므로, 투수와 타자의 상호작용인 타율은 안정되는 경향을 보인다). 정규분포곡선의 중간값이 2할6푼으로 같기 때문에, 오른쪽·왼쪽 꼬리가 짧아진 현대 야구에서 4할이라는 ‘먼 곳’에 도달할 확률은 극적으로 떨어진다(같은 논리로 1할이라는 ‘먼 곳’도 마찬가지다). 이것이 굴드가 말하는 ‘안정화’다. 이 아이디어에 매력을 느낀 정재승 교수는 안정화가 한국 야구에도 적용되는지를 집단지성으로 연구해보기로 했다.


  3. 화성에서 온 야구광, 금성에서 온 통계광

정 교수는 이 기획을 1년을 묵혔다. “누가 1년만 기다리면 한국 프로야구가 30년이 된다고 해서, 그럼 기왕 하는 거 그때에 맞추자고 했다(웃음).”

프로젝트 개시 시점까지 집단지성의 도움(?)을 받아 결정한 그는, 2011년 12월 트위터를 통해 프로젝트 시작을 알리고 지원자를 모집했다. 목표는 야심찼다. 2012년 개막전에 맞춰 연구 결과 발표, 추후 해외 저널에 논문 게재. 100여 명이 지원했고, 첫 모임에 51명이 나왔다. 직장인, 대학원생, 전문 연구자, IT 전문가, 기자, PD, 법조인…. 이공계 전공자는 절반 정도밖에 없었고, 그중에서도 과학 연구 경험자는 더 적었다. 각자 데이터수집팀, 데이터분석팀, 과학논문작성팀, 운영팀, IT지원팀 등으로 역할을 분담했다.

첫날의 토론은 빡빡했다. 야구광들의 자부심이 충돌하는 게 눈에 보였다. 각자의 야구 지식을 과시하는 분위기로 흐를 때도 있었다. 당황하는 사람들이 여럿 눈에 띄었다. 이거 쉽지 않겠다 싶었다. “사실 첫날에 기대치를 확 낮췄다”라고 속내를 비친 멤버도 몇 있었다.


ⓒ윤신영3월10일 정재승 교수 개인 연구실에서 ‘백인천 프로젝트’ 참가자 일부가 모여 논문 방향을 논의하고 있다.

본격 데이터 분석에 들어가자 난관은 더 커졌다. 무엇보다 쓰는 언어가 달랐다. 데이터분석팀 토론 중에 ‘1994년 이종범’이라는 화두가 등장했다. ‘화성에서 온 야구광’들은 데이터를 보지 않고도 0.393이라는 그해 이종범의 타율을 정확히 기억했다. 이종범의 1994년이 얼마나 위대한 시즌이었는지, 그해 어떤 투수가 이종범의 4할을 막았는지 등의 토론이 왁자지껄하게 펼쳐지는 동안, ‘금성에서 온 통계광’ 박종혁씨(산업공학 박사과정)는 몇 번 노트북을 두드리더니 조용히 말했다. “1994년 타율분포가 정규분포라고 가정하면, 이 해의 정규분포에서 이종범의 타율이 출현할 확률은 50시즌에 한 번으로 예측됩니다. 한국 프로야구가 30시즌을 보냈으니, 따로 설명이 필요할 만큼 이례적인 사건으로 보이지는 않네요.”


  4. 집단지성은 민주적이지 않다

집단지성은 단어가 주는 어감 때문인지 만민 평등 시스템이라는 인상이 강하다. 하지만 〈집단지성이란 무엇인가〉를 쓴 찰스 리드버터는, 집단지성은 아이디어를 개발하는 소규모 핵심 집단과 그것을 검증하는 대규모 기여집단으로 구성될 때 가장 제대로 작동한다고 주장했다. “소스코드를 오픈한 운영체제인 리눅스는 핵심 프로그래머 400명과 등록된 사용자 15만명이 만든다. 15만명이 이따금 내놓는 작은 기여의 총합은 핵심 그룹의 작업만큼이나 귀중할 수 있다.”

백인천 프로젝트는 어땠을까. 역시 소규모 핵심 집단의 등장이 관찰됐다. 과학논문팀장 김효임씨(지구물질과학박사 과정)는 정재승 교수의 첫 트윗에 반응을 보였다가 1년 내내 ‘찜’을 당했다. 정 교수는 1년 동안 잊을 만하면 트위터를 통해 김씨에게 프로젝트를 상기시켰다. 정 교수는 집단지성 프로젝트를 구상하면서 최소한의 핵심 집단 후보군은 따로 챙겼다. 


백인천 선수는 일본 프로야구에서도 강타자로 활약했다(위). 미국 프로야구의 마지막 4할 타자 테드 윌리엄스(아래).
통계 분석도 전문성이 필요한 영역이다. 데이터분석팀에서도 야구 통계에 익숙한 이들은 많았지만 통계학의 전문성을 갖춘 인원은 소수였다. 프로젝트가 진행되면서 과학 연구 경험자들과 통계 전문가들 소수의 미팅이 자연스럽게 생겨났다. 연구의 효율성만 따지면 전체 미팅보다 더 생산적이었다는 것이 참석자들의 감상이다.

야구 데이터 수집에서도 기대하지 않았던 핵심 집단이 등장했다. 한국 야구의 데이터는 기록대백과 등의 형태로 일반에 공개되고는 있지만, 데이터를 자유자재로 분석하려면 엑셀 파일이 필요하다. 직장인 오원기씨는 기록대백과 데이터를 직접 입력하는 ‘무식한’ 방법으로 30시즌 기록 엑셀 파일을 만들어둔 데이터 중독자다. 데이터 확보 방법을 고민하던 첫날 토론에서 그가 등장하면서, 프로젝트는 최대 난관을 싱거울 정도로 손쉽게 넘겼다. 


  5. 많아지면 달라진다

소수 핵심 집단만으로 집단지성이 완성되지는 않는다. 프로젝트 참가자들이 모두 참여한 활동 중 손꼽을 만한 것은 한국야구위원회(KBO)의 데이터 검증이었다. 논문에 사용할 데이터의 신뢰성을 검증하기 위해 모든 참가자들이 30시즌어치 기록대백과와 홈페이지 자료, 그리고 오원기씨의 개인자료를 교차 검증했다. 이는 논문 데이터의 신뢰성을 확보하는 핵심 과정이다.

그 과정에서 프로젝트팀은 KBO 기록 오류 30건을 발견하기도 했다. 집단 참여를 통해 짧은 시간에 데이터의 신뢰성도 높이고 공식 기록 오류까지 잡아낸 셈이다. 프로젝트팀은 이 데이터 교차 검증에 참여했는지를 기준으로 논문 공동저자 리스트를 만들기로 했다.

통계 전문가가 하기 힘든 색다른 발상과 분석 아이디어를 내놓는 것도 호기심 많은 야구광들의 몫이었다. 외국인선수제 도입, 신생팀 참가, 유망주의 해외 리그 유출 등 한국 야구라는 생태계의 안정화를 흔들 수 있는 여러 가능성이 자유롭게 제기됐다. 그러면 통계 전문가들이 이들 변수의 영향력을 측정해 기각하거나 추가 연구를 진행했다.

무엇보다도, 수가 많아질수록 핵심 집단에 포함될 능력을 발견할 가능성이 높아지기 때문에, 모집단 크기는 중요하다. 집단이 모인다고 곧 지성이 되는 것은 아니지만, 집단이 크면 집단지성의 골격을 만들 재료도 많아진다는 것을 백인천 프로젝트는 보여준다. 


  6. 정재승의 뇌과학 실험실?

프로젝트 참가자 중 한 명인 김기상 박사(과학교육)는 “우리는 정재승의 뇌과학 실험실에서 실험당하고 있는 거라니까. 우리 각자는 뉴런이고, 우리가 어떻게 서로 연결되어서 ‘뇌’를 형성하는지 실험하는 뭐 그런?”이라는 농담 같은 진담을 하곤 했다(몇몇은 늘 맞장구를 쳤다).

이 말을 기자가 전하자 정 교수는 놀랍다는 듯 “그런 느낌을 받은 분이 있군요?”라고 되묻더니, “맞습니다. 제 관심사 중 하나죠. 제 연구실 학생들도 SNS를 대상으로 비슷한 연구를 하고 있어요”라고 말했다.

관심사가 그쪽이어서일까. 정 교수는 백인천 프로젝트 외에도 여러 집단 참여 프로젝트 실험을 왕성히 진행했다. 지난해에는 역시 SNS를 통해 모인 재능기부자들의 과학 강연 기부 프로젝트 ‘10월의 하늘’을 주도했다. 최근에는 인지과학과 건축 전문가 연구모임인 ‘신경건축학 연구회’를 진행 중이다. 그는 이미 다음 프로젝트도 구상이 끝난 모양이었다. “아마도 SNS를 통해 30만명쯤 참여하는 초대형 프로젝트가 될 겁니다. 실험에 응할 30만명을 모으고, 전문가 대여섯 명이 연구를 하게 될 것 같아요.” 연구 주제는 아직은 ‘오프더레코드’란다.


  7. 한국에서도 증명된 굴드의 가설

막바지 작업 중인 논문을 미리 살펴봤다. 결론부터 말하면, 굴드 모델은 한국 야구에서 4할 타자가 사라진 이유도 훌륭히 설명한다.

오른쪽 〈표〉를 보면, 한국 리그는 30년 동안 타율이 증가 경향을 보여왔음을 알 수 있다. 이는 굴드가 분석한 미국 리그 타율이 안정화 경향을 보이는 것과는 다르다. 이것이 한국 리그의 특징인지 리그의 역사가 짧아서 경향이 드러나기 전 단계인지는 판단하기 힘들다. 다만 “투수 분업화나 구질 개발 등으로 투수의 기량이 더 빨리 상승하고 타자의 기량이 상대적으로 퇴보해서 4할 타자가 사라졌다”라는 가설은 설 자리가 없다. 한국 리그는 오히려 타자의 향상이 상대적으로 더 빠른 리그로 보인다.

그렇다면 한국 리그의 타율 분포 곡선은 굴드의 분석에서처럼 더 뾰족해졌을까. 이를 알기 위해서는 표준편차를 구해보면 된다. 표준편차가 클수록 평균에서 멀리 떨어진 값이 많다는 뜻이기 때문에, 표준편차가 클수록 펑퍼짐하고 작을수록 뾰족하다.


 

분석 결과, 한국 리그 30년 동안 타율의 표준편차는 감소하는 경향이 나타났다(위 〈표〉). 리그가 ‘안정화’되는 것이다. 프로젝트팀은 한국 리그에서도 굴드 가설이 증명된다는 사실을 확인했다. 이에 따르면 4할 타자가 사라진 것은 제2의 백인천이 나오지 않아서가 아니라, 너무 많은 선수들이 백인천과 장명부가 되어서다.


  8. 백인천 프로젝트, 그 이후

프로젝트가 끝나가는 시점에서 참가자들의 말을 들어보면 만족도는 엇갈린다. 불특정 다수가 모여서 논문이라는 결과를 만들어낸 자체를 중요하게 평가하기도 하지만, 굴드의 분석은 나온 지 20년도 더 지난 내용이고, 평균 타율과 표준편차를 구해 굴드 분석을 적용하는 것이 독창적 연구 성과라고 보기는 힘들다는 평도 있다. 타율분포를 정규분포로 볼 수 없다거나, 안정화 경향이 보인다기보다는 첫해부터 쭉 안정된 생태계(첫해의 백인천 선수는 생태계 밖에서 온 ‘침입자’로 간주된다)였다는, 결론에 대한 이견이 여전히 존재하는 것도 색다른 풍경이다.

정재승 교수는 “여러 사람이 함께 동의 수준을 끌어올려야 하기 때문에, 첫 단추를 끼우는 것은 더딜 수밖에 없다. 하지만 연구의 핵심인 데이터를 확보하고 검증했으며, 결론까지 상당히 빠른 시간 안에 마친 것은 큰 성과다. 굴드 가설에 입각해 한국 야구를 최초로 분석했다는 것도, 그것을 대중이 해냈다는 것도 의미가 크다. 첫 단추를 끼웠으니 지금부터가 중요하다”라고 말했다.

백인천 프로젝트팀은 어찌 보면 논문보다도 더 중요한 것 두 가지를 얻었다. 우선은 검증된 데이터, 그리고 관심사를 공유하는 사람들의 네트워크다. 벌써부터 두 가지가 화학반응을 보이고 있다. 데이터를 손에 쥔 야구광들은 프로젝트 과정에서 눈여겨본 이들끼리 모여 ‘다음 놀거리’를 열심히 구상한다.

데이터광 오원기씨는 “해보고 싶은 아이디어는 있는데 통계 전문성이 없어서 못해본 게 많다”라며 박종혁씨를 열심히 꼬드기는 중이다. 법조인 박수현씨는 야구 데이터의 저작권 관련 조언을 해줬다. 기자는 KBO에 접촉해서 경기별 상세 데이터(‘플레이 바이 플레이’)를 구할 방법을 알아보라는 ‘특명’을 받았다. 스마트폰 앱을 만들겠다며 사업 구상에 들어간 참가자도 있다.

집단지성 프로젝트의 첫 결과물은 능력 있는 개인의 그것만 못해 보일 수도 있다. 10년도 더 전에 1차 붐을 이뤘던 한국의 세이버메트리션(야구통계 분석가) 1세대와 비교해도 갈 길이 멀다. 하지만 일단 시동이 걸린 이 프로젝트가 앞으로 어디까지 진화하고 어떤 결과물을 내놓을지 지켜보는 것도 흥미로운 실험이 될 것 같다.

기자명 천관율 기자 다른기사 보기 yul@sisain.co.kr
저작권자 © 시사IN 무단전재 및 재배포 금지
이 기사를 공유합니다