본문 바로가기

평론과 서평/소설 / 희곡 읽기

수학, 문학적 영향의 비밀을 파헤치다




이번주 월요일 《가디언》에 제법 흥미로운 기사가 실렸다. 

다트머스 대한 수학과 대니얼 록모어 교수를 중심으로 한 미국의 수학자들이 1550년부터 1952년까지 약 500년 동안 씌어진 작품 7,733권을 대상으로 통계학적 연구를 진행한 것이다. 작가 수로는 537명이며, 대상 텍스트는 프로젝트 구텐베르크(www.gutenberg.org/)에서 디지털화한 퍼블릭 도메인 작품을 이용했다. 프로젝트 구텐베르크는 1971년 마이클 하트가 기획해 시작한 사업으로 인류의 문자 유산을 디지털화한다는 목표 아래 매주 50여 권의 전자책을 새로 만들어 무료 배포하는 곳이다. 여기서 꾸준히 만들어 온 전자책이 쌓여서 빅데이터화하자 수학자들이 달려들어 이를 분석해 보겠다고 나선 것이다. 

연구 책임자인 미국 다트머스 대학 수학과 대니얼 록모어 교수

록모어 팀이 연구한 것은 작가들이 선배나 동료 작가로부터 실제로 얼마만큼 영향을 받았는가 하는 점으로 오랫동안 문학 연구자들이 천착해 온 영역이다. 문학평론가 해럴드 블룸은 문학적 정전(canon)이 작가들에게 미치는 효과를 "영향에 대한 불안"이라는 말로 이름 붙였는데, 수학자들이 실제로 이런 현상이 있는지 확인하겠다고 나선 것이다. 그들의 방법은 다음과 같다.

영향에 대한 불안을 주장한 문학이론가 해롤드 블룸

문학 작품에서  "of" "at" "by"와 같은 "내용과는 무관한(content-free)" 단어 307개의 출현 빈도를 따져 보는 것이다. 수학자들은 이들을 언어의 "통사론적 접착제"라고 불렀는데, "스스로는 거의 의미를 갖지 않으면서 의미를 담고 있는 말들을 잇는 다리를 구축해 주는 단어들"로 저자를 구별하기 위한 작업에서 아주 쓸모넘치는 "문체 지문"을 제공해 준다. 한마디로 말하면 전치사와 같은 문장의 의미와 직접적으로 큰 관련이 없는 단어들이 문장에 쓰이는 빈도가 문체상의 차이를 나타내는 주요 지표이므로 이를 살펴서 한 작품과 다른 작품이 얼마나 같고 얼마나 다른지를 통계학적으로 보여 주겠다는 것이다.  

프로젝트 구텐베르크의 로고

이번에 발표한 논문 「문학의 진화에서 나타난 문체 영향에 관한 양적 패턴 연구(Quantitative patterns of stylistic influence in the evolution of literature)」에서 수학자들은 어떤 시기든 작가들의 문체는 동시대 작가들과 가장 비슷한 형태를 띠며, 과거의 문체로부터 영향받는 일은 점차 줄어들고 있다고 주장한다. 논문에 따르면, 18세기나 19세기 작가들은 그보다 이전 세기의 작품들에게 영향을 받았던 반면에 20세기의 작가들은 그들보다 10여 년 전후의 작가들로부터 강한 영향을 받았다. 이른바 "영향에 대한 불안"이 "낡음에 대한 불안"으로 대체된 것이다. 이런 현상의 원인은 아마도 현대적인 감각을 중시하는 모더니즘의 영향 때문이거나 작가들이 과거에 비해 더 많은 책들을 읽고 있기 때문일 것이다. 연구는 저작권 문제 때문에 1952년까지의 작품들에서 그쳤지만 록모어 교수는 문학 정전들의 영향력 감소는 오늘날 훨씬 심해졌을 것이라고 확신한다. 

문화사 연구의 대가 피터 게이가 쓴 모더니즘(민음사 번역 출간 예정)

연구 결과가 크게 새로운 사실을 밝혀냈다는 느낌은 없지만, 빅데이터 시대를 맞아 문학에 대한 이러한 접근 방식 자체는 상당히 흥미롭다. 데이터의 패턴을 분석해서 문학 연구의 여러 문제들에 대한 실증적인 답을 도출하는 게 문학 자체를 바꾸기는 어렵겠지만 자칫하면 고답적인 이론 놀이로 떨어지기 쉬운 문학 연구에 새로운 바람을 불러올 수 있지 않을까? 조심스레 생각해 본다.

세계는 빅데이터로 이루어져 있다.