대학원에서 문서 분류를 주제로 논문을 썼고, 오픈소스 한글 형태소분석기 개발에 참여했고, 온라인 의료 정보 서비스에서 검색을 개발했던 사람으로 한글 띄어쓰기에 대해서 내 견해를 정리해 본다.
어떤 사람들이 한글에는 원래 띄어쓰기가 없었기 때문에, 현재에도 한글 띄어쓰기가 불필요하다고 얘기하는데, 한국어의 digital transformation 을 위해서는 반드시 띄어뜨기가 있어야 하며, digital transformation 이 아니더라도 글을 쓰는 사람은 한글 띄어쓰기에 신경을 써야한다.
왜냐? 한국어는 몹시도 ambiguous 한 언어이기 때문이다. 쉽게 말해 아 다르고 어 다른 게 한국어다. 한국어는 어말어미의 활용이 다양한데다, 특히 발화자가 문맥에 의존하여 발화를 하는 언어 습관이 존재한다. 그래서 발화자가 편의상 주어나 목적어, 또는 조사를 생략하기도 한다.
“아버지가방에들어가신다”를 보면 높임말 선어말 어미 -시- 가 있어서 “아버지”가 주어임을 유추할 수 있다. 그리고, 아버지가 가방에 들어갈 일은 black swan 만큼이나 드문 일이라 이 문장은 “아버지가 방에 들어가신다”로 읽힌다.
“아버지가방에들어갑니다”를 보자. 앞 문장과 달리 문법상 의미를 유추할 수 있는 힌트가 없다. 아버지가 가방에 들어갈 일은 잘 없으므로, “아버지가 방에 들어갑니다”로 해석한다. 앞서 발화자가 만약 문법 요소를 생략한 거였다면? “이 전기톱 어디에 넣어서 가지? 아버지가방에들어갑니다” 여기서는 “(그것은) 아버지(의) 가방에 들어갑니다”의 뜻으로 사용된 문장이다.
“구찌가방에들어갑니다”는 또 어떠한가? 구찌가 사람 또는 동물인 걸 알고 있다면 “구찌가 방에 들어갑니다”나 “(그것은) 구찌(의) 가방에 들어갑니다”로 읽힐 수 있다. 구찌가 물건이라고 생각하면 “구찌(는) 가방에 들어갑니다”로 읽힌다. 구찌가 가방 브랜드라고 생각하면 “구찌가방에 들어갑니다”로 읽힌다.
한글 형태소 분석을 할 때 사전에 대한 의존도가 상당히 높다. 격이 문장 내 위치에 의해 결정되는 영어 같은 언어와 달리 한국어는 격조사에 의해 격이 결정되고, 격은 문장 내 위치가 자유로운 편이다. 동사와 형용사의 어말어미 활용도 다양하다. 일단 문장에서 명사, 형용사, 동사가 뭔지 알아야 그 다음 단계로 넘어갈 수 있다. 그래서 사전이 제대로 갖춰져 있지 않으면 형태소분석을 하기가 매우 어렵다. 특정 분야에 대해 검색을 하려면 그 분야의 용어를 몽땅 사전에 넣어야 한다. 고유명사는 사전에 없는 경우가 많아 처리가 어렵기도 하다.
의학용어 중에 “과민성장증후군”이란 게 있다. 형태소 분석을 해서 복합명사를 분해해보니 “과민+성장+증후군”으로 나왔다. 이게 ‘키가 뭐 엄청 커지는 질병’ 같은 건가 생각했다. 그게 아니었다. “과민성 장 증후군”이란 거다. 우리가 흔히 “장트라볼타”라 부르는, 스트레스나 환경 요인으로 갑작스레 소화 장애가 와서 화장실로 달려가게 만드는 바로 그것이다. 그냥 사전만으로 형태소 분석을 하면 “과민성장증후군”은 “과민 성장 증후군”으로 나온다. 그래서 이 단어는 사전에 “과민성+장+증후군”이라고 별도로 추가를 해야 했다.
한글 띄어쓰기가 사라진다면, 한글형태소분석이 매우 복잡하고 어려워진다. 그러면, 검색이 잘 되지 않는다. 물론 Ngram 같은 걸로 검색어가 포함된 문서는 다 찾아낼 수 있겠지만 검색 품질이 아주 나빠진다. 형태소분석이 안 되니 번역도 어렵다. 번역을 해도 무슨 말인지 알 수 없다. 요즘 인기 있는 챗봇 같은 서비스는 나올 수가 없고, 한국어 인공지는 스피커는 시도조차 해볼 수 없다. deep learning 이 발달하면 다 잘 되지 않냐고? 아니다. 사람이 헷갈리는 건 기계도 헷갈리는 법이다.
한글 띄어쓰기 마저 없었다면 우리는 허구헌날 “가가가가가”가 무슨 뜻인지 논쟁을 벌여야한다. 소통을 위해 만든 게 언어인데, 오히려 언어로 인해 불통이 되는 상황이 벌어진다. 결국 언어는 죽게 되고, 다른언어가 생활어로 자리잡는다. 한글 띄어쓰기는 꼭 필요하다.