『민백』 언어정보 검색 시스템

이 시스템은 2015-2016 한국학중앙연구원 한국문화심층연구 공동연구과제인 “『한국민족문화대백과사전』 어휘 분석과 정보의 지능화 연구”의 결과물을 웹 서비스 형태로 출판한 것이다.

『한국민족문화대백과사전』(이하 『민백』)은 한국학중앙연구원의 대표적인 업적으로서 한민족의 문화와 역사의 정보를 집대성한 백과사전이다. 『민백』은 1980년부터 편찬되어 1991년에 총 27권의 종이책으로 출판되었고, 디지털 방식으로서는 DVD 매체에 시스템을 수록하여 판매되기도 하였으나(2001년 12월), 2011년부터는 온라인으로만 서비스하고 있다.

컴퓨터나 휴대전화 등이 급속하게 보급됨에 따라 한민족의 문화와 역사에 대한 정보 수요가 크게 늘었고, 제한된 분량으로만 제공되던 종이책의 한계를 극복해야 하는 필요가 제기되었다. 이에 따라 한국학중앙연구원에서는 『민백』의 항목(7만개)을 확장하고, 원고 내용도 디지털 환경에 맞추어 나가는 개정증보 사업을 꾸준히 진행하고 있다.

이러한 상황에서 이 연구는 『민백』의 본문 내에 사용한 어휘 자체를 분석함으로써 『민백』의 정보 서비스의 품질을 높이려는 목적으로 추진되었다. 이를 위해서 『민백』 각 항목의 뜻풀이에 사용된 모든 어휘를 추출하고, 그 어휘의 품사와 기본형을 분석하여 KWIC 형식의 용례사전을 만들었다. 특히 명사 어휘에 대해서는 인명, 지명, 국명 등을 따로 분석하여 향후 개발될 검색 시스템에 대응하였다.

  • 이 연구는 2015년 5월 현재의 『민백』 데이터를 기반으로 하였다. 따라서 그 이후에 수행된 개정증보사업의 결과는 포함하고 있지 않다. 풀이에 사용된 어휘의 총수는 20,000,000 개 내외다.
  • 연구의 수행과정에서 『민백』 텍스트의 오탈자가 발견되었으나, 이를 바로잡지 않고 연구를 진행하였다.
  • 이 연구는 처리의 일관성과 효율성 및 공동 작업을 위하여, 임시로 서버를 설치하여 분석하였고, MS Access와 MS SQL을 활용하였다.
  • (자세한 사항은 ‘연구결과보고서’를 참고하시오.)

당초 이 연구는 『민백』의 신규 항목 개발과 『민백』의 지능적 서비스를 염두에 두고 수행되었다. 『민백』은 톱다운(top-down) 즉 연역적인 방법으로 항목(표제어, 표제항)을 개발하고 있는데, 이 연구는 항목의 뜻풀이 사용된 어휘의 빈도 등을 측정을 통하여 항목의 후보를 제안함으로써 보톰업(bottom-up) 즉 일종의 귀납적 방법을 사용하고 있다. 아울러 현재의 『민백』 온라인 서비스는 항목 중심으로 검색어를 입력 받아서 그 결과를 제시하는 방법으로 이루어지고 있는데, 이 연구의 결과는 어휘와 어휘 사이의 관계 등을 측정하여, LOD 등의 지능적 검색 시스템으로 활용될 수 있다. 이 사이트에서는 그러한 지능적 검색 시스템의 일부분을 제공하고 있으며, 이를 시각화함으로써 직관적인 정보 분석이 가능하도록 하고 있다.

앞으로 이 사이트의 콘텐츠는 한국학중앙연구원의 언어코퍼스의 주요 자원을 활용될 것이며, 정보 검색 시스템은 이러한 언어코퍼스 즉 한국문화와 역사의 텍스트 자원을 지능적으로 검색하고, 시각화하는 시스템으로 발전해 나갈 것이다.

이 과제의 연구진은 다음과 같다.

  • 정치영 한국학중앙연구원 교수 (역사지리학) (연구책임자)
  • 김병선 한국학중앙연구원 교수 (어문정보학)
  • 이건식 단국대학교 교수 (국어정보학)
  • 임준근 한국학중앙연구원 전문위원 (전산정보학)
  • 성광동 한국학중앙연구원 책임연구원 (철학)
  • 강재광 한국학중앙연구원 선임연구원 (한국사학)