NIA 한글 형태소사전 공개 - 150만 단어

2017. 2. 22. 13:56무료소프트웨어

반응형

한국정보화진흥원(NIA)에서 한글형태소사전을 공개 하였습니다. 이렇게 좋은일이 있군요. 사실 일반인들께서는 형태소사전를 사용하실 일은 없겠지만, 한글검색을 사용한다거나, 빅데이터 분석을 한다거나, 웹서비스를 개발한다거나 하는 등의 작업을 하게 되면, 영어의 경우 공개된 자료가 있지만, 한글의 경우는 매우 제한적이어서 형태소가 없는 상태에서 검색을 하는 등의 경우가 발생하여 결과의 완성도가 매우 떨어졌습니다.


그런데, 이렇게 한글형태소사전이 공개되어, 저작자와 출처를 표기한다면, 자유롭게 사용을 할 수 있게 되었습니다. 

CC BY를 적용 "저작자와 출처 등을 표시하면 영리 목적의 이용이나 변경 및 2차적 저작물의 작성을 포함한 자유이용을 허락합니다."


구축된 한글형태소 사전의 내용은 아래와 같습니다.

  • 국립국어원 우리말샘 사전과 및 SNS 분석기업 인사이터에서 자체 보유한 사전을 기반으로 최신 단어로 구성된 형태소 사전(NIADic) 제작(총 93만 단어
      1. 국립국어원 ‘우리말샘’ : 기존 ‘표준국어대사전’에 수록된 50만 단어와 신어·생활어 7만5000단어, 지역어 9만단어, 전문용어 35만단어를 더해 모두 100만여 단어로 구성
      2. 인사이터 자체사전 : 브랜드, 유명인, 장소, 신조어 등의 명사 위주로 모두 50만여 단어로 구성
  • 중소기업, 연구자, 일반인 등이 쉽게 NIADic을 활용하여 텍스트 분석을 수행할 수 있도록 KoNLP의 기초 형태소 사전으로 추가하여 제공

파일은 엑셀파일로 (NIADic.xlsx) 용량이 18MB 정도 됩니다.


다운로드 받는 곳 : 빅데이터센터 지식자료실 http://kgib.kr


반응형