‘클로바 도큐먼트 OCR’을 사업자등록증에 적용한 예시 /사진=네이버클라우드
‘클로바 도큐먼트 OCR’을 사업자등록증에 적용한 예시 /사진=네이버클라우드

네이버클라우드는 영수증·명함 등 비정형 업무 문서에서 사용자가 원하는 정보만 추출하는 ‘클로바(CLOVA) 도큐먼트 OCR(광학문자인식)’ 특화 서비스를 출시했다고 11일 밝혔다.
네이버 ‘클로바’ 자연어처리(NLP) 기술이 적용된 이 서비스는 글자 위치나 문서 양식과 관계없이 상호·지점명·사업자번호와 같은 주요정보만 추출해 항목별 분류까지 자동으로 한다. 발급 기관이 상이하거나 위·변조 방지 기술이 적용돼 OCR 기술을 사용하기 까다로웠던 분야에서도 문서 인식이 가능해졌다.

영수증·사업등록증의 경우 발급 기관마다 형태가 달라 사용자가 희망하는 정보를 자동으로 추출하는 것이 쉽지 않았다. ‘클로바 도큐먼트 OCR’은 인식된 문서에서 정보의 연결 관계를 파악해 텍스트와 숫자 값이 의미하는 바를 찾아낸다. 구겨지거나 오염된 서류에서도 텍스트를 추출해 항목별로 자동 기입되도록 지원한다.

명함이나 신용카드 같이 다양한 형태와 디자인으로 출시되는 문서도 빠르게 인식한다. 국내의 경우 가로형과 세로형 등 형태가 다양하고 영문·한자·기호 등 여러 활자가 인쇄돼있다. 이렇게 특정하기 어려운 문서에서도 필요한 값을 추출할 수 있다. 해당 기술은 네이버웍스와 리멤버 서비스에서도 활용되고 있다.

주민등록증·운전면허증·여권과 같이 빛 반사가 많고 워터마크나 형광인쇄 등 위·변조 방지 기술이 적용된 신분증에서도 텍스트 추출이 가능하다. 다만 민감정보와 개인정보를 OCR로 인식할 경우 보안이 더욱 요구되므로 사전 신청 절차를 걸쳐 승인을 받은 기업만 선별적으로 사용할 수 있다.


서비스 사용을 희망하는 기업은 네이버 클라우드 플랫폼 홈페이지 내 문의하기나 영업 채널을 통해 신청할 수 있다. OCR 모델과 적용처를 적어 신청서를 작성하면 된다. 현재 영수증·사업자등록증·명함·신용카드·신분증 특화 모델은 이용 가능하며 의료비 영수증의 경우 5월 이후 서비스 업데이트 예정이다.

한상영 네이버클라우드 상무는 “산업군을 막론하고 자동화를 통해 업무를 간소화하는 추세가 이어지면서 OCR의 활용 분야가 다각화되고 비즈니스 현장의 핵심 기술로 자리매김하고 있다”며 “향후 도큐먼트 OCR 특화 모델을 지속적으로 확장하고 네이버 클라우드 플랫폼의 다른 서비스와 유기적으로 연계한 솔루션을 출시해 차별화된 서비스로 혁신을 선도해 나가겠다”고 말했다.