문정욱 네이버클라우드 부장
"데이터박스로 차별화된 분석 서비스 제공"

[디지털투데이 황치규 기자] 많은 기업들 사이에서 네이버 데이터는 쓰고 싶은 데이터로 통한다. 검색과 쇼핑이 특히 그렇다. 네이버가 시장에서 갖는 지위를 고려하면 트렌드를 파악하는데 있어 네이버 검색이나 쇼핑 데이터에 대한 관심은 예전이나 지금이나 여전히 높다.

이를 감안해 네이버클라우드가 지난해 말 외부 기업들이 분석용으로 쇼핑이나 검색 같은 네이버 핵심 데이터를 활용할 수 있는 서비스인 클라우드 데이터박스를 공개했다. 데이터박스에서 이용할 수 있는 데이터는 단순 정보 수준은 훌쩍 뛰어넘었다. 규제 등으로 인해 공개하기 힘든 걸 제외하면 웬만한 데이터를 대거 원본으로 제공한다. 기존 퍼블릭 클라우드 플랫폼들에선 구경하기 힘든 유형의 서비스란 게 회사측 설명. 

네이버클라우드 문정욱 부장
네이버클라우드 문정욱 부장

그런만큼 네이버클라우드는 클라우드 데이터박스가 글로벌 회사들을 상대로 차별화를 꾀하는데도 유리하게 작용할 것으로 기대하는 모습이다. 네이버클라우드 문정욱 부장으로부터 클라우드 데이터박스 서비스가 제공하는 주요 특징과 향후 전략에 대해 들어봤다.

-클라우드 데이터박스를 내놓게 된 배경은?

"2020년 데이터 3법이 개정되고 2021년 데이터 기본법도 제정되면서 데이터 정책은 큰틀에서 규제에서 활용 중심으로 바뀌고 있다. 기업 입장에선 불확실성이 줄고 사업 기회를 얻을 수 있다는 점에서 긍정적이다. 

이런 분위기 속에 공공 데이터는 물론 네이버가 보유한 데이터 개방에 대한 목소리도 높았다. 이에 대해 내부적으로 많은 고민을 거쳤고 2020년 7월 외부에 데이터를 공개한다는 원칙을 발표했다. 베타 테스트를 거쳐  공식적으로 상품화시킨 것이 클라우드 데이터박스다."

-네이버 데이터를 어느 수준까지 활용할 수 있나.

"클라우드 데이터박스가 제공하는 데이터는 검색, 쇼핑, AI다. 검색의 경우 성별 연령, 지역별, 거주지별로 어떤 검색어를 입력했 어떤 영역을 클릭했는지 통계치를 활용할 수 있다. 예를 들면 서울 마포구 사는 20대 초반 여성이 PC 또는 모바일로 어떤 검색어를 친 후 어디를 클릭했는지를 파악할 수 있다. 사용자 검색 의도를 아는데 유용할 것이다.

쇼핑과 검색을 연동하면 고객 구매 요정을 보다 입체적으로 알 수 있다. 검색하는 것보다는 검색하고 나서 상품을 클릭하는 사람은 제품에 대한 관심이 높다고 볼 수 있다. 어떤 키워드로 어느 카테고리에서 몇번 클릭하고 구매했는지 지역, 성별로 파악이 가능하다. 이들 정보를 통해 시장 트렌드를 살필 수 있다.  

AI 데이터는 기업들이 머신러닝(ML) 모델을 만드는데 따르는 진입 장벽을 낮추는데 초점이 맞춰져 있다. 머신러닝을 위해서는 라벨링된 데이터가 필요한데, 가격이 좀 비싸다. 직접 제작하기도 품이 많이 든다.  그런만큼 클라우드 데이터박스로 AI 모델을 보다 쉽게 만들 수 있을 것이다."

-기존 외부에서 이용할 수 있는 데이터와 비교해 클라우드 데이터박스가 다른 점은 무엇인가?

"기업들이 외부 데이터를  활용하려면 데이터 스토어 등에서 구입하거나 리서치 회사들 보고서를 보는 방법이 있다. 데이터 스토어는 인사이트를 발굴하는데 필요한 고급 데이터를 얻기가 아직은 쉽지 않다. 보고서의 경우 실시간 측면에선 한계가 있다.  다양한 측면에서 데이터를 활용하려면 결국 원본 데이터를 봐야 한다. 구글이나 어도비가 제공하는 분석 서비스는 기업 자체 웹사이트나 기업이 광고한 효과에 대한 분석만 가능하다. 전체 시장이 어떻게 돌아가는지는 파악하기 어렵다. 이 부분에서 데이터박스가 의미가 있을 것이다."

-네이버 쇼핑과 검색 데이터는 다양한 분야 회사들이 관심을 가질 수밖에 없다. 1차 타깃 고객은 어느 쪽인가?

"내부에 분석팀이 있는 기업들이 우선 대상이다. 원본 데이터를 분석하고 이후 관리  측면에서도 거버넌스가 어느정도 있는 회사들에 적합하다."

-분석을 위해서는 데이터 외에 툴들도 필요하다.

"클라우드 데이터박스는 단순히 데이터만 제공하는게 아니라 데이터 분석을 위한 종합 플랫폼이다. 네이버 원본 데이터와 분석 플랫폼을 모두 제공한다. 네이버 데이터를 분석하는데 필요한 하둡이나 텐서플로 분석 플랫폼, 제플린 같은 노트북도 지원한다. 저장 공간도 이용할 수 있다. 그외 외부 업체 분석 툴을 활용하는 것도 가능하다.  데이터박스는 AI 분석 모델까지 만들어주는 건 아니다. 모델은 사용자가 직접 구현해야 한다. AWS 세이지메이커는 AI 모델까지 만들어주지만 클라우드 데이터박스는 모델에 필요한 환경을 제공하는데 초점이 맞춰져 있다."

-프라이버시는 어떻게 지원하나.

"실명이나 프라이버시에 민감한 데이터는 오픈하지 않는다. 데이터박스에서 제공하는 데이터는 비식별화를 거친 것들이다. 민감한 키워드나 주민번호, 계좌 번호 등은 제외됐다. 또 일정 수준 이상 검색한 데이터 중심으로 오픈하고 있다."

-클라우드 데이터박스에 있는 데이터를 외부로 가져와 분석하는 것도 가능한가?

"클라우드 데이터박스에서 분석한 익명 통계값이나 코드, AI 모델 등은 약관에 따라 외부 반출이 가능하다. 하지만 원본 데이터가 일부라도 섞인 것은 외부로 가지고 나갈 수 없다."

-클라우드 데이터박스를 제대로 쓰려면 어느 정도 학습이 필요해 보인다. 진입 장벽을 낮추기 위한 방안은?

"네이버에서 구할 수 있는 온라인 행동 데이터에 대해 관심이 있는 이들은 홍보나 마케팅 분야 종사자들이 많다. 이들이 클라우드 데이터박스를 바로 쓰기는 어려울 수 있다. 그런만큼 간극을 메우는 것이 중요하다. 파트너들과 협력해 교육 과정 등을 준비하고 있다."

-서비스 개선과 관련해 올해 준비 중인 것들은 무엇인가.

"클라우드 데이터박스는 하나의 상품이지만 앞으로 생태계로 진화할 잠재력이 있다. 우리가 다할 수 있는 영역이 아니다. 좋은 데이터 제공 업체나 분석 솔루션 업체, 컨설팅 회사들과 협력해 금융, 제조 등 산업별로 템플릿을 만들어내는 것이 중요하다. 올해 이 부분에 많은 신경을 쓸 것이다.

산업별 생태계를 구축하는 것 외에 데이터를 늘리는 것도 중요한 목표다. 쇼핑, 검색, AI 외에 다양한 데이터를 확보해나갈 것이다. 이를 위해 외부 기업들과 제휴도 강화할 계획이다.

사용자 편의성 강화도 중요하다. 클라우드 데이터박스를 통해 인프라 관련 지식이 없어도 다양한 니즈에 맞게 API 형태로 쓸 수 있는 환경도 제공할 것이다. 외부 전문 업체들과 협력해 복잡한 과정 없이 분석 결과를 바로 볼 수 있는 대시보드도 이용할 수 있도록 할 것이다."

관련기사

저작권자 © 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지