“AI 검색 신뢰성 높인다”…네이버, 지식 인프라에 1000억 투자
신뢰 가능한 인공지능 검색 기술이 포털 산업의 새로운 경쟁축으로 떠오르면서, 네이버가 지식 인프라 고도화에 대규모 투자를 단행한다. 모델 성능 중심 경쟁에서 한발 더 나아가, 검증된 고품질 데이터 기반의 지식 생태계를 선점해 글로벌 검색·생성형 AI 시대에 한국어 정보 허브로 자리매김하겠다는 구상으로 읽힌다. 업계에서는 이번 투자가 AI 검색 패권 경쟁에서 ‘데이터 품질 전쟁’의 분기점이 될 수 있다는 평가가 나온다.
네이버는 21일 지식백과와 어학사전 등 자체 보유 지식 데이터베이스 강화를 위해 향후 3년간 1000억 원 규모를 투자한다고 밝혔다. 대상은 전문가 집필과 검수 과정을 거친 고품질 콘텐츠로, 기존 데이터 정제와 신규 지식 구축을 동시에 추진한다. 네이버는 이들 데이터가 지식iN, 블로그, 카페 같은 사용자 생성 콘텐츠와 쇼핑, 플레이스 등 비즈니스 데이터와 함께 AI 검색 고도화의 핵심 기반이 된다고 보고 있다.

AI 검색의 정확성과 신뢰성을 좌우하는 핵심 요소로는 ‘어떤 데이터를 학습하느냐’가 꼽힌다. 인터넷 공간에는 검증되지 않은 정보와 노이즈 데이터가 대량으로 존재해, 생성형 AI가 왜곡된 답변을 내놓는 ‘할루시네이션’ 문제가 반복돼 왔다. 네이버는 이런 한계를 줄이기 위해 전문가가 집필하고 기관이 검수한 구조화된 지식 콘텐츠를 대규모로 확충해 검색 알고리즘과 생성형 AI 모델의 학습 재료로 활용한다는 전략이다.
네이버가 보유한 지식백과와 어학사전은 이미 국내 최대 규모의 한글 중심 지식 인프라로 평가받는다. 네이버는 올해 국내외 연구기관과 학회, 대학, 전문 집필진과 협력해 학술·인문 영역의 데이터베이스를 대폭 확장했다. 동국역경원의 불교사전에는 1만8576건의 표제항이 반영됐고, 단국대 동양학연구원의 이두사전은 4226건의 표제항을 새로 담았다. 선문대의 러시아어 유의어 학습사전은 754건의 표제항을 제공하며, 고려대 한국어대사전은 약 1100건 규모의 어원 정보를 추가했다.
어학사전 영역에서도 외연 확장이 진행 중이다. 네이버 어학사전은 현재 67종 언어, 약 3000만 표제어를 제공하는 국내 최대 서비스다. 올해는 한국외국어대학교와 협력해 네덜란드어, 독일어, 스페인어, 아랍어, 체코어 등 12종 언어 학습사전을 추가했다. 이와 함께 혼동하기 쉬운 표현, 유사 단어 간 의미 차이, 뉘앙스를 요약해 보여주는 AI 기반 ‘학습정보’ 기능 고도화에도 나선다.
언어·문화 다양성을 고려한 소수 언어 투자는 mid·long term 관점에서 눈에 띄는 전략 포인트다. 네이버는 국내 이용자 규모가 크지 않더라도 학문적·문화적 가치가 큰 언어에 대한 사전 편찬을 지속 지원하고 있다. 현재 그리스어, 고대 그리스어, 고대 히브리어, 테툼어, 미얀마어, 덴마크어, 노르웨이어, 히브리어 등 총 12종 소수 언어 사전을 구축해 지속 개정 중이며, 약 5만5000건의 학습 정보를 제공하고 있다. 내년 1월에는 카자흐어 사전도 새로 선보인다. 카자흐어 사전에는 1만103건의 표제항과 4만848건의 예문이 포함될 예정이다.
네이버는 어학사전 활용 방식도 단순 단어 뜻·예문 열람에서 AI 기반 개념 학습 중심으로 전환한다는 구상이다. 예를 들어 영어 단어 take처럼 의미 확장이 다양한 단어의 경우, AI가 활용 패턴과 숙어 표현, 빈출 구문 등을 요약해 제시함으로써 사용자가 맥락 중심으로 의미를 이해할 수 있도록 지원한다. 이는 전통적인 사전 조회 방식보다 학습 효율과 사용자 만족도를 높이는 방향으로 작동할 수 있다는 관측이 나온다.
글로벌 빅테크는 이미 생성형 AI 검색과 챗봇을 전면에 내세우며 검색 시장 재편에 나선 상태다. 미국에서는 초거대 언어모델을 앞세운 검색·질의응답 서비스 경쟁이 본격화됐고, 각사 모두 대규모 웹 크롤링 데이터와 자사 서비스 로그를 핵심 자산으로 활용하고 있다. 이런 가운데 네이버는 ‘고품질 한국어 지식 인프라’라는 차별화 포인트에 집중해, 범용 영어 중심 모델과는 다른 지역 특화형 검색·AI 전략을 강화하는 모습이다.
데이터 품질 경쟁력은 향후 규제 환경에서도 중요도가 커질 전망이다. AI가 의료, 금융, 공공 영역으로 확산될수록 오류 정보 확산과 책임 소재 논쟁이 불거질 가능성이 커서다. 전문가들은 규제 당국이 고위험 영역에서의 AI 활용 기준을 마련할 때 데이터 출처, 검증 절차, 업데이트 주기 등을 주요 평가 기준으로 삼을 것으로 보고 있다. 네이버처럼 전문가 집필·검수 구조를 갖춘 지식 인프라는 향후 이런 규제 논의에서 상대적으로 유리한 위치를 확보할 수 있다는 분석이 나온다.
네이버 내부에서는 이번 투자를 AI 검색 시스템 체질 개선의 연장선으로 본다. 김상범 네이버 AI 검색 리더는 AI 검색 시대를 맞아 탐색형 질의에서는 답변의 다양성을, 정보성 질의에서는 사실 기반 신뢰성을 강화하는 방향으로 검색 구조를 바꿔 왔다고 설명했다. 그는 앞으로도 20년 이상 축적해 온 검색 인프라와 AI 기술, 데이터 자산을 바탕으로 ‘믿을 수 있는 AI 검색’을 제공하겠다고 강조했다.
업계에서는 네이버의 지식 인프라 투자가 장기적으로 한국어 기반 AI 생태계 전반에 영향을 줄 수 있다고 본다. 검색 서비스뿐 아니라 생성형 AI, 디지털 교과서, 온라인 교육, 전문 번역·통번역 서비스 등으로 활용 영역이 넓어질 수 있어서다. 산업계는 이번 투자가 실제 서비스 품질 향상과 수익 모델 확장으로 이어질지, 그리고 데이터 품질을 둘러싼 글로벌 AI 경쟁 구도에 어떤 변화를 가져올지 예의주시하고 있다.
