“AI 검색 훈련용 무단 데이터 수집”…미국 레딧, 퍼플렉시티 저작권 소송에 업계 촉각
현지시각 22일, 미국(USA) 뉴욕 연방법원에서 온라인 커뮤니티 플랫폼 레딧(Reddit)이 인공지능(AI) 검색 스타트업 퍼플렉시티(Perplexity) 및 데이터 스크래핑 업체들을 상대로 저작권 소송을 제기했다. AI 기술 확산과 함께 데이터 수집을 둘러싼 저작권 논란이 심화되는 가운데, 이번 소송이 디지털 업계 구조를 흔들 주요 사건으로 부상했다.
이번 사건은 퍼플렉시티가 AI 검색 엔진 모델 훈련을 위해 레딧의 콘텐츠를 대규모로 무단 수집(스크래핑)했다는 레딧 측 주장이 핵심이다. 파이낸셜타임스(FT)와 로이터 등 외신에 따르면, 레딧은 퍼플렉시티와 데이터 업체 3곳이 수십억 건에 달하는 자사 데이터를 불법 긁어갔다고 밝혔다. 소장에는 퍼플렉시티가 ‘답변 엔진’ 개발을 위해 최소 1곳 이상의 스크래핑 업체로부터 자료를 공급받았으며, 구글 검색 결과 등 다양한 경로에서 대량의 데이터를 취득했다는 내용이 포함됐다.

이에 대해 퍼플렉시티는 “사용자는 공공 지식에 자유롭게 접근할 권리가 있다”며 “우리는 원칙적이고 책임감 있는 방식을 고수한다”고 반박했다. FT는 레딧이 퍼플렉시티에 데이터 도용 논란 관련 유료 파트너십을 제안했으나, 퍼플렉시티 창업자가 이를 거부했다고 덧붙였다. 퍼플렉시티는 2022년 오픈AI 출신 인력이 창업해 AI 기반 검색서비스 분야에서 구글, 오픈AI와 경쟁 중이다.
미국 나스닥에 상장된 레딧은 이미 구글, 오픈AI와 파트너십을 맺고 대규모 언어 모델(LLM) 훈련용 데이터 제공에 나선 바 있다. 이번 소송과 별개로, 레딧은 구글에도 퍼플렉시티의 데이터 스크래핑 실태 조사와 협조를 요청했다. 다만 구글은 공식 논평을 거부했다.
이 같은 저작권 갈등은 생성형 AI 산업 부상 이후 다수의 기술 기업들을 타깃으로 한 유사 소송이 잇따르고 있는 흐름과 맞닿아 있다. 최근 미국과 영국 등 주요 IT·미디어 기업들도 AI 모델 학습용 데이터 이용 과정에서 저작권, 데이터 보호 문제로 법정 공방을 벌이고 있다.
워싱턴포스트는 “생성형 AI의 데이터 활용 논쟁이 디지털 경제의 패러다임을 흔들 수 있다”고 평했다. 당장 파트너십 체계, 기술 규제, 기업 경영 등의 변화가 예고된 상태다. 금융시장과 투자자들도 생성형 AI와 관련한 저작권 소송 확산이 업계 전반의 규제 리스크와 증시 변동성에 미칠 영향을 주시하고 있다.
전문가들은 이번 소송 결과가 AI 기업들의 데이터 확보 전략은 물론, 검색·미디어·플랫폼 등의 사업 모델을 재편하는 기점이 될 수 있다고 분석한다. 새로운 서비스 확장을 위한 데이터 활용 방안이 더욱 투명하고 합법적이어야 한다는 목소리가 거세지고 있다. 업계와 국제사회는 법원의 판결과 후속 분쟁이 데이터 산업 환경에 어떤 파장을 가져올지 예의주시하고 있다.
