“3D데이터도 요약학습”…UNIST, 자율주행 AI비용 낮춘다
3차원 센서로 수집한 3D 포인트 클라우드 데이터를 대폭 줄이면서도 인공지능 모델 성능을 거의 그대로 유지하는 학습데이터 경량화 기술이 국내 연구진에 의해 개발됐다. 자율주행차와 로봇, 드론 등에서 사용하는 사물 인식 모델을 만들 때 필요한 학습량과 연산 비용을 크게 낮출 수 있어, 대규모 3D 인공지능 서비스 확산의 분기점이 될 수 있다는 평가가 나온다. 특히 기존 2D 이미지 중심 데이터 증류를 3D 점 구름 데이터로 확장했다는 점에서 글로벌 연구개발 경쟁에서도 의미 있는 진전으로 보인다.
울산과학기술원 인공지능대학원 심재영 교수 연구팀은 1일 3D 포인트 클라우드 데이터를 효과적으로 압축해 학습 효율을 높이는 데이터 증류 기술을 개발했다고 밝혔다. 데이터 증류는 방대한 원본 학습 데이터에서 통계적 요점을 뽑아내, 훨씬 작은 크기의 요약 데이터로 모델을 학습시키는 기법을 말한다. 연구팀은 이 기법을 포인트 클라우드라는 특수한 3D 데이터에 적용할 수 있도록 구조를 새로 설계했다.

포인트 클라우드는 사물의 표면을 수많은 점으로 표현한 3차원 데이터다. 라이다 센서나 3D 스캐너가 주변 환경을 인식할 때 만들어지는 전형적인 형식으로, 자율주행차의 환경 인지, 물류 로봇의 충돌 방지, 디지털 트윈용 공간 스캔 등에 폭넓게 활용된다. 그러나 점들의 배열에 고정된 순서가 없고, 같은 물체도 관측 위치에 따라 회전된 다양한 형태로 등장해, 기존 2D 이미지 기반 데이터 증류 기법을 그대로 적용하기 어렵다는 한계가 있었다.
데이터 증류 과정에서는 원본 데이터와 요약 데이터의 특징을 비교해가며 요약 데이터의 품질을 점진적으로 개선한다. 이미지나 텍스트처럼 정렬 기준이 분명한 데이터는 이런 비교와 매칭이 상대적으로 쉽지만, 포인트 클라우드처럼 순서가 정의되지 않고 방향이 제각각인 데이터에서는 동일한 물체라도 서로 다른 점 집합으로 인식되는 문제가 발생한다. 요약 데이터가 엉뚱한 부위와 매칭되거나, 같은 물체를 다른 물체로 잘못 인식해 결과적으로 부정확한 요약 데이터가 만들어지는 것이다.
연구팀은 이 같은 구조적 난제를 해결하기 위해 두 가지 핵심 요소를 결합한 새로운 데이터 증류 프레임워크를 설계했다. 첫 번째는 순서가 뒤섞인 점 데이터의 의미 구조를 자동으로 정렬해주는 손실 함수 SADM이다. 이 함수는 포인트 클라우드의 특징 공간에서 원본과 요약 데이터 간 거리를 계산할 때 점 하나하나를 직접 대응시키지 않고, 의미적 패턴 단위로 정렬해 비교하도록 유도한다. 그 결과 순서가 제각각인 점 구름에서도 안정적인 특징 매칭이 가능해진다.
두 번째는 물체의 회전 각도를 학습 과정 안에서 스스로 최적화하는 방향 최적화 기법이다. 기존 3D 인식 모델은 회전 변형에 견딜 수 있도록 별도의 데이터 증강이나 정규화를 적용했지만, 증류 단계에서 회전 불확실성까지 동시에 처리하기에는 한계가 있었다. 연구팀은 회전 각도를 학습 가능한 매개변수로 정의해, 인공지능이 요약 데이터와 원본 데이터 간 오차가 최소화되는 방향을 스스로 찾아가도록 만들었다. 이 방식으로 요약 데이터가 다양한 관측 각도에서도 일관된 의미를 가지도록 정렬되는 효과를 얻었다.
이 기술의 성능은 공개 3D 객체 인식 데이터셋인 ModelNet40을 통해 검증됐다. 연구팀은 원본 데이터 대비 25분의 1 수준으로 데이터를 줄인 요약 데이터만으로 학습을 진행한 결과, 80.1퍼센트의 인식 정확도를 얻었다. 같은 모델이 전체 원본 데이터로 학습했을 때 달성한 정확도는 87.8퍼센트였다. 데이터 양을 4퍼센트 수준으로 줄였음에도 정확도 감소 폭을 7.7퍼센트포인트 이내로 억제한 것으로, 수십 분의 1 수준의 고압축률과 실용적인 성능을 동시에 확보한 사례로 평가된다. 연구팀은 다른 3D 데이터셋에서도 비슷한 경향을 확인하며 기법의 일반성을 점검했다.
자율주행과 로보틱스 분야에서는 점점 더 복잡한 환경을 다루기 위해 3D 센서 해상도와 데이터 수집 규모를 키우는 추세다. 이런 환경에서는 학습에 필요한 GPU 수와 시간, 전력 소비가 기하급수적으로 늘어난다. 연구팀이 제안한 데이터 증류 기법이 성숙할 경우, 전체 3D 데이터 중 핵심 요약본만으로 모델을 사전 학습한 뒤, 실제 서비스 환경에 맞춰 일부 데이터만 추가 학습하는 식의 경량화 전략이 가능해진다. 스타트업이나 중소기업 입장에서는 고가 연산 인프라 없이도 경쟁력 있는 3D 인식 모델을 개발할 수 있는 길이 열리는 셈이다.
또한 대규모 3D 데이터를 클라우드로 올리기 어려운 인프라 환경에서는, 현장에서 수집된 원본 데이터로 먼저 요약 데이터를 생성한 뒤, 이 요약본만 중앙 서버로 전송해 학습하는 구조를 구축할 수 있다. 자율주행차나 산업용 로봇, 드론과 같이 엣지 단에서 데이터가 대량 발생하는 시스템에서 통신 비용과 저장 비용 절감 효과가 기대된다. 디지털 트윈 구축에서도 도시나 공장 전체를 촬영한 3D 스캔 데이터의 핵심 정보만을 골라내, 시뮬레이션용 경량 데이터셋으로 재가공하는 응용이 가능해 보인다.
3D 포인트 클라우드용 데이터 증류는 글로벌 학계에서도 아직 초기 단계로, 2D 이미지나 텍스트를 대상으로 한 기존 연구에 비해 사례가 많지 않다. 구글 딥마인드나 미국·유럽 연구기관들이 이미지·비전 모델에서 데이터 증류로 학습 효율을 높이는 연구를 선도하는 가운데, 국내에서 3D 특화 데이터 증류 기법이 국제적으로 인정받은 것은 의미 있는 진전으로 평가된다. 특히 자율주행과 메타버스, 디지털 트윈 인프라를 전략 산업으로 삼는 국가들 간 경쟁이 치열한 만큼, 3D 데이터 처리 효율을 높이는 원천기술 선점이 향후 산업 경쟁력에 직결될 수 있다는 분석도 제기된다.
연구 책임자인 심재영 교수는 3D 점 데이터 구조 자체에 주목했다. 그는 3D 점 데이터의 무질서한 구조와 회전 불확실성 때문에 기존 증류 기술이 겪어온 매칭 오류를 구조적으로 해결하는 데 연구의 초점을 맞췄다고 설명했다. 이어 자율주행과 드론, 로봇, 디지털 트윈 등 대규모 3D 데이터 활용이 필요한 산업 전반에서 인공지능 학습 비용과 시간을 줄이는 데 기여할 수 있을 것이라고 전망했다. 산업계에서는 특히 자율주행차의 인식 소프트웨어를 지속적으로 업데이트해야 하는 상황에서, 더 적은 데이터로 더 빠르게 모델을 재학습할 수 있는 도구로 활용될지 주목하고 있다.
이번 연구 결과는 인공지능 분야 3대 국제학회 가운데 하나인 신경정보처리시스템학회 NeurIPS 2025에 정식 논문으로 채택됐다. NeurIPS는 기계학습, 딥러닝, 데이터 과학 분야에서 가장 영향력 있는 학회로 꼽히며, 채택 자체가 기술적 완성도와 학술적 기여도를 동시에 인정받았다는 의미로 받아들여진다. 올해 NeurIPS는 12월 2일부터 7일까지 미국 샌디에이고에서 열릴 예정으로, 연구팀은 학회 현장에서 세부 알고리즘과 실험 결과를 공개할 계획이다.
연구는 과학기술정보통신부와 한국연구재단, 정보통신기획평가원의 지원을 받아 수행됐다. 학계와 산업계에서는 이번 기술이 향후 3D 센서 기반 서비스의 확산 속도를 가속할지, 그리고 실제 상용 제품 개발 과정에서 얼마나 빠르게 적용될지에 관심이 쏠리고 있다. 산업계는 대규모 3D 데이터 시대에 학습 효율을 높여주는 핵심 도구로 이 기술이 자리 잡을 수 있을지 지켜보고 있다.
