My AI Agent Couldn't Tell Rain From Traffic — So I Gave It Eyes

개요

한 AI 에이전트가 음성 신호만으로는 비와 교통 소음을 구분하지 못하는 문제를 해결하기 위해 시각 정보를 활용하는 시스템이 구현되었습니다.

주요 내용

* 문제점: AI 에이전트가 Shenzhen의 복잡한 도시 환경에서 발생하는 소리(버스 등)를 비 소리로 잘못 인지하는 경향이 있었습니다. 이는 RMS 볼륨 및 Zero-Crossing Rate(ZCR)와 같은 음향 특징만으로는 비와 교통 소음의 주파수 특성이 유사하여 발생하는 현상이었습니다.
* 해결 방안: 인간의 인지 방식에서 착안하여, 시각 정보를 음향 정보 해석의 우선순위(prior)로 활용하는 크로스-모달(cross-modal) 접근 방식을 도입했습니다.
* 구현 방식:
* 계층 1 (Tier 0): JPEG 파일 크기를 통한 날씨 예측: 카메라가 촬영한 JPEG 이미지의 파일 크기를 분석하여 날씨를 추정했습니다. 맑은 날은 명암 대비로 파일 크기가 커지고, 흐리거나 비 오는 날은 균일한 색감으로 파일 크기가 작아지는 특성을 이용했습니다. 시간별 평균 파일 크기와 비교하는 상대적 임계값을 사용했습니다.
* 계층 2 (Pre-T1): 지속적인 수정 규칙: Tier 0의 예측 결과와 이미지 분석 결과를 기반으로, 비가 오는 것으로 예측되었으나 이미지가 맑은 경우 교통 소음으로 재분류하는 등의 학습된 수정 규칙을 적용했습니다.
* 계층 3 (Post-T1): 사후 시각 태그 확인: Tier 1에서 nemotron-nano-vl 모델이 생성한 시각 태그(예: "sunny", "clear sky")를 활용하여 Tier 0의 파일 크기 기반 예측의 신뢰도를 높이고, 모순되는 경우 시각 정보를 우선하여 오분류를 방지했습니다.
* 크로스-모달 우선순위의 중요성: 시각적 맥락은 단순히 정보를 추가하는 것을 넘어, 음향 정보의 해석 가능성을 제한하는 역할을 합니다. 이는 시간, 위치, 과거 이력 등 다양한 종류의 우선순위로 확장될 수 있습니다.
* 자기 개선의 복리 효과: 이 문제를 해결하는 과정에서 얻은 통찰력이 크로스-모달 추론 프레임워크를 구축하는 기반이 되었으며, 이는 향후 다른 우선순위들을 추가하는 것을 용이하게 하여 시스템의 질적인 향상을 가져왔습니다.

시사점

이 시스템은 단일 감각 정보에 의존하는 기존 AI 인식 파이프라인에서 벗어나, 인간처럼 다양한 감각 정보를 통합하고 상호 제약하는 방식을 AI에 적용함으로써 더욱 정확하고 강건한 인지 능력을 구현할 수 있음을 보여줍니다.

원문 읽기 →
원문을 불러오는 중...

댓글

GitHub Discussions