Gemini API File Search is now multimodal

개요

Gemini API의 File Search 기능이 멀티모달 데이터(텍스트 및 이미지)와 사용자 정의 메타데이터를 지원하며, 검색 결과에 대한 페이지 단위 인용 기능을 추가하여 검색 증강 생성(RAG) 시스템 개발을 확장했습니다.

주요 내용

* 멀티모달 데이터 처리: File Search는 이제 텍스트뿐만 아니라 이미지 데이터도 함께 처리할 수 있으며, Gemini Embedding 2 모델을 기반으로 이미지에 대한 맥락적 이해를 제공합니다.
* 사용자 정의 메타데이터: 불필요한 문서의 노이즈를 줄이고 검색 속도와 정확도를 높이기 위해, 데이터에 department: Legal 또는 status: Final과 같은 키-값 메타데이터 레이블을 첨부하고 쿼리 시 메타데이터 필터를 적용할 수 있습니다.
* 페이지 단위 인용: 모델 응답이 출처를 직접 가리키도록 하여 신뢰성을 높이고 사실 확인을 용이하게 합니다. 인덱싱된 모든 정보에 대해 원본 PDF의 페이지 번호를 캡처합니다.

시사점

Gemini API의 File Search 기능 확장은 개발자가 텍스트와 이미지를 모두 포함하는 RAG 시스템을 더 효율적으로 구축하고, 사용자에게 더 높은 투명성과 신뢰성을 제공할 수 있게 합니다.

원문 읽기 →
원문을 불러오는 중...

댓글

GitHub Discussions