TharVA : Keeping India's Desert Heritage Alive with Offline AI (Gemma4)
개요
TharVA는 인도 라자스탄의 타르 사막 낙타 목축민을 위해 개발된 모바일 중심의 완전 오프라인 다국어 AI 도우미로, Gemma 4 E2B 모델을 사용하여 인터넷 연결이 불안정한 환경에서도 실시간으로 정보를 제공한다.
주요 내용
* 대상 및 목적: TharVA는 인터넷 연결이 어렵고 고가의 스마트폰을 사용하지 않는 타르 사막의 낙타 목축민을 대상으로 하며, 낙타의 건강 문제 발생 시 신속하고 정확한 안내를 제공하는 현장 도구 역할을 한다.
* 두 가지 상호작용 모드:
* Quick Call: 음성 입력 및 음성 출력 방식으로, 버튼을 누르고 질문하면 짧고 직접적인 답변을 제공하여 신속한 상황 대응에 적합하다.
* Detailed Chat: 텍스트 또는 음성 입력에 이미지 첨부를 지원하며, 낙타의 상처나 피부 상태 사진 등을 통해 상세하고 구조화된 답변을 제공한다.
* Gemma 4 E2B 모델 활용: 23억 개의 매개변수를 가진 Gemma 4 E2B 모델을 사용하여 4GB RAM 환경의 중저가 안드로이드 스마트폰에서도 안정적으로 작동하도록 설계되었다.
* 완전 오프라인 및 개인정보 보호: 클라우드 API 없이 기기 내에서 모든 추론이 이루어져 데이터가 외부로 유출되지 않으며, 인터넷 신호 없이도 작동한다.
* 다국어 및 다중 모달 지원:
* 음성 입력 (Ears): 기기 수준의 음성 인식 없이 원시 WAV 파일 형식으로 오디오를 직접 모델에 전달하여 지역 방언 및 억양을 더 잘 인식한다.
* 이미지 입력 (Eyes): 낙타의 상처, 피부 상태, 자세 등을 사진으로 첨부할 수 있으며, 한 번에 하나의 이미지만 지원하여 안정적인 동작을 보장한다.
* 음성 출력 (Mouth/Vocal): 텍스트 음성 변환(TTS)을 스트리밍 방식으로 구현하여 응답 생성과 동시에 음성 출력이 시작되어 체감 속도를 향상시킨다.
* 도메인 특화 지식 주입: 낙타 사육 관련 참고 문헌 및 연구 자료를 시스템 프롬프트 시작 시 주입하여 모델이 일반 데이터가 아닌 특정 도메인 지식에 기반하여 답변하도록 한다.
* 세션 관리 및 안정성: 언어 또는 모드 변경 시 세션을 재설정하여 이전 컨텍스트의 영향 없이 정확한 응답을 제공하며, 모델 파일 다운로드 복구, 런타임 호환성 수정, 컨텍스트 오버플로우 방지를 위한 턴 제한 등 안정적인 현장 사용을 위한 기술적 고려가 포함되었다.
시사점
TharVA는 저사양 기기와 불안정한 네트워크 환경에서도 AI 기술을 활용하여 특정 분야의 전문 지식 접근성을 높일 수 있음을 보여주며, 지역 커뮤니티의 실질적인 필요를 충족시키는 기술 적용의 중요성을 강조한다.
댓글
GitHub Discussions