How I Built a Free Voice AI Pipeline Using Whisper, LLaMA 3.1 & Groq

개요

Whisper, LLaMA 3.1, Groq API를 활용하여 무료 음성 AI 파이프라인 VoiceIQ를 구축했으며, 이는 사용자의 음성을 듣고 LLM으로 사고하며 답변을 말하는 기능을 제공한다.

주요 내용

- 구축 스택:
* Speech to Text: Whisper Large V3 (Groq API 사용)
* Language Model: LLaMA 3.1 8B Instant (Groq API 사용)
* Text to Speech: gTTS
* Web UI: Streamlit
- 핵심 기능 - 대화 메모리: 모든 LLM 호출이 기본적으로 상태 비저장(stateless)이라는 점을 해결하기 위해, 마지막 8개의 턴을 저장하고 전체 대화 기록을 모든 요청에 전달하는 ConversationMemory 클래스를 구현했다.
- 실제 발생 버그 및 해결: 개발 중 Groq에서 llama3-8b-8192 모델이 지원 중단되어 400 오류가 발생했으나, llama-3.1-8b-instant 모델로 전환하여 해결했다. 이를 통해 모델 문자열을 하드코딩하지 않아야 함을 배웠다.
- Groq API 사용 이유: OpenAI 대비 Groq는 무료 티어를 제공하며 매우 빠른 추론 속도를 자랑한다. 음성 비서에게는 미미한 정확도 향상보다 속도가 더 중요하다고 판단했다.
- 전체 데모 영상: 라이브 파이프라인을 시연하는 영상이 제작되었다.

시사점

Groq API의 빠른 추론 속도와 무료 티어를 활용하면 비용 부담 없이 고성능 음성 AI 시스템을 구축할 수 있으며, 대화 메모리 구현을 통해 사용자 경험을 향상시킬 수 있다.

원문 읽기 →
원문을 불러오는 중...

댓글

GitHub Discussions