Google's Gemini 3.5 Flash is 4x faster than other frontier models. Here is how to call it from TypeScript.

개요

Google의 Gemini 3.5 Flash 모델은 기존 모델 대비 4배 빠른 출력 속도를 제공하며, TypeScript 환경에서 해당 모델을 활용하는 방법과 비용, 속도 제한 등에 대해 설명합니다.

주요 내용

* Gemini 3.5 Flash의 특징: Google I/O 2026에서 출시된 Gemini 3.5 Flash는 다른 최첨단 모델보다 초당 출력 토큰이 4배 빠르며, 특히 실시간 채팅, 코드 생성, 에이전트 워크플로우와 같이 지연 시간에 민감한 작업에 유리합니다.
* Gemini 3.5 Flash vs. Gemini 2.5 Flash: 3.5 Flash는 더 높은 비용에도 불구하고 빠른 처리 속도로 에이전트 워크플로우의 전체 실행 시간을 단축시켜 작업당 비용을 절감할 수 있습니다. 반면, 2.5 Flash는 토큰당 비용이 저렴하여 대규모 고용량 추론 작업에 적합합니다.
* TypeScript SDK 설치 및 기본 사용: @google/genai SDK를 설치하고 Node.js 18 이상 환경에서 API 키를 설정한 후, models.generateContent를 사용하여 모델에 텍스트를 요청하고 응답을 받을 수 있습니다.
* 스트리밍 응답: 4배 빠른 출력 속도는 스트리밍 시 가장 큰 장점을 발휘합니다. models.generateContentStream을 사용하면 모델이 생성하는 각 토큰 청크를 실시간으로 클라이언트에 전송하여 사용자 경험을 향상시킬 수 있습니다. Next.js API 라우트나 Express 서버 등에서 Content-Type: text/event-stream 헤더와 함께 ReadableStream으로 파이핑하여 사용할 수 있습니다.
* Tool Calling (함수 호출): Gemini 3.5 Flash는 도구 선언, 모델의 함수 호출 요청, 실행 및 결과 반환의 3단계로 함수 호출을 지원합니다. Gemini 3.x API에서는 함수 호출 시 고유 ID가 부여되며, 응답 시 해당 ID를 반드시 포함시켜야 합니다. Type.OBJECT와 같은 Type enum을 사용하여 매개변수 스키마를 정의해야 합니다.
* 비용 및 속도 제한: Gemini 3.5 Flash는 입력 토큰당 $1.50, 출력 토큰당 $9.00의 비용이 발생하며, 2.5 Flash(입력 $0.30, 출력 $2.50) 대비 높은 편입니다. 하지만 빠른 속도로 작업 완료 시간을 단축하면 전체 비용이 절감될 수 있으므로 실제 워크로드에 대한 테스트가 중요합니다. 무료 티어도 존재하지만, 유료 프로젝트에서는 월별 지출 한도를 설정하는 것이 좋습니다.
* Google Search Grounding: Gemini 3 모델의 Google Search Grounding 요청은 무료 티어에서 월 5,000건의 프롬프트 할당량을 공유하며, 유료 전환 시 1,000건당 $14의 비용이 발생합니다.

시사점

Gemini 3.5 Flash는 TypeScript 기반 애플리케이션에서 에이전트 워크플로우 및 지연 시간에 민감한 작업을 처리하는 데 있어 성능 향상의 잠재력을 제공하며, 실제 워크로드에 대한 비용 효율성을 면밀히 테스트하고, 함수 호출 시 ID 반환 규칙을 준수하는 것이 중요합니다.

원문 읽기 →
원문을 불러오는 중...

댓글

GitHub Discussions