Cloudflare's AI Platform: an inference layer designed for agents

개요

Cloudflare는 개발자가 다양한 AI 모델을 단일 API를 통해 통합적으로 접근하고 관리할 수 있는 AI Platform을 출시했습니다. 이는 특히 여러 AI 모델 호출이 필요한 에이전트 개발 시 발생하는 복잡성을 해소하고, 속도와 안정성을 향상시키는 데 중점을 둡니다.

주요 내용

* 통합 추론 레이어 (Unified Inference Layer): Cloudflare AI Platform은 OpenAI, Anthropic 등 다양한 제공업체의 AI 모델을 AI.run() 바인딩 또는 REST API를 통해 하나의 API 엔드포인트에서 접근할 수 있도록 합니다. 이를 통해 개발자는 특정 제공업체에 종속되지 않고, 모델을 한 줄의 코드 변경으로 전환할 수 있습니다.
* 모델 카탈로그 확장: 현재 12개 이상의 제공업체에서 70개 이상의 모델을 지원하며, 이미지, 비디오, 음성 등 멀티모달 애플리케이션 구축을 위한 모델도 포함합니다. Alibaba Cloud, Google, OpenAI 등 다양한 파트너사의 모델이 추가될 예정입니다.
* 비용 관리 및 모니터링: AI Gateway는 여러 제공업체에 걸친 AI 사용량을 중앙 집중식으로 모니터링하고 관리할 수 있는 기능을 제공합니다. 사용자 정의 메타데이터를 통해 비용을 세분화하여 분석할 수 있습니다.
* 사용자 정의 모델 지원 (Bring Your Own Model): Replicate의 Cog 기술을 활용하여 사용자가 직접 파인튜닝하거나 최적화한 모델을 Workers AI에 배포하고 실행할 수 있게 지원할 예정입니다. 이를 통해 모델 패키징의 복잡성을 줄이고, 사용자 정의 모델을 손쉽게 활용할 수 있습니다.
* 저지연 및 빠른 첫 토큰 응답: Cloudflare의 글로벌 네트워크를 활용하여 사용자와 추론 엔드포인트 간의 거리를 최소화하고, 특히 에이전트의 응답 속도에 중요한 '첫 토큰까지의 시간(time to first token)'을 단축하여 사용자 경험을 개선합니다. Cloudflare 호스팅 모델의 경우 추가적인 인터넷 홉이 없어 지연 시간을 더욱 줄입니다.
* 자동 장애 복구 및 안정성: 에이전트 워크플로우에서 발생하는 개별 호출 실패가 전체 체인에 영향을 미칠 수 있다는 점을 고려하여, AI Gateway는 모델이 여러 제공업체에 걸쳐 사용 가능한 경우 자동으로 다른 제공업체로 라우팅하는 기능을 제공합니다. 또한, 스트리밍 추론 중 발생하는 연결 끊김에 대해서도 에이전트가 재연결하여 중단 없이 응답을 받을 수 있도록 지원합니다.
* Replicate 통합: Replicate 팀이 Cloudflare AI Platform 팀에 합류하여, Replicate 모델을 AI Gateway에 통합하고 Replicate에서 배포된 모델을 Workers AI에서 호스팅하는 작업을 진행 중입니다.

시사점

Cloudflare의 AI Platform은 개발자가 복잡한 AI 모델 관리 문제를 해결하고, 에이전트와 같은 고성능 AI 애플리케이션을 더 빠르고 안정적으로 구축할 수 있도록 지원하는 중요한 전환점을 제시합니다.

원문 읽기 →
원문을 불러오는 중...

댓글

GitHub Discussions