New Microsoft tool lets devs spin up AI behavior tests using text descriptions

TechCrunch 2026년 6월 2일

techaiai evaluationsai regression testingmicrosoft

개요

Microsoft는 개발자가 텍스트 설명을 사용하여 AI 행동 테스트를 생성할 수 있는 오픈 소스 프레임워크인 ASSERT를 발표했습니다.

주요 내용

* ASSERT(Adaptive Spec-driven Scoring for Evaluation and Regression Testing)는 AI 모델의 특정 제품 또는 서비스에서의 의도된 행동을 평가하기 위한 프레임워크입니다.
* 이 프레임워크는 자연어 설명을 구조화된 테스트 케이스와 문제 시나리오로 변환하여 AI의 허용 및 비허용 행동을 평가합니다.
* 개발자는 시스템 컨텍스트, 도구 및 제약 조건을 제공하여 평가를 맞춤 설정할 수 있습니다. 예를 들어, 특정 AI 에이전트가 회사 외부로 이메일을 보내지 않도록 하거나 기밀 정보를 특정 임원에게만 제한하도록 규칙을 지정할 수 있습니다.
* ASSERT는 AI 시스템이 지속적으로 이러한 규칙을 준수하는지 확인하는 테스트 케이스를 생성합니다.
* 이 프레임워크는 AI 모델이 애플리케이션 또는 제품의 컨텍스트, 정책 및 도구에 의해 형성된 방식으로 행동해야 할 때 발생하는 평가 격차를 해소합니다.
* Microsoft의 Responsible AI 최고 제품 책임자인 Sarah Bird는 AI 시스템의 행동을 이해하는 것이 조직의 기준을 충족하는지 판단하는 데 중요하며, 신뢰할 수 있는 시스템을 위해서는 애플리케이션별로 더 많은 차원을 평가해야 한다고 강조했습니다.
* ASSERT는 AI 시스템 개발 중, 배포 후, 지속적인 모니터링에 사용될 수 있습니다.

시사점

ASSERT는 개발자가 AI 모델의 애플리케이션별 행동을 보다 효율적이고 포괄적으로 평가할 수 있도록 지원하여, AI 시스템의 신뢰성과 의도된 기능 준수를 보장하는 데 기여합니다.

원문 읽기 →

원문을 불러오는 중...

GitHub Discussions

개요

주요 내용

시사점

댓글

관련 기사