New Microsoft tool lets devs spin up AI behavior tests using text descriptions
개요
Microsoft는 개발자가 텍스트 설명을 사용하여 AI 행동 테스트를 생성할 수 있는 오픈 소스 프레임워크인 ASSERT를 발표했습니다.
주요 내용
* ASSERT(Adaptive Spec-driven Scoring for Evaluation and Regression Testing)는 AI 모델의 특정 제품 또는 서비스에서의 의도된 행동을 평가하기 위한 프레임워크입니다.
* 이 프레임워크는 자연어 설명을 구조화된 테스트 케이스와 문제 시나리오로 변환하여 AI의 허용 및 비허용 행동을 평가합니다.
* 개발자는 시스템 컨텍스트, 도구 및 제약 조건을 제공하여 평가를 맞춤 설정할 수 있습니다. 예를 들어, 특정 AI 에이전트가 회사 외부로 이메일을 보내지 않도록 하거나 기밀 정보를 특정 임원에게만 제한하도록 규칙을 지정할 수 있습니다.
* ASSERT는 AI 시스템이 지속적으로 이러한 규칙을 준수하는지 확인하는 테스트 케이스를 생성합니다.
* 이 프레임워크는 AI 모델이 애플리케이션 또는 제품의 컨텍스트, 정책 및 도구에 의해 형성된 방식으로 행동해야 할 때 발생하는 평가 격차를 해소합니다.
* Microsoft의 Responsible AI 최고 제품 책임자인 Sarah Bird는 AI 시스템의 행동을 이해하는 것이 조직의 기준을 충족하는지 판단하는 데 중요하며, 신뢰할 수 있는 시스템을 위해서는 애플리케이션별로 더 많은 차원을 평가해야 한다고 강조했습니다.
* ASSERT는 AI 시스템 개발 중, 배포 후, 지속적인 모니터링에 사용될 수 있습니다.
시사점
ASSERT는 개발자가 AI 모델의 애플리케이션별 행동을 보다 효율적이고 포괄적으로 평가할 수 있도록 지원하여, AI 시스템의 신뢰성과 의도된 기능 준수를 보장하는 데 기여합니다.
댓글
GitHub Discussions