OpenAI’s updated image generator can now pull information from the web

개요

OpenAI의 업데이트된 이미지 생성기 ChatGPT Images 2.0은 웹 검색 기능을 통합하여 프롬프트당 여러 이미지를 생성하고, 파일 기반 시각적 설명 생성, 이미지 구조 추론 등 더욱 정교한 기능을 제공합니다.

주요 내용

  • 웹 검색 통합 및 "사고 능력": GPT Image 2 모델 기반의 새로운 "사고 능력(thinking capabilities)"을 통해 사용자의 프롬프트를 이해하고 이미지를 생성하기 전에 웹에서 관련 정보를 검색할 수 있습니다.
  • 향상된 지시 이행 및 디테일 보존: 사용자의 지시를 더 잘 따르고, 원하는 캐릭터, 객체, 스타일 등의 디테일을 유지하면서 최대 8개의 이미지를 한 번에 생성할 수 있습니다.
  • 시각적 설명 생성 및 이미지 구조 추론: 업로드된 파일을 기반으로 시각적 설명(visual explainers)을 만들고, 이미지를 생성하기 전에 이미지의 구조를 추론하는 능력이 강화되었습니다.
  • 다양한 유형 및 해상도 지원: 픽셀 아트, 망가, 시네마틱 스틸 등 다양한 이미지 유형을 더 잘 포착하며, 최대 2K 해상도와 3:1부터 1:3까지 다양한 화면 비율을 지원합니다.
  • 다국어 텍스트 생성 개선: 영어 외에도 일본어, 한국어, 중국어, 힌디어, 벵골어 등 다양한 언어로 된 텍스트를 포함하는 이미지를 생성하는 능력이 크게 향상되었습니다.
  • 이용 대상: "사고 능력" 기능은 ChatGPT Plus, Pro, Business, Enterprise 구독자에게 제공되며, 기타 업데이트는 모든 ChatGPT 및 Codex 사용자에게 제공됩니다.

시사점

ChatGPT Images 2.0의 웹 검색 통합 및 향상된 "사고 능력"은 AI 이미지 생성기의 기능을 확장하여 사용자에게 더욱 강력하고 유연한 창작 도구를 제공하며, 복잡한 디자인 프로젝트나 다국어 콘텐츠 제작의 효율성을 높일 수 있습니다.

원문 읽기 →
원문을 불러오는 중...

댓글

GitHub Discussions