OpenAI Releases Vision2: Multimodal Model With Precision Layout and Asset Attribution

AI · 6 min read

OpenAI's Vision2 focuses on improving multimodal layout understanding and generating structured, traceable outputs for design workflows. The model returns layout trees, bounding boxes, accessibility labels, and structured component metadata alongside generated images, making it easier to convert outputs into production artifacts.

Vision2 introduces built-in provenance tagging: generated assets include metadata about prompt parameters, model version, and any licensed source images used during finetuning. OpenAI said this approach helps organizations audit outputs and comply with licensing requirements.

The company released a developer SDK with UI-specific post-processing utilities and partnered with several design tooling vendors to pilot integrations. Vision2 is initially available via API with enterprise options for on-prem hosting.