ShowUI: Дэлгэцийн зургаас бүх зүйлийг ойлгодог 2B параметрт модель
Бид өдөр бүр утас, компьютер дээрээ товчлуур дарж, цэс нээж, текст бичдэг. Энэ бүхнийг AI хийж чадвал яах вэ? ShowUI яг энэ зүйлийг хийнэ — дэлгэцийн зургийг нүдээрээ харж, юу хаана байгааг ойлгоод, хүний оронд товчлуур дарна. CVPR 2025-д хүлээн зөвшөөрөгдсөн энэхүү ажил Сингапурын NUS болон Microsoft-ын хамтарсан судалгаа юм.

Дэлгэцийн зургийг оруулж, ShowUI модель боловсруулаад, JSON үйлдэл гаргана: CLICK, TYPE гэх мэт.
Асуудал
Одоогийн GUI агентуудын бэрхшээл
Одоо байгаа ихэнх GUI автоматжуулалтын систем HTML код, accessibility tree зэрэг текст мэдээлэл дээр суурилдаг. GPT-4V шиг том загвар "энэ вебсайтын HTML-ийг уншаад товчлуур хаана байгааг хэл" гэж ажилладаг. Гэхдээ бодоод үз — хүн HTML код уншдаггүй шүү дээ. Бид дэлгэцийг нүдээрээ харж, товчлуур ямар өнгөтэй, хаана байгааг шууд мэдэрдэг.
Текстэд суурилсан арга хэд хэдэн сул талтай:
Хаалттай API-д хамааралтай
GPT-4V, Claude зэрэг хаалттай загварт хандах шаардлагатай. Үнэтэй, удаан, хязгаарлагдмал.
HTML бүтэц байж л таараа
Зарим апп accessibility tree-гүй, зарим вебсайт HTML бүтэц нь эмх замбараагүй. Текст мэдээлэл байхгүй бол юу ч хийж чадахгүй.
Хүний харах арга биш
Хүн дэлгэц рүү харахдаа HTML парс хийдэггүй. Визуал мэдээлэл — өнгө, байрлал, хэлбэр дүрсийг шууд ойлгодог.
Дэлгэцийн зургийн хэмжээ
Нэг screenshot 1344×756 нарийвчлалтай бол 5000+ токен үүсгэнэ. Энэ нь тооцоолол маш их шаарддаг.
Шийдэл
ShowUI: Визуал ойлголтоос үйлдэл хүртэл
ShowUI бол Vision-Language-Action (VLA) загвар. Нэрнээс нь харахад гурван зүйлийг нэгтгэсэн: дэлгэцийн зургийг харах (Vision), хэрэглэгчийн заавыг ойлгох (Language), бодит үйлдэл гаргах (Action). Qwen2-VL-2B суурь загвар дээр бүтээсэн бөгөөд зөвхөн 2 тэрбум параметртай — 18B параметртай CogAgent-аас 9 дахин жижиг.
Гэхдээ жижиг гэдэг нь сул гэсэн үг биш. ShowUI гурван гол шинэлэг зүйл нэвтрүүлсэн:
UI-Guided Visual Token Selection
Дэлгэцийн зургийн давхардсан хэсгийг автоматаар олж, шаардлагагүй токенуудыг хасна.
Interleaved VLA Streaming
Визуал мэдээлэл, текст, үйлдлийг нэг урсгалд холин боловсруулна.
Чанартай өгөгдлийн жор
256K жижиг боловч сайтар сонгосон сургалтын өгөгдөл ашиглана.
Шинэлэг #1
UI-Guided Visual Token Selection
Энэ бол ShowUI-ийн хамгийн сонирхолтой санаа. Асуудал нь энгийн: дэлгэцийн зураг дээр ихэнх хэсэг нь цагаан дэвсгэр, хоосон зай, давтагдсан хэв маяг. Google хайлтын хуудсыг бод — дэлгэцийн 70% нь цагаан хоосон зай. Тэгвэл яагаад эдгээр бүх пикселийг дүн шинжилгээ хийх хэрэгтэй гэж?
ShowUI-ийн арга:

1296 patch → UI Connected Graph → ~291 токен (77% буурал). Давхардсан хэсгийг хасаж, чухал элементүүдийг хадгалсан.
Яагаад Token Merging биш Token Selection вэ гэвэл — token merging хийхэд positional information алдагдана. Товчлуур яг хаана байгааг мэдэхийн тулд байрлалын мэдээлэл заавал хэрэгтэй. ShowUI-ийн арга бол сонгогдсон токенуудын original position embedding-ийг хадгалдаг. Тиймээс self-attention анхны байрлалын харилцааг бүрэн ойлгоно.
Бас нэг давуу тал: энэ арга нэмэлт сурах параметр нэмдэггүй. Сургалтын үед санамсаргүй сонголт хийж, inference-ийн үед сонголттой ч, сонголтгүй ч ажиллах боломжтой.



