Өмнөх нийтлэлд бид agent гэж юу болохыг, LLM-ээс яагаад өөр болохыг ярьсан. Таван чадварыг нь нэг нэгээр нь тайлбарласан. Одоо тэдгээр яагаад ажилладаг талаас нь харцгаая.

Текст үүсгэдэг модель яаж бие даасан асуудал шийдвэрлэгч болдог вэ? Энд сонирхолтой зүйл байна. Өмнөх нийтлэлд ярьсан тэр таван чадвар бүгд ганцхан гурван архитектурын бүрэлдэхүүнээс үүсдэг.


Агентын архитектурын суурь

Google-ийн agent whitepaper-аас үзвэл: бүх agent гурван зүйлээс бүтдэг — model (сэтгэх), tools (хийх), orchestration (холбох). Машинтай адилхан үг бол. Ямар ч брэнд байсан хөдөлгүүр, дугуй, жолооны систем байна. Agent дээр model, tools, orchestration байна.

Agent-ын гурван бүрэлдэхүүн хэсэг
Гурван бүрэлдэхүүн хамтдаа ажилласнаар agent болдог
M

Model

Сэтгэх чадвар

Agent-ын "тархи". Хэрэглэгчийн хүсэлтийг ойлгох, орчны мэдээллийг задлан шинжилж дараагийн алхмыг шийдэх. Бие даасан шийдвэр гаргалт, орчноо мэдрэх чадвар эндээс гардаг.

T

Tools

Хийх чадвар

Agent-ын "гар". Бодит ертөнцтэй харилцах арга. API дуудах, имэйл илгээх, календарь шалгах, нислэг захиалах. Текст бичхээс цааш бодит үйлдэл хийх боломжийг өгдөг.

O

Orchestration

Холбох процесс

Agent-ын "мэдрэлийн систем". Model ба tools-ийг хооронд нь зохицуулдаг. Юуны өмнө юу хийх, алдаа гарвал яах, дарааллыг яаж өөрчлөхийг тодорхойлоно. Зорилгод чиглэсэн байдал, идэвхтэй санаачлага эндээс үүснэ.


Гурван бүрэлдэхүүнээс таван чадвар яаж үүсдэг вэ?

Ингэж бодоод үз: model нь бие даасан шийдвэр гаргалт, орчноо мэдрэх чадварыг өгдөг. Tools нь бодит ертөнцөд үйлдэл хийх чадварыг өгдөг. Orchestration нь зорилгод чиглэсэн байдал, идэвхтэй санаачлагыг өгдөг. Гурвуул хамтдаа ажилласнаар таван чадвар бүгдийг үүсгэдэг.

MODEL Бие даасан шийдвэр гаргалт + Орчноо мэдрэх
TOOLS Бодит ертөнцөд үйлдэл хийх
ORCH Зорилгод чиглэсэн байдал + Идэвхтэй санаачлага
3 → 5 Хамтдаа ажилласнаар хэрэгсэл ашиглалтыг ч өгдөг

Энэ бүтцгүйгээр ухаалаг систем барих гэж оролдовол?

Гурван бүрэлдэхүүний тухай мэдсэн. Гэхдээ яагаад яг энэ архитектур хэрэгтэй вэ? Эдгээргүйгээр юу болохыг төсөөлөөд үз.

Чи хүний хувийн туслах AI систем бүтээнэ гэж бод. Ойлгодог хэлний модель байна. Имэйл илгээх, календарь шалгах, нислэг захиалах API-ууд байна. Зүгээр хооронд нь холбоход болох юм шиг санагдана шүү дээ?

Болохгүй.

Хэрэглэгч "Ирэх долоо хоногт Сараатай уулзалт товлоорой" гэж хэлнэ. Чиний систем энэ бүгдийг хийх ёстой:

  1. Сараа гэж хэн болохыг ойлгох
  2. Хоёр талын календарь шалгах
  3. Хоёулаа чөлөөтэй цаг олох
  4. Уулзалтын урилга илгээх
  5. Хоёр календарьд нэмэх
  6. Хэрэглэгчээс баталгаажуулах

Энгийн юм шиг сонсогдоно. Гэхдээ эндээс бүх зүйл эхэлнэ.

Бүтцгүйгээр юу болох вэ?

Сараа завгүй бол яах вэ? Оронд нь if (sarah.busy) бичнэ.

Хэрэглэгчийн календарь дүүрэн бол яах вэ? if (calendar.full).

Имэйл явуулахад алдаа гарвал? if (email.failed).

Хэрэглэгч бага зэрэг өөр зүйл асуувал? Бүх логик эвдэрнэ.

Төгсгөлд мянга мянган мөрийн if-then-else логик бичиж сууна. Хэврэг, хатуу, хүн бага зэрэг өөр зүйл асуухад эвдэрдэг код.


Яагаад бүтэц чухал вэ?

Гол асуудал

Ажил төвөгтэй гэдэгт биш. Model, tools, orchestration гурвуул нэгдсэн архитектураар хамтдаа ажиллахгүйгээр төвөгтэй нөхцөлийг зөөлөн хатуу, хэврэг кодоор шийдэх гэж оролдоход л байна. Уян хатан, ухаалаг үйлдлийн оронд хатуу if-else сүлжээ бичиж сууна.

Тийм учраас гурван бүрэлдэхүүнийг зөв бүтэцлэх нь чухал. Model сэтгэнэ, tools гүйцэтгэнэ, orchestration хооронд нь зохицуулна. Энэ гурвын хамтын ажиллагаа нь зорилгод чиглэсэн, бие даасан, идэвхтэй үйлдлийг боломжтой болгодог.


Энэ цувралын өмнөх нийтлэлүүд
Google Skills — Developer Agent Fundamentals, Module 2, Lesson 0

Энэ бол Module 2-ын эхний хэсэг. Agent-ын гурван тулгуур бүрэлдэхүүн болон бүтэцгүйгээр юу болохыг ярьсан. Дараагийн хичээлд model, tools, orchestration тус бүрийг дэлгэрэнгүй нээнэ.