Өмнөх нийтлэлд бид agent гэж юу болохыг, LLM-ээс яагаад өөр болохыг ярьсан. Таван чадварыг нь нэг нэгээр нь тайлбарласан. Одоо тэдгээр яагаад ажилладаг талаас нь харцгаая.

Текст үүсгэдэг модель яаж бие даасан асуудал шийдвэрлэгч болдог вэ? Энд сонирхолтой зүйл байна. Өмнөх нийтлэлд ярьсан тэр таван чадвар бүгд ганцхан гурван архитектурын бүрэлдэхүүнээс үүсдэг.


Агентын архитектурын суурь

Google-ийн agent whitepaper-аас үзвэл: бүх agent гурван зүйлээс бүтдэг — model (сэтгэх), tools (хийх), orchestration (холбох). Машинтай адилхан үг бол. Ямар ч брэнд байсан хөдөлгүүр, дугуй, жолооны систем байна. Agent дээр model, tools, orchestration байна.

Agent-ын гурван бүрэлдэхүүн хэсэг
Гурван бүрэлдэхүүн хамтдаа ажилласнаар agent болдог
M

Model

Сэтгэх чадвар

Agent-ын "тархи". Хэрэглэгчийн хүсэлтийг ойлгох, орчны мэдээллийг задлан шинжилж дараагийн алхмыг шийдэх. Бие даасан шийдвэр гаргалт, орчноо мэдрэх чадвар эндээс гардаг.

T

Tools

Хийх чадвар

Agent-ын "гар". Бодит ертөнцтэй харилцах арга. API дуудах, имэйл илгээх, календарь шалгах, нислэг захиалах. Текст бичхээс цааш бодит үйлдэл хийх боломжийг өгдөг.

O

Orchestration

Холбох процесс

Agent-ын "мэдрэлийн систем". Model ба tools-ийг хооронд нь зохицуулдаг. Юуны өмнө юу хийх, алдаа гарвал яах, дарааллыг яаж өөрчлөхийг тодорхойлоно. Зорилгод чиглэсэн байдал, идэвхтэй санаачлага эндээс үүснэ.


Гурван бүрэлдэхүүнээс таван чадвар яаж үүсдэг вэ?