Google-ը ներկայացրել է AI մոդել, որը մարդու նման օգտագործում է բրաուզերը

Google-ը ներկայացրել է արհեստական բանականության նոր մոդել՝ Gemini 2.5 Computer Use-ը, որը կարող է զննարկչի հետ փոխազդել գրեթե մարդու նման։

Այն կարող է սեղմել, սքրոլ անել եւ մուտքագրել՝ կատարելու այնպիսի առաջադրանքներ, որոնք նախկինում պահանջում էին API-ի անմիջական մուտք։

Մոդելը օգտագործում է տեսողական ճանաչում եւ տրամաբանական վերլուծություն. այն նայում է օգտատիրոջ խնդրանքին, գնահատում է իրավիճակը եւ կատարում է գործողություն, օրինակ՝ կայքում ձեւաթուղթ լրացնելը եւ ներկայացնելը։ Սա հատկապես օգտակար է ինտերֆեյսերի փորձարկման համար։

Այս տեխնոլոգիայի տարբերակներն արդեն օգտագործվել են Google-ի փորձարարական նախագծերում, օրինակ՝ Project Mariner-ում, որտեղ արհեստական բանականության գործակալը ինքնուրույն ապրանքներ է ավելացրել առցանց գնումների զամբյուղին՝ հիմնվելով բաղադրատոմսի բաղադրիչների ցանկի վրա։

Google-ը պնդում է, որ իր մոդելը գերազանցում է մրցակիցներին վեբ եւ բջջային ինտերֆեյսի թեստերում։ Ի տարբերություն OpenAI-ի ChatGPT Agent-ի կամ Anthropic-ի նմանատիպ Claude-ի, Gemini 2.5 Computer Use-ն աշխատում է միայն բրաուզերում: Մոդելը ներկայումս աջակցում է 13 գործողություն՝ բացել բրաուզերը, մուտքագրել, տարրեր քաշել եւ գցել եւ այլ հիմնական հրամաններ: Աշխատանքային միջավայրի կառավարումը դեռեւս օպտիմալացված չէ։

Google-ի այս հայտարարությունը հրապարակվել է OpenAI-ի շնորհանդեսից մեկ օր անց, որտեղ նրանք ցուցադրեցին ChatGPT-ի համար նոր մինի հավելվածներ: Anthropic-ն անցյալ տարի ներկայացրել էր Claude-ի համար նախատեսված իր «համակարգչային կառավարման» տեխնոլոգիայի տարբերակը։

Մշակողներն արդեն կարող են փորձարկել Gemini 2.5 Computer Use-ը Google AI Studio-ի եւ Vertex AI-ի միջոցով: Browserbase-ում կա նաեւ հանրային ցուցադրություն, որտեղ կարող եք տեսնել, թե ինչպես է մոդելն իրական ժամանակում կատարում տարբեր առաջադրանքներ: