Sun'iy intellekt

SkillsBench: Agent Ko‘nikmalari Qanchalik Samarasiz? Yangi Benchmark Natijalari

23-mart, 2026, 09:3013 ko'rish2 daqiqa o'qish

Sun'iy intellekt sohasida LLM (kattik til modellari) agentlari kundalik vazifalarni bajarishda agent ko‘nikmalari deb ataluvchi protseduraviy bilim paketlaridan foydalanadi. Bu ko‘nikmalar modelga aniq yo‘riqnomalar, kod namunalari yoki domen‑maxsus ma'lumotlarni taqdim etadi. Ammo, ko‘nikmalar haqiqatan ham natija beradi‑mi? Bu savolga javob topish uchun tadqiqotchilar SkillsBench nomli yangi benchmarkni yaratdilar.

SkillsBench qanday ishlaydi?

Benchmark 11 turli soha (dasturlash, sog‘liqni saqlash, moliya va boshqalar) bo‘yicha 86 topshiriqni o‘z ichiga oladi. Har bir topshiriq uch xil shartda sinovdan o‘tkaziladi:

Ko‘nikmasiz – modelga hech qanday qo‘shimcha ma'lumot berilmaydi.
Kuratsiyalangan ko‘nikma – mutaxassislar tomonidan tayyorlangan, aniq va foydali yo‘riqnomalar.
O‘z-o‘zidan yaratilgan ko‘nikma – model o‘zining ichki bilimidan foydalangan holda topshiriq uchun yangi ko‘nikma yaratadi.

Umuman olganda, tadqiqotchilar 7 turdagi agent‑model konfiguratsiyasini 7 308 ta trajektoriya bo‘yicha sinovdan o‘tkazdilar. Har bir natija qat'iy tekshiruvchi (verifier) yordamida tasdiqlanadi.

Natijalar: Kuratsiyalangan ko‘nikmalar afzallik beradi

Kuratsiyalangan ko‘nikmalar umumiy muvaffaqiyat darajasini 16,2 foiz balli oshirdi. Bu oshish soha bo‘yicha katta farq ko‘rsatdi: dasturlashda +4,5 ball, sog‘liqni saqlashda esa +51,9 ballga yetdi. Biroq, 84 ta topshiriqdan 16 tasida ko‘nikmalar qo‘llanilganda natija pasaygan – bu ko‘nikmalarning hamma vazifaga mos kelmasligini ko‘rsatadi.

O‘z‑o‘zidan yaratilgan ko‘nikmalar: Kutilgan foyda yo‘q

Modelning o‘zidan yaratilgan ko‘nikmalari o‘rtacha natijada hech qanday ijobiy ta'sir ko‘rsatmadi. Bu, LLM agentlari o‘zlari foydalanuvchi uchun foydali protseduraviy bilimlarni mustaqil ravishda yaratishda qiyinchilikka duch kelishini tasdiqlaydi.

Qisqa, lekin samarali ko‘nikmalar afzallik beradi

Qiziqarli jihat shundaki, 2‑3 moduldan iborat fokuslangan ko‘nikmalar keng qamrovli hujjatlarga nisbatan yaxshiroq natija berdi. Bundan tashqari, kichik modellarga (masalan, 7B parametrli) kuratsiyalangan ko‘nikmalar qo‘shilganda, ularning natijalari ko‘proq parametrli (13B) modellarga tenglashdi.

Texnologik va amaliy ta'siri

Bu tadqiqot LLM agentlari uchun ko‘nikma yaratish strategiyasini qayta ko‘rib chiqishga chaqiradi. Yozuvchi modellarga yuqori sifatli, mutaxassislar tomonidan tekshirilgan ko‘nikmalarni taqdim etish, ularning samaradorligini oshiradi, ammo avtomatik ravishda ko‘nikma yaratish hozircha foydasiz.

Kelgusida, ko‘nikmalarni qisqa, aniq va domen‑maxsus qilish, shuningdek, kuratsiyalash jarayonini avtomatlashtirish orqali LLM agentlarining real dunyo vazifalaridagi ishlashini yanada yaxshilash mumkin.

Manba: Hacker News