Amazon xodimlari AI’dan foydalanuvchi bosimi: vazifalarni o‘zgartirish
Amazon xodimlari AI ishlatish bo‘yicha bosimga duch kelib, vazifalarni sun’iy intellektga moslashtirishga majbur bo‘ladilar.

So‘nggi yillarda shaxmat dvigatellari sun'iy intellekt (AI) sohasida eng ilg‘or texnologiyalardan biri bo‘lib, o‘ziga xos o‘rganish usullari bilan ajralib turadi. Ushbu maqolada AlphaZero va lc0 kabi mashhur dvigatellarning o‘rganish jarayonlari, reinforcement learning (RL), distillatsiya va SPSA texnikalari qanday ishlashi, shuningdek, ularning amaliy natijalari yoritiladi.
AlphaZero davridan boshlab, lc0 uslubidagi shaxmat dvigatellari RL usulida o‘qitiladi. Bu usulda dvigatel o‘zini o‘zi bir necha ming marta o‘ynab, o‘yin natijalarini prognoz qilishga o‘rgatiladi. Natijada model o‘yin holatini baholashda aniqroq bo‘ladi. Biroq, tadqiqotchilar shuni aniqlashdi: yaxshi model vs yomon model farqi taxminan 200 Elo balli, ammo qidiruv (search) mexanizmi 1200 Elo balli farq keltiradi.
Bu degani, hatto yomon model ham qidiruv bilan birgalikda kuchli natija bera oladi. Shuning uchun “yomon model + qidiruv” kombinatsiyasidan “yaxshi model”ni distillatsiya qilish mumkin. Distillatsiya – bu kuchli qidiruv natijalarini oddiy modelga o‘tkazish jarayonidir.
Yangi texnika – ish vaqtida distillatsiya. Dvigatel dastlab neyron tarmog‘i (NN) yordamida pozitsiyani baholaydi, keyin qidiruv bilan tekshiradi. Agar NN +0.15 piyodaga yaxshiroq deb baholasa, lekin qidiruv buni tasdiqlamasa, kelajakda +0.15 ni ayirib, baholashni moslashtiradi. Bu “on‑the‑fly” moslashuv modelni real o‘yin sharoitiga tezroq moslashtiradi.
Distillatsiya maqsadi – g‘alabaga erishish, lekin aniq pozitsiyani baholash emas. lc0 bu muammoni SPSA (Simultaneous Perturbation Stochastic Approximation) yordamida hal qiladi. Ushbu usulda og‘irliklar ikki tasodifiy yo‘nalishda o‘zgartiriladi, ko‘p o‘yinlar o‘ynaladi va g‘alaba ko‘proq bo‘lgan yo‘nalishda og‘irliklar yangilanadi.
SPSA ning ajablanarli jihati shundaki, u gradient (tuzatish yo‘nalishi) hisoblamasdan ham samarali natija beradi. Kichik modellarda bu +50 Elo ga teng bo‘lib, bu model hajmini 1.5 baravarga oshirish yoki bir yillik rivojlanish ishini qisqartirishga teng.
SPSA konseptsiyasini har qanday parametrga qo‘llash mumkin. Masalan, qidiruvda “shaxmat mat” holatida chuqurlikni 1 ga kamaytirish o‘rniga 0.001 ga kamaytirish, keyin SPSA orqali optimal qiymatni topish. Natijada chuqurlikni 1.09 ga kamaytirish 5 Elo ga yaqin foyda keltiradi. Bu usul har bir parametrni “g‘alaba” funksiyasi orqali optimallashtirishga imkon beradi, ya'ni gradient tushunchasiz ham “gradient descent” ga o‘xshash natija olinadi.
lc0 odatiy transformer arxitekturasidan foydalanadi, bu esa eski konvolyutsion modellarga nisbatan yuzlab Elo ga yaxshiroq natija beradi. Eng qiziqarli o‘zgartirish – smolgen deb ataluvchi e’tibor (attention) biaslarini yaratish tizimi. Smolgen modelning tezligini 1.2 baravarga kamaytiradi, lekin aniqlikni 2.5 baravarga oshiradi. Bu “model hajmi” bo‘yicha samaradorlikni oshirishga xizmat qiladi.
Shaxmat dvigatellari RL, distillatsiya, runtime moslashuv va SPSA kabi ilg‘or usullar bilan o‘zini rivojlantiradi. Bu texnikalar nafaqat shaxmat sohasida, balki boshqa AI tizimlarida ham qo‘llanilishi mumkin, chunki ular “g‘alaba”ga yo‘naltirilgan optimallashtirishni gradientsiz amalga oshiradi. Kelajakda bu yondashuvlar yanada samaraliroq va arzonroq AI modellari yaratishda muhim rol o‘ynashi kutilmoqda.