Amazon xodimlari AI’dan foydalanuvchi bosimi: vazifalarni o‘zgartirish
Amazon xodimlari AI ishlatish bo‘yicha bosimga duch kelib, vazifalarni sun’iy intellektga moslashtirishga majbur bo‘ladilar.

Sun'iy intellekt sohasida diffuziya til modellari (DLM) o‘zining ikki tomonlama kontekstga asoslangan generatsiya usuli bilan katta e’tiborni qozondi. An’anaviy avto‑regressiv (AR) modellardan farqli o‘laroq, DLM bir tokenni birma‑bir emas, balki bir necha bosqichda maskalangan matnni bosqichma‑bosqich tozalab, yakuniy natijaga erishadi. Bu usul parallel ishlab chiqarish imkonini berishi va matnni ichki bo‘shliqlarni to‘ldirish kabi yangi funksiyalarni qo‘llab‑quvvatlashi mumkin.
Consistency Diffusion Language Models (CDLM) ushbu muammolarni hal qilish uchun post‑training usulini taklif etadi. Asosiy g‘oya – blokli KV keshini aniq qo‘llash va bir blok ichida bir nechta tokenni bir vaqtning o‘zida yakunlash.
Avval DLM yordamida domen‑maxsus promptlar bo‘yicha token‑darajali dekodlash traektoriyasi Tₓ va har bir token yakunlanganda oxirgi qatlamning yashirin holati Hₓ saqlanadi. Bu ma’lumotlar “o‘qituvchi” sifatida kelajakdagi talaba modeliga (student) xizmat qiladi.
Talaba modelida blok‑kausal e’tibor maskasi qo‘llanadi: model prompt, avval yakunlangan bloklar va hozirgi blokga e’tibor qaratadi. Natijada blok‑diffuziya modeliga o‘xshash tuzilma hosil bo‘lib, yakunlangan bloklar uchun KV keshini to‘liq qayta ishlatish mumkin.
CDLM blok‑avtomatik tarzda dekodlashni amalga oshiradi, har bir blok ichida ishonchlilik darajasi bo‘yicha tokenlarni parallel yakunlaydi. Yakunlangan bloklar KV keshida saqlanadi, shuning uchun keyingi bosqichlarda faqat yangi blokni hisoblash kerak bo‘ladi. Bu yondashuv qo‘shimcha gipermetrik sozlamalar yoki inter‑blok parallelizmga ehtiyoj sezmaydi.
CDLM‑Dream modeli matematik (GSM8K‑CoT) va kodlash (MBPP‑Instruct) benchmarklarida bosqichlar sonini 4,1‑7,7 marta kamaytirib, latency’ni mos ravishda 11,2‑14,5 marta tezlashtirdi. Tokens‑per‑second (TPS) ko‘rsatkichida ham yetakchi bo‘ldi, ba’zi vazifalarda qisqa chiqish uzunligi bilan birga pass@1 sifatini saqlab qoldi.
Arifmetik intensivlik (AI) tahlili ko‘rsatadiki, AR dekodlash kichik batch‑larda xotira‑cheklovli, DLM esa har bosqichda O(L²) e’tibor hisoblash tufayli hisob‑cheklovli bo‘ladi. CDLM blok‑darajali parallelizm bilan AI ni AR ga nisbatan yuqori, lekin DLM ga nisbatan past darajada ushlab, kichik batch‑larda optimal balansga erishadi.
CDLM har qanday blok‑diffuziya modeliga qo‘llanilishi mumkin, shuning uchun yanada kuchli DLM asoslari bilan birga ishlatilganda yanada katta tezlik va samaradorlik kutiladi. Katta o‘qituvchi modellardan traektoriya yig‘ish va o‘rta‑darajali talaba modellari uchun CDLMni qo‘llash istiqbolli yo‘nalish hisoblanadi.
Umuman olganda, CDLM diffuziya til modellari uchun samarali, sifatni yo‘qotmasdan tezlashtiruvchi yechim bo‘lib, blok‑kausal e’tibor, KV keshini to‘liq ishlatish va ichki vaqt‑ustunlikni ta’minlash orqali AI‑inference sohasida yangi standartni belgilaydi.