Sun'iy intellekt

CDLM: Diffuziya Til Modellarini 14,5 marta tezlashtiruvchi yangi yondashuv

9-aprel, 2026, 10:019 ko'rish3 daqiqa o'qish
CDLM: Diffuziya Til Modellarini 14,5 marta tezlashtiruvchi yangi yondashuv

Sun'iy intellekt sohasida diffuziya til modellari (DLM) o‘zining ikki tomonlama kontekstga asoslangan generatsiya usuli bilan katta e’tiborni qozondi. An’anaviy avto‑regressiv (AR) modellardan farqli o‘laroq, DLM bir tokenni birma‑bir emas, balki bir necha bosqichda maskalangan matnni bosqichma‑bosqich tozalab, yakuniy natijaga erishadi. Bu usul parallel ishlab chiqarish imkonini berishi va matnni ichki bo‘shliqlarni to‘ldirish kabi yangi funksiyalarni qo‘llab‑quvvatlashi mumkin.

Standart DLMlarning ikki asosiy muammosi

  • KV keshini qo‘llab‑quvvatlamaslik: To‘liq ikki tomonlama e’tibor har bir denoising bosqichida butun kontekstni qayta hisoblashni talab qiladi, bu esa inference vaqtini sezilarli darajada oshiradi.
  • Ko‘p takroriy bosqichlar: Yuqori sifatli natija olish uchun odatda matn uzunligiga teng yoki undan ko‘proq bosqich kerak bo‘ladi; bosqichlar sonini kamaytirish esa sifat pasayishiga olib keladi.

CDLM: Yangi yondashuv

Consistency Diffusion Language Models (CDLM) ushbu muammolarni hal qilish uchun post‑training usulini taklif etadi. Asosiy g‘oya – blokli KV keshini aniq qo‘llash va bir blok ichida bir nechta tokenni bir vaqtning o‘zida yakunlash.

1. Traektoriya yig‘ish

Avval DLM yordamida domen‑maxsus promptlar bo‘yicha token‑darajali dekodlash traektoriyasi Tₓ va har bir token yakunlanganda oxirgi qatlamning yashirin holati Hₓ saqlanadi. Bu ma’lumotlar “o‘qituvchi” sifatida kelajakdagi talaba modeliga (student) xizmat qiladi.

2. Blok‑kausal maska

Talaba modelida blok‑kausal e’tibor maskasi qo‘llanadi: model prompt, avval yakunlangan bloklar va hozirgi blokga e’tibor qaratadi. Natijada blok‑diffuziya modeliga o‘xshash tuzilma hosil bo‘lib, yakunlangan bloklar uchun KV keshini to‘liq qayta ishlatish mumkin.

3. O‘qitish maqsadlari

  • Distillatsiya yo‘qotishi: Yangi ochilgan tokenlar uchun talabaning prognozi o‘qituvchining saqlangan yashirin holatidan qayta tiklangan taqsimotga mos keladi.
  • Uslublilik yo‘qotishi: Hali maskalangan tokenlar bo‘yicha talabaning hozirgi prognozini kelajakda yanada ma’lumotli holatda bo‘lgan prognozga (stop‑gradient) moslashtirish orqali ichki blokda vaqtinchalik barqarorlikni ta’minlaydi.
  • Qo‘shimcha maskalash‑denoising yo‘qotishi: Tasodifiy maskalangan haqiqiy matnlar ustida an’anaviy maskalash vazifasini saqlab, umumiy til tushunchasini yo‘qotmaslikka yordam beradi.

4. Inference jarayoni

CDLM blok‑avtomatik tarzda dekodlashni amalga oshiradi, har bir blok ichida ishonchlilik darajasi bo‘yicha tokenlarni parallel yakunlaydi. Yakunlangan bloklar KV keshida saqlanadi, shuning uchun keyingi bosqichlarda faqat yangi blokni hisoblash kerak bo‘ladi. Bu yondashuv qo‘shimcha gipermetrik sozlamalar yoki inter‑blok parallelizmga ehtiyoj sezmaydi.

Natijalar va samaradorlik

CDLM‑Dream modeli matematik (GSM8K‑CoT) va kodlash (MBPP‑Instruct) benchmarklarida bosqichlar sonini 4,1‑7,7 marta kamaytirib, latency’ni mos ravishda 11,2‑14,5 marta tezlashtirdi. Tokens‑per‑second (TPS) ko‘rsatkichida ham yetakchi bo‘ldi, ba’zi vazifalarda qisqa chiqish uzunligi bilan birga pass@1 sifatini saqlab qoldi.

Nega blok‑diffuziya samarali?

Arifmetik intensivlik (AI) tahlili ko‘rsatadiki, AR dekodlash kichik batch‑larda xotira‑cheklovli, DLM esa har bosqichda O(L²) e’tibor hisoblash tufayli hisob‑cheklovli bo‘ladi. CDLM blok‑darajali parallelizm bilan AI ni AR ga nisbatan yuqori, lekin DLM ga nisbatan past darajada ushlab, kichik batch‑larda optimal balansga erishadi.

Kelajakdagi yo‘nalishlar

CDLM har qanday blok‑diffuziya modeliga qo‘llanilishi mumkin, shuning uchun yanada kuchli DLM asoslari bilan birga ishlatilganda yanada katta tezlik va samaradorlik kutiladi. Katta o‘qituvchi modellardan traektoriya yig‘ish va o‘rta‑darajali talaba modellari uchun CDLMni qo‘llash istiqbolli yo‘nalish hisoblanadi.

Umuman olganda, CDLM diffuziya til modellari uchun samarali, sifatni yo‘qotmasdan tezlashtiruvchi yechim bo‘lib, blok‑kausal e’tibor, KV keshini to‘liq ishlatish va ichki vaqt‑ustunlikni ta’minlash orqali AI‑inference sohasida yangi standartni belgilaydi.

Manba: Hacker News
#diffusion language models #consistency diffusion #KV caching #AI acceleration #machine learning
Telegram da muhokama qilish