Sun'iy intellekt

CODA: Transformer bloklarini GEMM‑epilog dasturlari orqali qayta yozish

22-may, 2026, 08:025 ko'rish2 daqiqa o'qish

Transformer arxitekturasi sun'iy intellekt modellari, ayniqsa katta til modellari (LLM) uchun asosiy platforma hisoblanadi. Biroq, ushbu modellarning o'qitish jarayonida ko'p vaqt xotira‑cheklovli operatsiyalar, masalan, normalizatsiya, aktivatsiya funksiyalari, residual qo'shimchalar va turli qisqartirishlar (reduction) kabi amallarni bajarishda yo'qoladi. Bu amallar katta hajmdagi tensorlarni global xotiraga ko'chirishga majbur qiladi, natijada GPUning hisoblash quvvati to'liq foydalanilmaydi.

CODA nima va u qanday ishlaydi?

CODA – bu GPU kernel abstraksiyasi bo'lib, yuqoridagi xotira‑cheklovli amallarni "GEMM‑plus‑epilog" dasturlari sifatida ifodalaydi. Asosiy g'oya shundan iboratki, ko'p Transformer operatsiyalari algebrik tarzda qayta parametrizatsiya qilinib, GEMM (General Matrix Multiply) hisoblash jarayonida, natija chipda bo'lganda, darhol bajarilishi mumkin. Bu holda ma'lumotlar xotiraga yozilmasdan oldin kerakli o'zgartirishlar, masshtablash, qisqartirish va qo'shimcha hisoblashlar amalga oshiriladi.

GEMM‑epilog dasturlari tarkibi

Masshtablash (scaling) – matritsa elementlarini koeffitsient bilan ko'paytirish.
Qisqartirish (reduction) – elementlarni yig'indisi, maksimal qiymati yoki boshqa statistik o'lchovlarni hisoblash.
Juftlik transformatsiyalari (pairwise transformations) – elementlar orasidagi arifmetik yoki mantiyaviy amallar.
Yig'ish (accumulation) – natijaviy matritsaga qo'shimcha qiymatlarni qo'shish.

Bu primitivlar birgalikda ishlatilganda, Transformer blokining diqqat (attention) bo'lmagan qismi – ya'ni forward va backward passdagi barcha qo'shimcha hisoblashlar – bitta samarali GEMM‑epilog kerneliga birlashtiriladi.

Amaliy natijalar va samaradorlik

CODA yondashuvi bir nechta real Transformer ish yuklarida sinovdan o'tkazildi. Natijalar shuni ko'rsatdiki, insonlar va LLM‑lar tomonidan yozilgan CODA kernelari an'anaviy kernelar bilan solishtirganda sezilarli darajada tezroq ishlaydi. Bu esa GPUning hisoblash quvvatini maksimal darajada ishlatish, xotira o'tkazuvchanligini kamaytirish va umumiy o'qitish vaqtini qisqartirish imkonini beradi.

Nega bu muhim?

AI tadqiqotchilari va ishlab chiquvchilari doimo model o'lchamini oshirish, samaradorlikni yaxshilash va energiya sarfini kamaytirish bilan shug'ullanadi. CODA yondashuvi ushbu maqsadlarga erishishda muhim qadam bo'lib, Transformer arxitekturasini yanada samarali qilish, yangi avlod LLMlarni tezroq va arzonroq o'qitish imkonini beradi. Bundan tashqari, bu usul GPU ishlab chiqaruvchilari va dasturiy platformalar orasida yanada chuqur integratsiyani rag'batlantiradi.

Manba: Hacker News