Meta kompaniyasi (oldin Facebook edi) 204 ta til bilan ishlaydigan matn tarjimasining yagona tizimini ishlab chiqdi va ochiq ommaga eʼlon qildi. Tizim bitta tildan ikkinchisiga toʻgʻridan toʻgʻri, ingliz yoki boshqa vositachi tillardan foydalanmagan holda tarjima qiladi. Bu algoritm haqidagi maqola Meta AI saytida, modelning oʻzi esa GitHubʼda eʼlon qilingan.
Koʻplab mashinaviy tarjima tizimlari til juftliklari uchun, masalan, oʻzbek tilidan ingliz tiliga tarjima qilishda alohida modellarni ishlatadi. Shuningdek, ingliz tili undagi matnlar hajmi katta boʻlgani uchun til juftliklari oʻrtasida vositachi til sifatida ishlatiladi. Shu sababli bir tomondan tarjima modellarini oʻrganish uchun manba koʻp boʻlsa, boshqa tomondan tarjimadagi noaniqliklar va xatolar koʻpayishidan qochib boʻlmaydi.
Lekin koʻp tilli va o‘rtadagi vositachi tilni ishlatmaydigan tarjima modellari ham bor, ular bir vaqtning oʻzida bir nechta, baʼzan oʻnlab tillar bilan ishlashi mumkin. 2020-yilda shunday tizimni M2M nomi bilan Facebook AI (hozirda Meta AI) dasturchilari ishlab chiqqan edi, oʻshanda u 100 ta tilni qoʻllab-quvvatlardi. 2022-yilning boshida kompaniya No Language Left Behind (NLLB) loyihasini eʼlon qildi, uning doirasida mashina tarjimasining yuzlab tillarni qoʻllab-quvvatlaydigan va kam resursli tillarni oʻrganishga moslashtirilgan universal modeli ishlab chiqilishi koʻzda tutilgan edi.
Meta AI tadqiqotchi va dasturchilari Berklidagi Kaliforniya hamda Jon Hopkins universitetlaridagi hamkasblari bilan birgalikda 204 til oʻrtasida toʻgʻridan toʻgʻri tarjima qiladigan, NLLB-200 koʻp tilli modeli va shuncha tilli FLORES-200 maʼlumotlar omborini taqdim qildi.
Koʻplab katta til modellari singari NLLB-200 internetdan toʻplangan ulkan hajmli maʼlumotlar bilan oʻqitilgan. Lekin boshida dasturchilar Vikipediyadagi ingliz tilidan 39 ta kam resursli tillarga professional tarjimonlar tomonidan oʻgirilgan, eng muhim sahifalardagi gaplar kiritilgan NLLB-Seed maʼlumotlar omborini toʻpladi. Bu maʼlumotlar omboriga bor-yoʻgʻi olti mingga yaqin gap kiritildi. Shu maʼlumotlar jamlanmasi boshqa tillar uchun mavjud maʼlumotlar ombori bilan birgalikda modelni oʻqitishni boshlash imkonini berdi.
Keyin kam resursli tillar uchun katta maʼlumotlar ombori yigʻishda mualliflar LASER (Language-Agnostic Sentence Representations) parallel koprus tizimini qoʻlladi. Tizim istalgan tildagi boshlangʻich jumlani olib, uni vektor maydonda shunday joylashtiradiki, turli tillardagi bir xil maʼnoli gaplar yaqin, turli maʼnolilari esa uzoq joylashadi:
Meta AI
LASERʼning birinchi versiyasi 2019-yilda eʼlon qilingan edi, yangi ishda esa bir nechta afzalliklar kiritilgan LASER3 ishlatildi. Shuningdek, tillar guruhlari uchun kodlovchilar alohida ajratildi, LSTM arxitekturasi Transformerʼga almashtirildi.
Tillar uchun keng maʼlumotlar omborini toʻplagan dasturchilar NLLB-200 yagona modelini ham bunga oʻrgatishdi. Uning ishini baholash uchun yana bir maʼlumotlar ombori — FLORES-200 yigʻildi. Uning yigʻilish prinsipi ham NLLB-Seedʼga oʻxshardi, lekin unda 204 tildagi 3000 ta soʻz boʻlib, tarjimani baholash uchun 40 mingdan ortiq til juftligi bor edi. Bu maʼlumot omborida tekshirish ham, uning avvalgi 101 tilli versiyasi ham mashina tarjimasi inson tarjimasiga qanchalik yaqin ekanini oʻlchaydigan BLEU metrikasi boʻyicha, NLLB-200 oʻzidan avvalgi mashina tarjimasining koʻp tilli algoritmidan 44 foizga mukammalroq ekanini koʻrsatdi.
Algoritmni oʻqitish sxemasi. Marta R. Costa-jussa va boshqalar, 2022-yil
Meta maqoladan tashqari NLLB-200 modelining oʻzini va yigʻilgan maʼlumotlar omborini GitHubʼda eʼlon qildi.
Baʼzi tadqiqotchilar ingliz tiliga tarjima qilishdek oraliq qadamlarni bartaraf qilish uchun ham ishlashda davom etmoqda. 2019-yilda Google dasturchilari ogʻzaki nutqni toʻgʻridan toʻgʻri tarjima qilish tizimini yaratgan edi, u faqat ovozli fayllar bilan ishlaydi va umuman soʻzning matnli koʻrinishidan foydalanmaydi.
Muallif: Grigoriy Kopiyev. Ushbu maqola nplus1.ru saytidagi “Meta выложила в открытый доступ систему прямого перевода между 204 языками” nomli maqolaning tarjimasi.
Muqova surat: Meta