Yapay zeka Avrupa’nın tehlike altındaki dillerini yok olmaktan kurtarabilir mi?
Yakında Facebook ve Instagram gönderilerini daha az konuşulan küresel dillerde görmek çok daha kolay olacak; Ancak uzmanlar, Meta’nın bu aracı geliştirmek için ana dili İngilizce olan kişilerle konuşması gerektiğini söylüyor.
WhatsApp, Facebook ve Instagram’ın sahibi Meta’nın “Geride Kalan Dil Yok” (NLLB) projesi kapsamında, sosyal medya platformlarında dünyanın en az konuşulan 200 dilindeki paylaşımları yakında görmek mümkün olacak.
Meta AI, söz konusu projeyle ilgili bu ay yayınlanan bir makalede orijinal teknolojilerini genişlettiklerini duyurdu.
Proje; İskoç Galcesi, Galiçyaca, İrlandaca, Lingurca, Boşnakça, İzlandaca ve Galce gibi “düşük kaynaklı” diller de dahil olmak üzere nesli tükenmekte olan toplam 200 dili içeriyor.
Meta’ya göre “düşük kaynaklı dil”, mevcut verilerde bir milyondan az cümlenin bulunması anlamına geliyor.
Uzmanlar, Meta’nın bu hizmeti geliştirmek için ana dili İngilizce olan kişilere ve dil uzmanlarına danışması gerektiğini çünkü aracın hala geliştirilmeye ihtiyacı olduğunu söylüyor.
Proje nasıl çalışıyor?
Meta, yapay zekasını (AI), makine öğrenimini programlayabilen çeşitli diller için gerçek konuşma veya metin koleksiyonuna sahip açık kaynaklı bir platform olan Opus deposundan gelen verilerle eğitiyor.
Veri kümesine katkıda bulunanlar, bilgisayarlara insan dilini tercüme etme ve anlama yeteneği veren yapay zeka araştırmasının alt kümesi olan doğal dil işleme (NLP) uzmanları olsa da Meta, Wikipedia gibi kaynaklardan alınan verilerin bir kombinasyonunu da kullandıklarını belirtti. onların veritabanı.
Bu veriler, Meta’nın çok dilli model (MLM) olarak adlandırdığı, yapay zekanın “İngilizce verilere dayanmadan herhangi bir dil çifti arasında” çeviri yapabildiği modeli oluşturmak için kullanılıyor.
NLLB ekibi, çevirilerinin kalitesini, yine açık kaynak koduyla oluşturulmuş, insanlar tarafından çevrilen cümlelerden oluşan bir kriterle değerlendiriyor. Bu liste, insanların yazılıma metin çevirirken filtrelemeyi öğretebileceği “zararlı” kelimelerin veya ifadelerin bir listesini içerir.
En son makalelerine göre NLLB ekibi, 2020’de piyasaya sürülen ilk modele kıyasla çeviri doğruluğunu %44 artırdı.
Meta, teknolojinin tam olarak hayata geçmesiyle birlikte Facebook, Instagram ve diğer platformlarda her gün 25 milyardan fazla çevirinin yapılacağını tahmin ediyor.
‘İnsanlarla konuşuyorum’
Edinburgh Üniversitesi’nde etnoloji ve Galce dilbilimi profesörü ve İskoç Galcesi uzmanı William Lamb, Meta’nın İskoç Galcesi çevirilerinin “iyi niyetli” olmasına rağmen, kullanılan kitle kaynaklı veriler nedeniyle “hala pek iyi olmadığını” belirtti.
İskoç Galcesi, Meta’nın NLLB projesinde belirlediği “yetersiz kaynaklı” diller arasında yer alıyor.
İskoçya’da 2022 nüfus sayımına göre nüfusun yaklaşık %2,5’i, yani yaklaşık 130.000 kişi, 13. yüzyıl Kelt dili hakkında bir miktar bilgiye sahip. Azınlık dili olan doğu Kanada’da da yaklaşık 2.000 kişi Galce konuşmaktadır.
UNESCO bu dili kritik tehlike altında olarak sınıflandırıyor çünkü çok az insan bu dili düzenli olarak konuşuyor.
Lamb, “Çeviriyi gerçekten geliştirmek istiyorlarsa, yapmaları gereken şey, hâlâ bu dili yaşayan ve nefes alan anadili Galce olan kişilerle konuşmaktır” dedi.
Lamb ayrıca bunu söylemenin yapmaktan daha kolay olduğunu da sözlerine ekledi. Anadili Galce olanların çoğu 70’li yaşlarındadır ve bilgisayar kullanmamaktadır. Dahası Lamb’a göre gençler “Galce dilini büyükanne ve büyükbabalarının kullandığı gibi rutin olarak kullanmıyorlar”.
Ayrıca Meta’nın, dilde yüksek kaliteli çevrimiçi içerik oluşturarak dili korumaya çalışan BBC ile bir lisans anlaşması yapması da bir seçenek gibi görünüyor.
“Uzmanlara bırakılmalı”
İspanya’daki Santiago de Compostela Üniversitesi’nde yapay zeka profesörü olan Alberto Bugarin-Diz, Lamb gibi dilbilimcilerin veri kümelerini geliştirmek için büyük teknoloji şirketleriyle çalışması gerektiğini düşünüyor.
Bugarin-Diz, “Bunun, metinleri inceleyebilecek, düzeltebilecek ve kullanabileceğimiz meta verilerle güncelleyebilecek uzmanlar tarafından yapılması gerekiyor” dedi.
“Mühendisler gibi beşeri bilimler ve teknik geçmişi olan kişilerin birlikte çalışması gerekiyor” diye ekledi.
Bugarin-Diz ayrıca Vikipedi kullanmanın Meta için bir avantaj olduğunu, çünkü verilerin “insan yaşamının neredeyse her yönünü” yansıtacağını, bunun da dilin kalitesinin daha resmi metinler kullanmaktan çok daha iyi olabileceği anlamına geldiğini söyledi.
Öte yandan profesör, Meta ve diğer yapay zeka şirketlerinin internette kaliteli veri aramaya zaman ayırdığını ve daha sonra bu verileri fikri mülkiyet yasalarını ihlal etmeden kullanmak için gerekli yasal gereklilikleri yerine getirdiğini öne sürüyor.
Bu arada Lamb, Meta veri kümesinde bazı değişiklikler yapmadığı sürece, verilerdeki hatalar nedeniyle insanların dil çeviri aracını kullanmasını önermediğini söyledi.
“Çeviri yeteneklerinin araçların gerçekten kullanışlı olduğu noktada olduğunu söyleyemem” diyen Lamb’in aksine Bugarin-Diz’in farklı bir duruşu var.
Bugarin-Diz, eğer kimse aracı kullanmazsa Meta’nın çevirileri geliştirmek için zaman ve kaynak harcamaya “istekli olmayacağına” inanıyor. Diğer yapay zeka araçları gibi, teknolojiyi kullanmadan önce zayıf yönlerini bilmeniz gerekir.