05.07.2017.

Lielo datu laikmetā dalīšanās ar datiem un informāciju rada auglīgu vidi jaunām idejām un palīdz attīstīt tehnoloģijas. Arī interneta plašsaziņas līdzekļu saturs ir vērtīgi dati, ko var izmantot, piemēram, valodas tehnoloģiju pilnveidošanai. Sadarbojoties valodas tehnoloģiju uzņēmumam Tilde un radošo industriju komunikācijas platformai FOLD (fold.lv), portāla uzkrātais saturs pārtaps valodas korpusā ar vairāk nekā 10 500 paralēlu teikumu latviešu un angļu valodā un tiks publicēts atvērto datu portālos, palīdzot uzlabot mašīntulkošanas tehnoloģiju radošajām industrijām.

Mūsdienās mašīntulkošana jeb teksta automātiskā tulkošana kļūst par neaizstājamu palīgu valodas barjeru pārvarēšanā un produktīvākā tulkošanā. Lielajām Eiropas valodām, piemēram, angļu, spāņu un franču, spēcīgs mašīntulkošanas atbalsts jau ir pieejams, taču arī latviešu valoda var lepoties ar kvalitatīvām valodas tehnoloģijām.

Uzņēmums Tilde izstrādā gan mašīntulkošanas sistēmas, gan pareizrakstības, balss atpazīšanas un balss sintēzes rīkus. Tehnoloģiju pilnveidošanai talkā tiek ņemti neironu tīkli un mākslīgais intelekts, kuru apmācīšanai tiek izmantots liels apjoms datu. Populārās mašīntulkošanas sistēmas, piemēram, Google Translate, labi tiek galā ar ikdienā biežāk lietoto vārdu krājumu un galvenokārt ir piemērotas lielajām valodām, taču Tilde strādā pie tā, lai mašīntulks būtu pieejams arī latviešu valodai, tai skaitā nozarēm ar tām raksturīgo terminoloģiju un valodas lietojumu. Tādēļ regulāri tiek meklēti starpnozaru partneri, kas ir gatavi dalīties ar uzkrātajiem valodas datiem.

Mašīntulkošanas sistēmas mācās no valodas korpusiem, kurus veido vārdu un teikumu pāri, piemēram, teikumam latviešu valodā tiek piemeklēts tā tulkojums angļu valodā. Jo vairāk un atšķirīgākus valodas datus sistēma apgūst, jo precīzāk tā spēj tulkot. Tādēļ valodas korpusu savākšana ir būtiska valodas tehnoloģiju izstrādes daļa, un tulkota satura apzināšana un koplietošana kļūst par normu mūsdienu satura apritē,” skaidro Roberts Rozis, Tildes valodas resursu pārvaldnieks. Portālā Fold.lv regulāri tiek publicēta informācija par Latvijas un ārvalstu radošo industriju aktualitātēm, turklāt saturs latviešu un angļu valodā tiek veidots ļoti līdzīgs. Tādēļ uzkrātie valodas dati ir izcils resurss valodas korpusa veidošanai. Tos apstrādājot, tiks iegūti vairāk nekā 10 500 paralēlo teikumu.”

Sākto sadarbību komentē radošo industriju komunikācijas platformas Fold.lv direktore Evelīna Ozola: “Jau sākotnēji nolēmām, ka FOLD saturu veidosim reizē latviešu un angļu valodā, lai par Latvijas radošajām industrijām varētu lasīt arī cittautieši, un rūpēsimies par to, lai rakstu valoda būtu pareiza. Radošajās industrijās vai ik dienu no angļu valodas ienāk jauni termini, tāpēc veidot latviešu valodā saprotamus teikumus bieži vien ir sarežģīti. Tas, ka mūsu tulkotie raksti izrādījušies noderīgi arī mašīntulkošanas sistēmu attīstībai, ir pozitīvs novērtējums FOLD tekstu kvalitātei, un esam ļoti priecīgi, ka varam palīdzēt pilnveidot latviešu valodas tehnoloģijas.”

Tilde aicina arī citus uzņēmumus un organizācijas dalīties uzkrātajos valodas datos un piedalīties mašīntulkošanas tehnoloģijas attīstīšanai latviešu valodai. 

Radītais valodas korpuss pieejams šeit.