Pētniecības projekta “Mākslīgais intelekts reālā laika subtitrēšanai un dublēšanai tiešraidēm” aktualitātes 2024. gada otrajā ceturksnī

IT kompetences centrs īsteno projektu “Informācijas un komunikācijas tehnoloģiju kompetences centrs”, id. Nr. 5.1.1.2.i.0/1/22/A/CFLA/008.

Projekta “Informācijas un komunikācijas tehnoloģiju kompetences centrs” mērķis ir paaugstināt informācijas un komunikācijas tehnoloģiju (IKT) nozares komersantu konkurētspēju, sadarbībā ar zinātniskajām institūcijām līdz 2025. gada 30. jūnijam īstenojot vismaz 12 nozares un starpnozaru pētījumus Biznesa procesu analīzes tehnoloģiju un Dabīgās valodas tehnoloģiju jomās, lai to rezultātā vismaz 10 komersanti attīstu un ieviestu ražošanā jaunus produktus un tehnoloģijas.

 

2024. gada otrajā ceturksnī ir noslēgušās pētniecības projekta rūpnieciskā pētījuma aktivitātes “Reālā laika runas atpazīšana”, “Reālā laika runas mašīntulkošana” un “Reālā laika dublēšana”. Tāpat noslēgusies arī eksperimentālās izstrādes aktivitātes “Balsu korpusa izveide dublēšanai” īstenošana un turpinās aktivitātes “Tiešraižu subtitrēšanas un dublēšanas prototips” īstenošana.

 

Projekta 1. aktivitātes “Reālā laika runas atpazīšana” ietvaros 2024. gada 2.ceturksnī turpinājās pētījumi, kuros tika salīdzinātas dažādas runas atpazīšanas modeļu arhitektūras, pētīta valodas modeļu pievienošana. Šajā periodā aktivitāte tika pabeigta, visi aktivitātes rezultāti tika apkopoti un aprakstīti pētījuma dokumentā, aktivitātes ietvaros izveidotā programmatūra sagatavota iekļaušanai prototipā. Aktivitātē kopumā ir izveidota tiešsaiste, reālā laika runas atpazīšanas sistēma, kas izmanto jaunu pilna cikla neironu tīklu runas atpazīšanas arhitektūru. Sistēmas runas atpazīšanas kvalitāte būtiski pārsniedz iepriekš pieejamo sistēmu kvalitāti; jaunā sistēma ietver pieturzīmju atpazīšanu, kas integrēta runas atpazīšanas modelī, un runas atpazīšanas rezultāts tiek automātiski dalīts subtitros; risinājuma darbināšanai tiek izmantota K2/Sherpa-ONNX rīkkopa, kam nav nepieciešams GPU.

 

Projekta 2. aktivitātes “Reālā laika runas mašīntulkošana” ietvaros tika pētītas metodes reālā laika mašīntulkošanas papildināšanai ar retiem vārdiem, kas nav sastopami MT apmācības datos, kas pamatā ir rakstītā, nevis runātā valoda. Šajā periodā aktivitāte tika pabeigta, visi aktivitātes rezultāti tika apkopoti un aprakstīti pētījuma dokumentā, aktivitātes ietvaros izveidotā programmatūra sagatavota iekļaušanai prototipā. Aktivitātē kopumā ir izpētītas vairākas metodes MT uzlabošanai runas vajadzībām; ir izveidota Transformer arhitektūra, kas ļauj būtiski uzlabot runas tulkošanas ātrumu, saglabājot kvalitāti; izveidota metode MT papildināšanai ar retiem vārdiem

 

Projekta 3. aktivitātes “Reālā laika dublēšana” ietvaros 2024. gada 2.ceturksnī tika padziļināti pētīta fonēmu garumu modelēšanas problēma, atrasts veids, kā uzlabot garumu modelēšanu runas sintēzei. Šajā periodā aktivitāte tika pabeigta, visi aktivitātes rezultāti tika apkopoti un aprakstīti pētījuma dokumentā, aktivitātes ietvaros izveidotā programmatūra sagatavota iekļaušanai prototipā. Aktivitātē kopumā ir izveidota tiešaistes, reālā laika runas sintēzes sistēma, kas izmanto jaunu pilna cikla neironu tīklu runas sintēzes arhitektūru, kas pielāgota un novērtēta latviešu valodai; izveidots audiogrāmatu sastatīšanas risinājums; padziļināti izpētīta fonēmu garumu modelēšanas problēma; un izveidotas 2 runas sintēzes sistēmas.

 

Projekta 4. aktivitātes “Balsu korpusa izveide dublēšanai” ietvaros 2024. gada 2.ceturksnī tika pabeigti balsu ieraksti studijā, apstrādāti, pārbaudīti un salaboti saņemtie ieraksti, apkopoti dati par ierakstītajām balsīm. Šajā periodā aktivitāte tika pabeigta, visi aktivitātes rezultāti tika apkopoti un aprakstīti nodevuma dokumentā. Aktivitātē kopumā ir sagatavotas balss ierakstu vadlīnijas, un sagatavotas instrukcijas gan balss aktieriem, gan ierakstu studijai; atlasītas 2 balss aktieru balsis, kas ierakstītas studijā “Audioworks.lv”; izvērtēta ierakstīto balsu kvalitāte, veikti nepieciešami labojumi. Pēc montēšanas un klusumu apgriešanas, tīrais ierakstītais balss paraugu apjoms ir: vīrieša balss –  apmēram 14 stundas 20 minūtes un sievietes balss – apmēram 12 stundas 44 minūtes. Ierakstīto balsu kvalitāte novērtēta, izveidojot 2 runas sintezatorus 3. aktivitātes ietvaros.

 

Projekta 5. aktivitātes “Tiešraižu subtitrēšanas un dublēšanas prototips” ietvaros 2024. gada 2.ceturksnī notika darbs pie prototipa konferenču tiešraižu subtitrēšanai un dublēšanai, prototipā tika iekļautas jaunākās runas atpazīšanas, mašīntulkošanas un runas sintēzes sistēmas, notika darbs pie prototipa lietojamības uzlabošanas. Tika iesaistīti sadarbības partneri (RE.TV, TV4 un TV3), lai izveidotu API, ko televīzijas varēs integrēt savos risinājumos.

 

Pētniecības projekta realizācijas periods: 01.02.2023. – 30.09.2024.

Pētniecības projekta kopējās izmaksas – 582 458.00 EUR

Atveseļošanas fonda līdzfinansējums – 370 108.00 EUR

 

Projektu līdzfinansē Atveseļošanas fonds  Darbības programmas “Latvijas Atveseļošanas un noturības mehānisma plāna 5.1.r. reformu un investīciju virziena "Produktivitātes paaugstināšana caur investīciju apjoma palielināšanu P&A" 5.1.1.r. reformas "Inovāciju pārvaldība un privāto P&A investīciju motivācija" 5.1.1.2.i. investīcijas "Atbalsta instruments inovāciju klasteru attīstībai" īstenošanas noteikumi kompetences centru ietvaros” ietvaros.