Pētniecības projekti

Tilde kā pētniecības uzņēmums aktīvi piedalās ES līdzfinansētos projektos, tādējādi veicinot novatoriskas idejas un sagatavojot savai attīstībai nepieciešamo pētījumu bāzi. Esam izveidojuši ciešu sadarbību ar vadošajām Eiropas universitātēm un valodu tehnoloģiju uzņēmumiem zināšanu apmaiņas un progresīvo pētījumu jomā. Vairākos vērienīgos ES pētniecības projektos esam strādājuši par dažādu ES Septītās pamatprogrammas (7. PP) projektu koordinatoriem.

Pētniecības projekti ir saistīti ar mūsu pētniecības kompetences pamatjomām:

Aktuālie projekti

qt21 

  

 Elrc    

Freme    

 

Pabeigtie projekti

 MLi

safe

 

Galvenais TaaS projekta mērķis ir izveidot mākoņpakalpojumus daudzvalodu terminoloģijas datu iegūšanas, apstrādes un atkārtotas izmantošanas vajadzībām. Projekta galvenais rezultāts ir novatoriskā platforma TaaS — "Terminoloģija kā pakalpojums (Terminology as a Service)", kas paredzēta neapstrādātu terminoloģijas datu iegūšanai, šo datu sakārtošanai un pēc tam — terminoloģijas datu koplietošanai un atkārtotai izmantošanai, izmantojot mākoņdatošanas iespējas.

TaaS piedāvā šādus terminoloģijas mākoņpakalpojumus:

  • Terminu meklēšana TaaS koplietojamā terminu krātuvē un citos terminoloģijas tiešsaistes resursos, piemēram, IATE un EuroTermBank. 
  • Failu importēšana dažādos lietotāju bieži lietotos formātos, piemēram, DOC(X), PDF, tādos XML formātos kā XLIFF un citos. 
  • Automatizēta monolingvālu iespējamo terminu izguve (no lietotāju augšupielādētiem dokumentiem), izmantojot modernākās lingvistiski un statistiski pamatotas terminu izguves metodes. 
  • Automātiska iespējamo tulkojuma ekvivalentu uzmeklēšana (monolingvālie iespējamie termini, kas automātiski izgūti no lietotāju augšupielādētajiem dokumentiem) lielākajās publiski pieejamās terminoloģijas datu bāzēs, piemēram, IATE un EuroTermBank, kā arī to statistisko terminoloģijas datu uzmeklēšana, kas iegūti no publiski pieejamiem paralēlajiem un salīdzināmajiem tīmekļa datiem, izmantojot modernākās lingvistiski un statistiski pamatotās terminu izguves un bilingvālās terminu sastatīšanas. 
  • Monolingvālu un bilingvālu terminu kopu izveide lietotāju izvēlētās valodās, ja tā ir kāda no projekta 25 valodām.
  • Sadarbība terminoloģijas sakārtošanā, piemēram, neatbilstošu un apšaubāmu iespējamo terminu un nepareizi izgūtu iespējamo terminu dzēšana; "termina" un "vienības" definēšana; terminu variantu noteikšana; dublikātu dzēšana; bilingvāla tulkojuma ekvivalentu pārbaude un neatbilstošu vai apšaubāmu tulkojuma ekvivalentu dzēšana; iespējamo terminu validēšana kontekstā u.c. 
  • Iegūto terminoloģijas datu koplietošana ar lielākajām terminoloģijas datu bāzēm un bankām. 
  • Terminu kopu atkārtota izmantošana dažādos lietojumos cilvēka veiktu un mašīnas veiktu darbību gadījumā, izmantojot TaaS lietojumprogrammu lietotāja interfeisu (API) un failu eksportēšanu dažādos lietotāju plaši lietotos formātos — piemēram, TSV, CSV un TBX.
     Projekta tīmekļa vietne

 

Lai pilnībā izmantotu milzīgo potenciālu, kāds ir jau izstrādātajām statistiskās mašīntulkošanas (SMT) atvērtajām tehnoloģijām, mēs ierosinām veidot novatorisku tiešsaistes sadarbības platformu datu apmaiņai un mašīntulkošanas datu krāšanai. Šajā platformā varēs augšupielādēt publiski pieejamus un patentējamus MT mācību datus un veidot daudzas publiskas vai patentētas MT sistēmas, apvienojot datus un nosakot to prioritāti. Projektā lietotāju iesniegtajiem datiem varēs izmantot vismodernākās esošās SMT metodes, lai uzlabotu mašīntulkošanas kvalitāti, kā arī tematisko un valodu klāstu.
LetsMT! pakalpojumos paredzēti divi galvenie lietošanas scenāriji — uzņēmējdarbības un finanšu ziņu bezmaksas tulkošanas tiešsaistē un lietošana lokalizācijas un tulkošanas nozarē. Šie pakalpojumi varētu noderēt arī daudziem citiem lietotājiem: tīmekļa lietotājiem kopumā, mazāk izplatītu valodu pārstāvjiem, zinātniekiem u.c.
Lokalizācijas un tulkošanas nozarei LetsMT! piedāvās iespēju mācīt SMT sistēmas, izmantojot šīs nozares uzņēmumu datus, un izstrādāt pielāgotus SMT risinājumus, ko lietot lokalizācijas pakalpojumu sniedzējiem un uzņēmumiem un organizācijām, kam jātulko informācija daudzās valodās. Tiks nodrošināta SMT risinājumu integrācija profesionālās programmatūras vidē.
Uzņēmējdarbības un finanšu ziņu lasītājiem LetsMT! piedāvās tūlītējos bezmaksas MT pakalpojumus, īpaši pievēršoties MT vidē mazāk pārstāvētajām valodām. Pakalpojumu kvalitāte tiks nodrošināta, apstrādājot un vairākos ciklos novērtējot lielu specifiskajai tematikai raksturīgu valodas resursu kopu.
LetsMT! pakalpojumi būs pieejami tīmekļa portālā tekstu bezmaksas tulkošanai, izmantojot tulkošanas logrīku, kas tiks nodrošināts iekļaušanai tīmekļa lapā kā pārlūkprogrammas spraudnis ātrai tulkošanai, un integrējot tos profesionālos tulkošanas rīkos. Projekta tīmekļa vietne

 

Viens no lielākajiem automātiskās tulkošanas turpmākas attīstības šķēršļiem daudzās valodās un nozarēs ir valodas resursu trūkums. Projekta ACCURAT pētījumu galvenais mērķis ir atrast, analizēt un novērtēt jaunas metodes, kā kompensēt šo valodas resursu trūkumu, izmantojot salīdzināmu tekstu korpusus, lai ievērojami uzlabotu MT kvalitāti ierobežotu resursu valodās šauras specializācijas nozarēs.
Projekts ACCURAT nodrošinās pētniekiem un izstrādātājiem jaunu metodoloģiju un pilnībā funkcionālu modeli salīdzināmu korpusu izmantošanai, lai uzlabotu esošo un nākamo MT sistēmu tulkojumu kvalitāti. Mēs noteiksim salīdzināmu korpusu tekstu līdzības pakāpes mērīšanas kritērijus. Tiks analizētas un vērtētas metodes salīdzināmu korpusu automātiskai ieguvei tīmeklī. Tiks izstrādāti paņēmieni, kā no salīdzināmiem korpusiem iegūt leksiskos, terminoloģijas un citus valodnieciskos datus , lai nodrošinātu MT mācīšanai un pielāgošanai nepieciešamos datus. Uzlabojumi, kas tiks panākti, izmantojot iegūtos datus, tiks noteikti, salīdzinot ar MT sistēmu bāzes rezultātiem, un pārbaudīti praksē.
Projektā ACCURAT tiks izstrādātas jaunas pieejas kvalitatīvu MT tulkojumu ieguvei vairākās ierobežotu resursu ES valodās (piemēram, igauņu, horvātu) un esošo MT tehnoloģiju pielāgošanai šauras specializācijas nozarēm (piemēram, automobiļu inženierija), ievērojami palielinot MT nodrošināto valodu un nozaru klāstu. ACCURAT metodes būs universālas un pielāgojamas jaunām valodām un nozarēm.
Projekta konsorcijā ir panākts optimāls dalībnieku līdzsvars: projektā piedalās izcili pētnieki no visām būtiskajām pētījumu jomām un nozarēs strādājošie MVU. Tādējādi projekts ir maksimāli vērsts uz reālu vajadzību īstenošanu. Projekts ACCURAT palīdzēs sasniegt projektā paredzētos rezultātus, nodrošinot valodas resursu automātiskas ieguves un marķēšanas metodes, papildinot ar MT pakalpojumiem nodrošināto valodu klāstu ar jaunām valodām, uzlabojot tulkošanas kvalitāti un izstrādājot automātiskās tulkošanas pielāgojamības uzlabošanas metodes. Projekta tīmekļa vietne

 

Projekta META-NORD mērķis ir izveidot atvērtu lingvistisko infrastruktūru Baltijas valstīs un Ziemeļvalstīs (Dānijā, Igaunijā, Īslandē, Latvijā, Lietuvā, Norvēģijā, Somijā un Zviedrijā). Projekta uzdevums ir apkopot dažādus valodas resursus, ko izmanto dažādas mērķauditorijas grupas zinātniskajās aprindās un dažādās nozarēs, savstarpēji saistīt šos valodas resursus un nodrošināt to plašu pieejamību (META-NORD projekta pamats ir sintaktiski marķēti korpusi, vārdu tīkli un daudzvalodu terminoloģija). Projekts tiek īstenots ciešā saistībā ar META-NET un citiem saistītiem pasākumiem, lai izveidotu Eiropas mēroga atvērtu resursu apmaiņas platformu. Projekta tīmekļa vietne

 

Projekta TTC mērķis ir izmantot mašīntulkošanas (MT) rīkus, datorizētās tulkošanas (CAT) rīkus un daudzvalodu satura pārvaldības rīkus, lai automātiski ģenerētu bilingvālus terminoloģijas resursus no salīdzināmu tekstu korpusiem piecās Eiropas valodās (angļu, franču, vācu, spāņu valoda, kā arī viena ierobežoto resursu valoda — latviešu valoda), kā arī ķīniešu un krievu valodā. Projekta tīmekļa vietne

 

Projekts veicinās cilvēku ar invaliditāti un gados vecāku cilvēku sociālo līdzdalību, nodrošinot starpvalodu un multimodālu atbalstu, lai piekļūtu informācijas bāzei par palīgrīkiem un palīgtehnoloģijām. Pēdējā laika panākumi šajā jomā ir Eiropas portālā EASTIN (www.eastin.info) apkopotās palīgtehnoloģiju informācijas bāzes. Šis portāls tiks uzlabots un kļūs vēl pieejamāks, izmantojot valodas tehnoloģiju.
Daudzvalodu tehnoloģija ļaus lietotājiem meklēt datus savā dzimtajā valodā. Multimodālā tehnoloģija ļaus lietotājiem piekļūt portālam, izmantojot ne tikai rakstisko, bet arī mutisko saziņas formu.
Projekta rezultāts būs īpašais valodas serveris EASTIN portālā. Tas darbosies kā interpretētājs, balsi pārveidojot tekstā un tekstu — balsī, kā arī tulkos vaicājumus un dokumentus no lietotāja dzimtās valodas un uz to. Līdztekus tiks izstrādāta arī palīgierīču nozares daudzvalodu terminu vārdnīca, kurā ietilps visi svarīgākie meklējamie termini un to tulkojumi. Šī vārdnīca būs pieejama tiešsaistē. Projekta tīmekļa vietne

 

Projekta Tripod pamatmērķis bija pārveidot piekļuvi milzīgajiem vizuālās multivides resursiem. Projektā Tripod ar novatorisku starpdisciplīnu pieeju tika izmantots milzīgs līdz šim neapgūtu, precīzu un regulāri atjauninātu semantiskās informācijas avotu klāsts, lai izveidotu jaunus intuitīvās meklēšanas pakalpojumus, kas sniegtu lietotājiem iespēju šajā aizvien augošajā resursā viegli piekļūt tieši viņiem nepieciešamajam attēlam. Projekta tīmekļa vieta

 

Projektā MIAUCE tika pētīti un izstrādāti paņēmieni, kā analizēt lietotāju multimodālo izturēšanos reālos apstākļos. Multimodālās izturēšanās veidi ir skatiens/uzmanības noturēšana, acu mirkšķināšana un ķermeņa kustības. Tika izpētīti un izstrādāti paņēmieni, kā analizēt lietotāju multimodālo izturēšanos kontrolētā vidē. Analīzes rezultātā iegūto informāciju var pielāgot lietotāju vajadzībām un situācijai. Projekta mērķis ir izstrādāt paņēmienus cilvēka kontrolētai mijiedarbībai ar apkārtni, nevis cilvēka mijiedarbībai ar datoru vai savstarpējai cilvēku mijiedarbībai. Projekta tīmekļa vietne

 

Projektā CLARITY tika izstrādāti starpvalodu informācijas ieguves paņēmieni, kurus var izmantot arī, ja pieejami minimāli tulkošanas resursi, piemēram, valodu modeļi, lai samazinātu tulkošanas procesā sastopamo daudznozīmību, metodes vārdu tulkošanai bez standarta tulkošanas informācijas, un paņēmieni, kā tulkot no vienas valodas citā, izmantojot starpniekvalodu. Projektā tika izpētītas ieguves metodes, apstrādājot jauktus runas dokumentu un dažādās valodās sarakstītu dokumentu kopumus. Tika pētīti vairāki sistēmas lietojamības uzlabošanas un starpvalodu un runas dokumentu efektīvākas parādīšanas un organizēšanas paņēmieni. Pamatojoties uz jēdzienu hierarhijām, tika izstrādāts rīks dokumentu organizēšanai tiešsaistē, dokumenta stila identificēšanas metode un dokumenta pamatdomas noteikšanas metode, lai tulkotu nelielus dokumentu kopsavilkumus. Tika pētīta starpvalodu informācijas ieguves problēma Baltijas valstu valodās un izstrādāti risinājumi.


 

Projekts EuroTermBank tika realizēts Eiropas Komisijas eContent programmā 2004. 2007. gadā, un tā mērķis bija veicināt terminoloģijas datu pieejamību un apmaiņu, tiešsaistes terminoloģijas datu bāzē vācot, apkopojot un izplatot esošos un neapkopotos terminoloģijas resursus. Sākotnēji EuroTermBank uzdevums bija palīdzēt uzlabot terminoloģijas infrastruktūru vairākās Eiropas Savienības jaunajās dalībvalstīs (Latvijā, Lietuvā, Igaunijā, Polijā, Ungārijā), tomēr projekta darbība tagad ir izvērsusies citās ES valstīs un pat ārpus ES.
EuroTermBank mērķis ir integrēt pieejamos terminoloģijas resursus (ne tikai no valstīm, kuras ir projekta partneres) centrālajā EuroTermBank datu bāzē vai nodrošināt to saistīšanu ar EuroTermBank kā centrālo vārteju un vienotu pakalpojumu sniegšanas vietu. Datu bāzei ir divi līmeņi — tā ir centrālā datu bāze un savstarpējās saistīšanas mezgls vai vārteja uz citām valsts mēroga vai starptautiskām terminoloģijas bāzēm. Ir izstrādāti datu apmaiņas mehānismi, lai nodrošinātu terminu importēšanas, eksportēšanas un savstarpējas apmaiņas iespējas ar citām terminoloģijas datu bāzēm.
Ir iegūts liels terminoloģijas resursu apjoms, kas apstrādāti, lai tos iekļautu EuroTermBank datu bāzē. Satura apstrādei tiek izmantota EuroTermBank projektā izstrādātā metodoloģija. Saturs pirms iekļaušanas datu bāzē iziet vairākus apstrādes posmus, tostarp atlasi, prioritāšu noteikšanu, modificēšanu un digitalizāciju (ja saturs nav ciparu formātā). Rezultātā tiek iegūts uzticams daudzvalodu terminoloģijas resurss, kas savienots tīklā ar citiem esošiem valstu un starptautiskiem resursiem un ir pieejams visiem globālā tīmekļa lietotājiem. EuroTermBank portālā var meklēt kādu no aptuveni 600 000 terminoloģijas šķirkļiem, kuros ir ietverti vairāk nekā 1,5 miljoni terminu dažādās valodās no 100 terminoloģijas krātuvēm. EuroTermBank portāls kā vienotais pakalpojuma piekļuves punkts nodrošina konsolidētu interfeisu meklēšanai portāla centralizētajā datu bāzē, kā arī citās valstu un starptautiskās terminoloģijas bāzēs. Datu bāzi var viegli paplašināt, importējot vai pievienojot saiti uz jauniem terminoloģijas resursiem. Projekta tīmekļa vietne

 

Projekta SOLIM mērķis ir uzlabot kontekstatkarīgo informācijas analīzi, paplašinot vismodernākās ontoloģijas valodas un papildināt tās ar izpratni par telpu, uzlabojot automātisko spriešanu. Tādējādi semantisko sistēmu pasaulē tiks ieviesti telpas un pārmaiņu jēdzieni, un tās vairs nebūs statiskas.
Pašreizējie semantisko zināšanu aprakstīšanas tehnoloģiskie rīki pietiekamā apmērā neatbalsta automātisko spriešanu par jēdzieniem piemītošajām telpiskajām īpašībām. Informāciju par telpu var aprakstīt, tikai izmantojot ontoloģiju, kurā atrašanās vietas tiek uzskatītas par parastiem jēdzieniem. Tomēr, šādi rīkojoties, formalizācijā tiek zaudēti aprakstīto notikumu parametri telpā un laikā (atrašanās vieta un kustība). Tas nozīmē, ka jēdziena telpiskos aspektus (piemēram, novietojumu, izmērus, mērogu, atrašanās vietu un kustību) ontoloģijā nevar pietiekami kvalitatīvi aprakstīt, pat ja tajā ir derīgi un pastāvīgi dati par tematisko jomu. Kaut gan daudzās ontoloģijās telpiskās īpašības pieder pie fizisku jēdzienu pamatīpašībām, tās var aprakstīt tikai individuāli.
SOLIM projektā tiek paplašināta ontoloģiju tīmekļa valoda (OWL — ontology web language), lai tajā varētu atbalstīt telpiskās informācijas glabāšanu un apstrādi, un šīs paplašināšanas devums tiks pierādīts, automātiski apstrādājot teksta un grafisko informāciju. Projekta tīmekļa vietne

 

SEMO

Projekta SEMO mērķis ir izstrādāt jaunu intelektisko tehnoloģiju, kas izgūst metadatus no papīra un elektroniskiem dokumentiem neatkarīgi no to veida, struktūras vai valodas. Papīra dokumenti vispirms tiek digitalizēti, pēc tam apstrādāti ar rakstzīmju optiskās atpazīšanas (OCR — optical character recognition) programmatūru, bet pēc tam tiek ievadīti sistēmā metadatu izguvei. Metadatu izguves rīks analizē ievadīto strukturēto failu, atpazīst metadatu tipu, klasificē un pēc tam izgūst dokumenta saturu. Speciālā pārbaudes procedūrā tiek vērtēta atpazīšanas un izguves kļūdu iespējamība un novērtēta katra apstrādātā dokumenta kvalitāte.