Pētniecības projekta “Daudzvalodīgs dokumentu anonimizācijas un pseidonimizācijas mākslīgā intelekta risinājums” aktualitātes 2024. gada otrajā ceturksnī

IT kompetences centrs īsteno projektu “Informācijas un komunikācijas tehnoloģiju kompetences centrs”, id. Nr. 5.1.1.2.i.0/1/22/A/CFLA/008.

Projekta “Informācijas un komunikācijas tehnoloģiju kompetences centrs” mērķis ir paaugstināt informācijas un komunikācijas tehnoloģiju (IKT) nozares komersantu konkurētspēju, sadarbībā ar zinātniskajām institūcijām līdz 2025. gada 30. jūnijam īstenojot vismaz 12 nozares un starpnozaru pētījumus Biznesa procesu analīzes tehnoloģiju un Dabīgās valodas tehnoloģiju jomās, lai to rezultātā vismaz 10 komersanti attīstu un ieviestu ražošanā jaunus produktus un tehnoloģijas.

2024. gada otrajā ceturksnī turpinās pētniecības projekta rūpnieciskā pētījuma aktivitāšu “Daudzvalodīga nosaukto entitāšu atpazīšana” un “Daudzvalodīga pseidonimizēšana” īstenošana un eksperimentālās izstrādes posma aktivitāšu “Daudzvalodīgs dokumentu pseidonimizēšanas prototips” un “Daudzvalodīgs dokumentu pseidonimzētas tulkošanas prototips” īstenošana.

 

Projekta 1.aktivitātes ‘’Daudzvalodīgo nosaukto entitāšu atpazīšana’’ ietvaros tika identificētas datu kopas angļu, dāņu, igauņu, somu, lietuviešu, latviešu, poļu un zviedru valodās, ko iespējams lietot anonimizācijas uzdevumam pielāgota NER modeļa apmācībai un novērtēšanai. Izmantojot tiesībsargāšanas jomai piemērotas anonimizācijas datu kopas, tika apmācīti NER modeļi un implementēts entitāšu detektors, kas izmanto regulārās izteiksmes.

 

Projekta 2. aktivitātes ‘’Daudzvalodīga pseidonimizēšana’’ ietvaros notiek metodes, kas pseidonimizācijai izmanto entitāšu vārdnīcu implementācija. Tika nomarķēts ziņu korpuss latviešu valodā ar entitātēm, korpuss nomarķēts ar sintaktisko analizatoru, un izveidota pseidonīmu vārdnīcas pirmā versija. Tika pētītas metodes entitāšu piesaistei Wikidata un sākta entitāšu kategoriju noteikšana, kas varētu uzlabot tekstā ievietoto pseidonīmu kvalitāti. Tika sākts darbs pie pseidonīmu aizvietošanas algoritma izstrādes, kas izmanto izveidoto pseidonīmu vārdnīcu.

 

Projekta 4.aktivitātes ‘’Daudzvalodīgs dokumentu pseidonimizēšanas prototips’’ ietvaros tika apkopotas prasības prototipam, veikta konkurentu produktu izpēte un sākta saskarnes dizaina un izstrāde.

 

Pētniecības projekta realizācijas periods: 01.02.2024. – 31.05.2025.

Pētniecības projekta kopējās izmaksas – 251 092.00 EUR

Atveseļošanas fonda līdzfinansējums – 160 589.00 EUR

 

 

Projektu līdzfinansē Atveseļošanas fonds  Darbības programmas “Latvijas Atveseļošanas un noturības mehānisma plāna 5.1.r. reformu un investīciju virziena "Produktivitātes paaugstināšana caur investīciju apjoma palielināšanu P&A" 5.1.1.r. reformas "Inovāciju pārvaldība un privāto P&A investīciju motivācija" 5.1.1.2.i. investīcijas "Atbalsta instruments inovāciju klasteru attīstībai" īstenošanas noteikumi kompetences centru ietvaros” ietvaros.