Kā tiek pievienoti jauni vārdi pareizrakstības pārbaudes vārdnīcai?
Autore : Madara Mieriņa
Šobrīd latviešu valodas automātiskais pareizrakstības pārbaudītājs atpazīst vairāk nekā 22 miljonus vārdformu, tomēr Tildes kolektīvs pastāvīgi uzlabo pareizrakstības pārbaudi, iekļaujot tajā jaunus vārdus.
Jaunie vārdi tiek meklēti, gan apstrādājot lielus tekstu apjomus, gan uzmanīgi pētot esošo valodas lietojumu. No milzīgiem elektronisko tekstu krājumiem, kurus dēvē par korpusiem un kuros ir daudzi miljoni vārdu, tiek atlasīti pareizrakstības pārbaudē neatpazītie vārdi. Šos sarakstus izskata filologi un datorzinātnieki un izvērtē, kurus vārdus iekļaut pareizrakstības pārbaudes atpazīstamo vārdu sarakstā.
Izvērtēšanā tiek ņemti vērā vairāki faktori:
Vārda atbilstība literārajām normām
Netiek iekļauti daudzi žargona vārdi, piemēram, “čilot”, “barčiks”, “kompis”;
Vārda lietošanas biežums
Netiek iekļauti reti lietoti vārdi, kas bieži ir specifiski, piemēram, “grabasts”, “tetrahlorzeltskābe”;
Vārda vai tā daļas (ja tas ir saliktenis) dokumentācija citos avotos
Tiek pārbaudīts, vai vārds ir fiksēts vēl kādā latviešu valodas svešvārdu vai skaidrojošajā vārdnīcā vai terminoloģijas dokumentos.”.
Tilde sadarbojas arī ar saviem lietotājiem. Ikviens var pamanīto pareizo pareizrakstības pārbaudes neatpazīto vārdu nosūtīt Tildei, kur tas tiek iekļauts izskatāmo vārdu sarakstā un, iespējams, vēlāk arī pievienots pareizrakstības atpazīto vārdu sarakstam.