Ilustracija: Image by Racool_studio on Freepik

Godišnja inventura ususret 30. rođendanu

Još je jedna godina za nama i vrijeme je za inventuru 2023. godine na FER-ovom strojnom provjerniku pravopisa Ispravi.me.

Prethodne je godine Ispravi.me, poslužujući preko 600 tisuća korisnika, obradio 7,45 milijuna tekstova s ukupno 1,74 milijarde riječi, tj. u prosjeku 234 riječi po tekstu. Ako se to pretvori u radne sate, ispada da je automatskom provjerom pravopisa tih 7,3 milijuna kartica korisnicima ušteđeno 363 tisuće dana, tj. ukupno gotovo 1700 radnih godina, ako kao parametre uzmemo 20 kartica teksta na dan i osmosatno radno vrijeme.

Kao i godinu ranije, prema podacima koje daje Google Analytics, nešto više od 85 % korisnika dolazi iz Hrvatske, njih 7 % dolazi iz Bosne i Hercegovine, dok uslugu koristi i po 1 % korisnika iz Njemačke, Srbije, Austrije i Slovenije. Najviše je korisnika u dobnoj skupini od 25 do 35 godine (njih četvrtina), no ove godine najmanje je korisnika mlađih od 24 godine (tek 10 %).

Ukupno je sustav pronašao 4,86 milijuna različitih pogrešaka koje su se u tekstovima pojavile 30,32 milijuna puta, što znači da i dalje na svakih 60-ak ispravnih riječi dolazi jedna pogrešna.

Najčešće pogreške

Top-lista grešaka nije se značajno mijenjala u odnosu na posljednje godine: najčešće se griješi pišući “slijedeći” umjesto “sljedeći”, “riješenje” umjesto “rješenje”, “promjeniti” umjesto “promijeniti”, “mogučnost” umjesto “mogućnost”, “če” i “čemo” umjesto “će” i “ćemo”, “več” umjesto “već”. Vrlo često korisnici uopće ne koriste dijakritike, što ne bismo trebali smatrati pravopisnom pogreškom, nego pripisati želji za brzim pisanjem, posebno na pametnim telefonima. Zamjetno je i često pisanje riječi “svo” umjesto “sve”, “niko” umjesto “nitko”, “šta” umjesto “što”, “vjerovatno” umjesto “vjerojatno” ili “projekat” umjesto “projekt”. Pri vrhu je i pogrešno pisanje negacije pa tako “ne bi” postaje “nebi”, a “ne znam” postaje “neznam”. “Sa mnom” često postaje “samnom”. Očekivano, 10 % najčešćih pogrešnih riječi pojavljuje se u gotovo polovici svih pronađenih pogrešaka.

Usluga Ispravi.me osim klasičnih zatipaka ispravlja i česte gramatičke te stilske pogreške – takvih je pronađeno 300 tisuća, a pojavile su se 3,2 milijuna puta. U takve pogreške ubrajamo sintagme “s obzirom da” (treba “s obzirom na to da”), “na taj način” (bolje je “tako”) ili “na način da” (bolje je “tako da”), “zajedno s” (najčešće je dovoljno “s”), grozomorno “iz razloga što” (ispravno je “zato što”), iritantno administrativno “nismo u mogućnosti” (a lakše je napisati “ne možemo”). Tu je i pogrešna upotreba riječi “ukoliko”, umjesto koje, ako ne dolazi u paru s “utoliko”, treba pisati “ako”. Korisnici griješe i kod pisanja futura (npr. “biti će” umjesto “bit će”). Pri vrhu ljestvice nalazi se i pogrešno korištenje prijedloga “s”, tj. “sa” te sintagma “da li”.

Analiza višegodišnjih zapisa o ispravcima koje korisnici izabiru od ponuđenih opcija (preko 33 milijuna pogrešaka i ispravaka) pokazala je sljedeće:

  • 18,3 % svih pogrešaka posljedica je nekorištenja dijakritika,
  • 7 % svih pogrešaka posljedica je pogrešnog pisanja “je” umjesto “ije”,
  • 6,3 % svih pogrešaka posljedica je pogrešnog pisanja “č” umjesto “ć”,
  • 5,4 % svih pogrešaka predstavlja pogrešno pisanje prijedloga “sa” umjesto “s” (za razliku od 0,4 % pogrešaka pisanja “s” umjesto “sa”),
  • 5 % svih pogrešaka predstavlja pogrešno pisanje “ije” umjesto “je”,
  • 3,4 % svih pogrešaka predstavlja pogrešno pisanje “ć” umjesto “č”.

Nove funkcionalnosti

Krajem prošle godine usluga je obogaćena novim funkcionalnostima, promijenjeno je sučelje za nuđenje ispravaka, a dio programskog koda na poslužiteljskoj strani napisan je iznova, čime je brzina odgovora utrostručena. Nove funkcionalnosti uključuju prepoznavanje ispravnog oblika pisanja datuma (s razmakom iza točke i nazivom mjeseca u genitivu), dodavanje razmaka između broja i mjerne jedinice ili naziva valute, provjeru pisanja rednih brojeva (npr. ispravljanje “1-og” ili “3-eg”, “1940-tih” ili “1000-ih”), ispravljanje parova “tokom/tijekom”, “budući/budući da”, “zahtjeva/zahtijeva” na temelju frekvencije pojavljivanja izraza u kojima se koriste i sličnog. Predlažu se i ispravci suvišnih razmaka ispred znakova interpunkcije te iza otvorenih ili ispred zatvorenih zagrada. U planu su i nova poboljšanja, uglavnom temeljena na n-gramskom modelu hrvatskoga jezika koji se gradi u sklopu usluge provjere pravopisa. Mjereno pojavnicama, taj sustav višestruko nadmašuje opseg svih knjiga tiskanih na hrvatskom jeziku od Gutenberga do danas, dajući izvrsnu podlogu za big data obrade.

Ove godine obilježit ćemo i tridesetu obljetnicu postojanja usluge, koja je prve 22 godine živjela pod akronimom Hrvatskog akademskog spelling checkera – Haschecka (čita se “Hašek”). Od javne objave usluge 21. ožujka 1994. godine kad se ona koristila putem elektroničke pošte, preko uvođenja web-sučelja 2003. godine, Hašek je do danas obradio gotovo 63 milijuna tekstova s nešto više od 16 milijarda riječi, čime je, prema navedenim parametrima, korisnicima uštedio više od 15,5 tisuća radnih godina sričućeg čitanja teksta.


Ilustracija: Image by Racool_studio on Freepik