Ispravljanje tekstova s posebnim formatiranjem za društvene mreže

Prateći korištenje usluge ispravi.me primijetili smo da korisnici ponekad šalju na ispravljanje tekst u kojem se nalazi veliki broj neprepoznatih znakovnih nizova, što rezultira ispisom velikog broja pogrešaka koje se ne vide u ispravljenom tekstu. Najčešće se radi o tekstovima koji su naredbom copy/paste ubačeni u obrazac za ispravljanje, a u kojima je dio riječi napisan drugačijim podebljanim (boldanim) ili ukošenim (italic) slovima, vrlo često kao objave na društvenim mrežama, ponekad popraćene i jednostavnim grafičkim elementima (emoji), npr. korištenjem usluge https://texteditor.com/bold-text/facebook/ ili slične:

Kad se takav tekst preda na provjeru, sve što je pisano regularnim slovima obradi se uredno i dojave se pogreške, no posebno formatirani tekst za društvene mreže rezultira prikazom pogrešnog broja pogrešaka, a pogreške koje bi se mogle pojaviti u takvom podebljanom tekstu ne prijavljuju se korisniku:

Stoga prilikom lijepljenja (paste) teksta u obrazac za ispravljanje sva takva slova pretvaramo u normalizirani oblik, uklanjajući pritom sva posebna formatiranja. Grafičke elemente pritom ne mijenjamo.

Preporučujemo da svoj tekst u našem strojnom provjerniku provjerite i ispravite prije ukrašavanja, jer ćete u suprotnom isti posao morati raditi dvaput!

Ispravi.me slavi 30. rođendan

Trideset nam je godina tek…

U četvrtak, 21. ožujka 2024. godine, obilježavamo 30 godina javnog služenja korisnicima. Pokrenut 1994. godine, Hrvatski akademski spelling checker (Hascheck) prvih devet godina bio je dostupan kao usluga elektroničke pošte, a od 2003. godine preselio se na web. U tih prvih 30 godina, Hascheck je postao neizostavan alat za mnoge koji traže pouzdanu provjeru pravopisa na hrvatskom jeziku.

Ovaj značajan jubilej dolazi uz impresivne brojke koje svjedoče o Hascheckovoj važnosti i širokoj primjeni: dosad je uspješno obradio više od 63,5 milijuna tekstova iz 199 zemalja svijeta te provjerio 16,2 milijarde riječi. Na njega se svakodnevno oslanja gotovo deset tisuća korisnika iz Hrvatske, susjednih zemalja, ali i šire.

Uz ovu važnu obljetnicu, prisjećamo se i nedavno preminulog profesora Šandora Dembitza, čiji je neizmjerni doprinos bio ključan u stvaranju ove izuzetno korisne alatne usluge. Šandor Dembitz ostavio je neizbrisiv trag u području obrade prirodnoga jezika i jedan je od pionira uvođenja informacijskih jezičnih tehnologija u hrvatski jezik.

Hascheck ne posustaje, krajem 2023. godine obogaćen je novim funkcionalnostima (npr. ispravljanje datuma, suvišnih razmaka, pisanja jedinica i postotaka iza brojeva), a značajno je ubrzana kontekstna provjera teksta. U bliskoj budućnosti planiramo funkcionalnost pronalaženja i ispravljanja zatipaka koji rezultiraju ispravnim riječima, parafraziranja i stilskog uređivanja teksta te ispravljanja gramatičkih pogrešaka.

Preminuo Šandor Dembitz, autor Hašeka

U Zagrebu je u nedjelju, 11. veljače 2024. godine, samo dan prije svog 73. rođendana, preminuo Šandor Dembitz, umirovljeni izvanredni profesor i djelatnik Zavoda za osnove elektrotehnike i električka mjerenja FER-a, autor Hrvatskog strojnog provjernika pravopisa Haschecka.

Iskreno mu zahvaljujemo na njegovom vizionarskom doprinosu u razvoju i promociji jezičnih tehnologija, posebno na njegovoj predanosti razvoju usluge strojne provjere pravopisa, koja je značajno unaprijedila pejzaž jezičnih tehnologija hrvatskog jezika, a koja krajem ožujka obilježava 30 godina postojanja.

Velika mu hvala na svemu što je učinio za Fakultet i za Zavod. U ime Uprave FER-a, Zavoda te svih zaposlenika izražavamo najdublju sućut njegovoj obitelji, prijateljima, kolegama i suradnicima.

Neka počiva u miru. Informacije o pogrebu objavit ćemo naknadno.

Šandor Dembitz rođen je 12. veljače 1951. godine u Splitu. Osnovnu školu i gimnaziju završio je u Novom Sadu. Studij elektrotehnike upisao je 1969. godine na Elektrotehničkom fakultetu Sveučilišta u Zagrebu, gdje je i diplomirao u prosincu 1973. na smjeru Elektronika, usmjerenje Telekomunikacije i informatika. Poslijediplomski studij upisao je na ETF-u 1974. god. Magistrirao je s radom “Analiza jezika za komunikaciju s procesorski upravljanim telekomunikacijskim sistemom” u travnju 1981. godine, pod mentorstvom profesora M. Tkalića. Doktorsku disertaciju pod naslovom “Automatizacija postupaka otkrivanja grešaka u tekstu u novim telekomunikacijskim službama” obranio je u prosincu 1993., pod mentorstvom prof. dr. sc. Enver Šehović.

Rad na Elektrotehničkom fakultetu započeo je 1. veljače 1974. godine na grupi predmeta Osnove elektrotehnike, prvo u zvanju asistenta, zatim u zvanju znanstvenog asistenta od listopada 1981. te u zvanju višeg asistenta od veljače 1997. Za docenta je izabran u siječnju 1999., a za izvanrednog profesora u ožujku 2004. godine.

Od 1974. do 1997. znanstvenu i stručnu djelatnost ostvaruje radom na projektima vezanim uz Zavod za telekomunikacije FER-a. Autor je, odnosno suautor sedamdesetak znanstvenih radova te tridesetak stručnih radova (članaka, studija, elaborata, ekspertiza). Sudjelovao je s radovima na brojnim znanstvenim skupovima u zemlji i inozemstvu.

Najvrjednije istraživačko i razvojno postignuće Šandora Dembitza je Hascheck [Hašek], računalna usluga za strojnu provjeru teksta pisanog hrvatskim jezikom, danas dostupan na adresi ispravi.me. Hašek je prvi javni hrvatski spellchecker. Njegovu vrijednost potvrđuje i činjenica da mu je bila povjerena strojna provjera teksta Hrvatskog leksikona, kapitalnog djela hrvatske kulture. Hašekovo bavljenje Hrvatskim leksikonom prvi je slučaj sustavne strojne provjere teksta u slavenskim leksikografijama.

S uspostavom Republike Hrvatske intenzivnije se javno angažira. Na lokalnim izborima 1995. izabran je za vijećnika Skupštine grada Zagreba i Skupštine Zagrebačke županije. Za vijećnika Skupštine grada Zagreba ponovno je izabran i na izborima 1997. U svojstvu vijećnika obavlja niz javnih poslova, od kojih valja istaknuti članstvo u Povjerenstvu za dodjelu stipendija grada Zagreba u pet uzastopnih mandata (1996. – 2000.).

Ilustracija: Image by Racool_studio on Freepik

Godišnja inventura ususret 30. rođendanu

Još je jedna godina za nama i vrijeme je za inventuru 2023. godine na FER-ovom strojnom provjerniku pravopisa Ispravi.me.

Prethodne je godine Ispravi.me, poslužujući preko 600 tisuća korisnika, obradio 7,45 milijuna tekstova s ukupno 1,74 milijarde riječi, tj. u prosjeku 234 riječi po tekstu. Ako se to pretvori u radne sate, ispada da je automatskom provjerom pravopisa tih 7,3 milijuna kartica korisnicima ušteđeno 363 tisuće dana, tj. ukupno gotovo 1700 radnih godina, ako kao parametre uzmemo 20 kartica teksta na dan i osmosatno radno vrijeme.

Kao i godinu ranije, prema podacima koje daje Google Analytics, nešto više od 85 % korisnika dolazi iz Hrvatske, njih 7 % dolazi iz Bosne i Hercegovine, dok uslugu koristi i po 1 % korisnika iz Njemačke, Srbije, Austrije i Slovenije. Najviše je korisnika u dobnoj skupini od 25 do 35 godine (njih četvrtina), no ove godine najmanje je korisnika mlađih od 24 godine (tek 10 %).

Ukupno je sustav pronašao 4,86 milijuna različitih pogrešaka koje su se u tekstovima pojavile 30,32 milijuna puta, što znači da i dalje na svakih 60-ak ispravnih riječi dolazi jedna pogrešna.

Najčešće pogreške

Top-lista grešaka nije se značajno mijenjala u odnosu na posljednje godine: najčešće se griješi pišući “slijedeći” umjesto “sljedeći”, “riješenje” umjesto “rješenje”, “promjeniti” umjesto “promijeniti”, “mogučnost” umjesto “mogućnost”, “če” i “čemo” umjesto “će” i “ćemo”, “več” umjesto “već”. Vrlo često korisnici uopće ne koriste dijakritike, što ne bismo trebali smatrati pravopisnom pogreškom, nego pripisati želji za brzim pisanjem, posebno na pametnim telefonima. Zamjetno je i često pisanje riječi “svo” umjesto “sve”, “niko” umjesto “nitko”, “šta” umjesto “što”, “vjerovatno” umjesto “vjerojatno” ili “projekat” umjesto “projekt”. Pri vrhu je i pogrešno pisanje negacije pa tako “ne bi” postaje “nebi”, a “ne znam” postaje “neznam”. “Sa mnom” često postaje “samnom”. Očekivano, 10 % najčešćih pogrešnih riječi pojavljuje se u gotovo polovici svih pronađenih pogrešaka.

Usluga Ispravi.me osim klasičnih zatipaka ispravlja i česte gramatičke te stilske pogreške – takvih je pronađeno 300 tisuća, a pojavile su se 3,2 milijuna puta. U takve pogreške ubrajamo sintagme “s obzirom da” (treba “s obzirom na to da”), “na taj način” (bolje je “tako”) ili “na način da” (bolje je “tako da”), “zajedno s” (najčešće je dovoljno “s”), grozomorno “iz razloga što” (ispravno je “zato što”), iritantno administrativno “nismo u mogućnosti” (a lakše je napisati “ne možemo”). Tu je i pogrešna upotreba riječi “ukoliko”, umjesto koje, ako ne dolazi u paru s “utoliko”, treba pisati “ako”. Korisnici griješe i kod pisanja futura (npr. “biti će” umjesto “bit će”). Pri vrhu ljestvice nalazi se i pogrešno korištenje prijedloga “s”, tj. “sa” te sintagma “da li”.

Analiza višegodišnjih zapisa o ispravcima koje korisnici izabiru od ponuđenih opcija (preko 33 milijuna pogrešaka i ispravaka) pokazala je sljedeće:

  • 18,3 % svih pogrešaka posljedica je nekorištenja dijakritika,
  • 7 % svih pogrešaka posljedica je pogrešnog pisanja “je” umjesto “ije”,
  • 6,3 % svih pogrešaka posljedica je pogrešnog pisanja “č” umjesto “ć”,
  • 5,4 % svih pogrešaka predstavlja pogrešno pisanje prijedloga “sa” umjesto “s” (za razliku od 0,4 % pogrešaka pisanja “s” umjesto “sa”),
  • 5 % svih pogrešaka predstavlja pogrešno pisanje “ije” umjesto “je”,
  • 3,4 % svih pogrešaka predstavlja pogrešno pisanje “ć” umjesto “č”.

Nove funkcionalnosti

Krajem prošle godine usluga je obogaćena novim funkcionalnostima, promijenjeno je sučelje za nuđenje ispravaka, a dio programskog koda na poslužiteljskoj strani napisan je iznova, čime je brzina odgovora utrostručena. Nove funkcionalnosti uključuju prepoznavanje ispravnog oblika pisanja datuma (s razmakom iza točke i nazivom mjeseca u genitivu), dodavanje razmaka između broja i mjerne jedinice ili naziva valute, provjeru pisanja rednih brojeva (npr. ispravljanje “1-og” ili “3-eg”, “1940-tih” ili “1000-ih”), ispravljanje parova “tokom/tijekom”, “budući/budući da”, “zahtjeva/zahtijeva” na temelju frekvencije pojavljivanja izraza u kojima se koriste i sličnog. Predlažu se i ispravci suvišnih razmaka ispred znakova interpunkcije te iza otvorenih ili ispred zatvorenih zagrada. U planu su i nova poboljšanja, uglavnom temeljena na n-gramskom modelu hrvatskoga jezika koji se gradi u sklopu usluge provjere pravopisa. Mjereno pojavnicama, taj sustav višestruko nadmašuje opseg svih knjiga tiskanih na hrvatskom jeziku od Gutenberga do danas, dajući izvrsnu podlogu za big data obrade.

Ove godine obilježit ćemo i tridesetu obljetnicu postojanja usluge, koja je prve 22 godine živjela pod akronimom Hrvatskog akademskog spelling checkera – Haschecka (čita se “Hašek”). Od javne objave usluge 21. ožujka 1994. godine kad se ona koristila putem elektroničke pošte, preko uvođenja web-sučelja 2003. godine, Hašek je do danas obradio gotovo 63 milijuna tekstova s nešto više od 16 milijarda riječi, čime je, prema navedenim parametrima, korisnicima uštedio više od 15,5 tisuća radnih godina sričućeg čitanja teksta.


Ilustracija: Image by Racool_studio on Freepik

Ispravi.me

Najčešće pogreške u 2022. godini

Uslugu je 2022. godine prema podacima s Google Analyticsa koristilo 423 tisuće korisnika s preko 2,5 milijuna obrađenih tekstova, čime se ukupni broj korisnika od 2008. godine povećao na 2,7 milijuna korisnika sa  17 milijuna obrada. Prosječno je pogrešno napisana jedna od 60 riječi zaprimljenih na obradu. Nešto više od 80 % korisnika dolazi iz Hrvatske, njih 7 % dolazi iz Bosne i Hercegovine, dok uslugu koristi i oko 1 % korisnika iz Njemačke, Srbije, Austrije i Slovenije. Najviše je korisnika u dobnoj skupini od 25 do 35 godine (njih četvrtina), slijede mlađi od 24, a zatim dob korisnika progresivno pada od 35 godina prema starijima.

Većina riječi i pogrešaka ponavlja se iz godine u godinu, a (i) ove godine najčešće se griješilo u pisanju sljedećih riječi:

  • šta -> što
  • če -> će
  • tiće -> tiče
  • riješenje -> rješenje
  • slijedeće -> sljedeće
  • ko -> tko
  • mogučnosti -> mogućnosti
  • promjeniti -> promijeniti
  • slijedeći -> sljedeći
  • čemo -> ćemo
  • mogučnost -> mogućnost
  • primjetiti -> primijetiti
  • več -> već
  • djete -> dijete
  • primjetio -> primijetio
  • riješenja -> rješenja
  • reči -> reći
  • primjetili -> primijetili
  • vjerovatno -> vjerojatno
  • razumijeti -> razumjeti
  • primjeniti -> primijeniti

Često se umjesto „kvakastih“ slova koriste njihove „beskvake“ varijante, a značajan broj korisnika ne zna da se „sa mnom“, „ne bi“ ili „ne mogu“ pišu razdvojeno, a da je „bismo“ jedna riječ. Vrlo često se griješi i s izrazima:

  • s obzirom da -> s obzirom na to da
  • biti će -> bit će
  • obzirom da -> s obzirom na to da
  • ukoliko -> ako
  • iz razloga što -> zato što
  • zato jer -> zato što

Za 2023. godinu planirana su dodatna poboljšanja usluge, uvođenjem novih funkcionalnosti (npr. prepoznavanje pogrešaka u pisanju datuma, prepoznavanje pogrešaka u punktuaciji, sklanjanje kratica i stranih imena i slično), ali i promjene u korisničkom sučelju. Dakako, nastavlja se i rad na održavanju n-gramskog sustava (n = 1, …, 7) u kojemu su pohranjeni sljedovi od n sukcesivnih riječi iz obrađivanih tekstova s potvrdom svake riječi u Hašekovu rječniku, upotpunjeno učestalošću pojedinog n-grama u ukupno obrađenome korpusu. Mjereno pojavnicama, taj sustav višestruko nadmašuje opseg svih knjiga tiskanih na hrvatskom jeziku od Gutenberga do danas, dajući izvrsnu podlogu za big data obrade.

Briga o usluzi i dalje počiva na umirovljenom profesoru FER-a Šandoru Dembitzu i donedavnom dekanu Gordanu Gledecu, koji uz pomoć studenata razvijaju i unapređuju uslugu.

25 godina Hašeka

AUTOR: Šandor Dembitz

OBJAVLJENO: Jezik, god. 66, br. 4-5, str. 138-150. Rad je primljen 2. travnja 2019., prihvaćen za tisak 7. listopada 2019. i nakon tiskanja pretvoren u ovaj oblik s dopuštenjem uredništva Jezika.

Uvod

Ime iz naslova čitatelja vjerojatno najprije podsjeća na Dobrog vojaka Švejka a ponekog, možda, i na Ljudevita Jonkea, prvog urednika Jezika, prevoditelja romana na hrvatski. Za razliku od Čeha Jaroslava Hašeka, koji je svoju svjetski poznatu satiru pisao tijekom i nakon Velikoga rata, hrvatski je vojnik Švejk – pridjev „dobar“ namjerno je izostavljen – svoj Hašek počeo pisati tijekom Domovinskoga rata, te ga i dandanas dopisuje.

Hašek je pohrvaćeni oblik akronima Hascheck, izvedenog iz naziva Hrvatski akademski spelling checker, i označava jezgrenu komponentu mrežnog pravopisnog provjernika koji u različitim oblicima, danas na adresi https://ispravi.me/, od 21. ožujka 1994. stoji na raspolaganju svima koji žele da im se tekst prije objavljivanja strojno provjeri.

Danas, u guglzoiku, spellchecking nije posebno atraktivno područje prirodnojezičnih tehnologija, što u domaćim okvirima potvrđuje spominjanje Hašeka u knjizi Hrvatski jezik u digitalnom dobu, u kojoj mu je posvećena jedna jedina rečenica na 26. stranici: „On-line Hrvatski akademski spelling checker (Hascheck) postoji od 1994. i još uvijek je u uporabi.“ U citiranoj se monografiji njezini autori, svi odreda barem jednom izabrani za člana-suradnika HAZU-a, iscrpno bave temama danas opredmećenim u Google Translateu ili Google Dictateu itd. Jedino im je promakla činjenica da je Hašek davna hrvatska anticipacija istih, ali što se tu može.

Čemu uopće on-line spellchecking? U paleoguglzoiku, dok su se Amerikanci još intenzivno bavili pravopisnim provjernicima, o problemu je napisano i ovo:

„Recept za izradu gulaša od slona započinje s: prvo ulovi slona. Ako vaš recept za izradu pravopisnog provjernika započinje s: prvo pronađi sve valjane riječi-različnice u engleskom jeziku, vjerojatno ćete brzo uvidjeti da je puno lakše napraviti ukusni gulaš od slona.“ [1]

Lako je predočiv američki lovac, opremljen puškom za uspavljivanje, kako si lovi svoga slona. Što da radi njegov hrvatski parnjak, oboružan kamenom sjekirom, ako slučajno uspije ošamutiti svoga mamuta? „Na internet s njime, jer inače gulaša nema!“ Da je ovo paleolitičko razmišljanje bilo ispravno potvrđuje činjenica da danas, osim Microsoftova pravopisnog provjernika za hrvatski, korisnicima hrvatskoga u stvarnosti za te svrhe još jedino Hašek stoji na raspolaganju. Prije dvadesetak godina konvencionalnih hrvatskih pravopisnih provjernika bilo je za na lopate bacati, ali nisu preživjeli. Međunarodnim veletvrtkama šaka jada ne može konkurirati po modelu: „vidjela žaba kako potkivaju konja pa i sama digla nogu“. Za takve izazove ipak treba malo soli u glavi. Da je izazivač strancima na koncu pokazao tko je tko na domaćem bunjištu, potvrđuje i nedavna usporedba.

Što je napravljeno?

Kako je Hašek nastao, čemu sve služi, kako radi i još puno toga zainteresirani čitatelj Jezika može pronaći u Kolu i Filologiji [2]. Stoga će ovdje ukratko biti prikazano samo ono što je u 25 godina napravljeno a da ima neku vrijednost.

Hašekov je rječnik od početnih 100.000 različnica hrvatskog općejezičnog fonda u 25 godina strogo nadziranog učenja, nadziranoga radi očuvanja preciznosti rječnika, narastao na:

  • 1.051.189 različnica hrvatskog općejezičnog fonda;
  • 957.620 različnica hrvatskog posebnojezičnog, dominantno imenskog fonda;
  • 70.528 različnica engleskog općejezičnog fonda, u kojemu nema onih riječi koje se identično pišu u engleskome i hrvatskome, npr. atom ili zebra.

Engleski leksik je uključen u Hašekov rječnik jer je engleski jezik današnja lingua franca. Čak se i u Hrvatskoj jezičnoj riznici, stomilijunskom dijakronijskom korpusu sa stoljetnim rasponom tekstova, koji su sastavili kroatisti, javlja 13.175 različnica iz engleskog dijela Hašekova rječnika (najučestaliji je određeni član the s ukupno 7.988 pojavljivanja), koje tvore 0,4 % cjelovitoga korpusa Riznice. Uzimajući u obzir i ukošene oblike engleskih riječi tipa rolla, rollu itd., udio engleštine u Riznici penje se do 0,8 %, što odgovara razini zatipkovno-pravopisnih grešaka u njoj. Inače, Hašekov bi rječnik, kada bi ga netko želio tiskati, tražio najmanje 3 standardna leksikografska sveska.

U 25 godina usluzi je pristupljeno s 1.368.702 IP-adrese iz 177 vršnih internetskih domena, pretežito zemalja. Prikaz opsega pružene usluge po vršnim domenama dan je u Dodatku ovom radu. Prema evidenciji HTTP kolačića, tj. tragu koji svaki korisnik ostavlja za sobom nakon obavljene obrade, uslugu je koristilo oko milijun osoba. U Tablici 1. prikazana je ukupnost 25-godišnjeg Hašekovog usluživanja najvažnijih vršnih domena s nekoliko bitnih parametara.

Izvorišta prometa Obrađeni korpus [pojavnica] Udio po izvorištima [%] Prosječno prekrivanje korpusa rječnikom [%] Prosječni udio zatipkovno-pravopisnih grešaka u korpusu [%]
Hrvatska 6.313.123.913 87,26 98,47 1,50
BiH 460.404.455 6,36 97,17 2,81
Srbija [3] 58.941.003 0,81 97,31 2,67
Njemačka 58.714.427 0,81 98,13 1,83
SAD 54.830.162 0,76 98,67 1,31
Ostala 289.082.052 4,00 97,68 2,29
Ukupno 7.235.096.012 100,00 98,34 1,62

Tablica 1.

Obrađeni korpus od 7,2 Gpojavnica (gigapojavnica) odgovara korpusu od 30 milijuna autorskih kartica teksta i 6 puta je veći od „najvećeg hrvatskog korpusa hrWaC“, kojim se na 35. stranici diči uvodno citirana monografija, što je samo još jedna potvrda da kod malih primjereno osmišljeni pristupi znaju polučiti bolje rezultate od nekritičkog slijeđenja velikih po žabljem modelu.

Ono što zabrinjava jest podatak koji upućuje da se hrvatski urednije piše u SAD-u negoli u samoj Hrvatskoj (posljednji stupac Tablice 1.), ali to je pitanje kojim bi se morale pozabaviti hrvatske obrazovne vlasti. Poziv se opravdava činjenicom da su unatrag nekoliko posljednjih godina one bile vrlo izdašne u dodjeljivanju nagrade „Ivan Filipović“ za značajna ostvarenja u odgojno-obrazovnoj djelatnosti hrvatskim normativistima, kojima je zadaća hrvatske učenike uputiti kako treba uredno pisati na hrvatskom jeziku. Nas sretnima čine priznanja sljedeće vrste:

Poštovani, pohvala za vašu stranicu https://ispravi.me/! Nisam izvorna govornica hrvatskog jezika i teško mi pada pohvatati sve gramatičke cake. Vaša stranica mi daje samopouzdanja jer učim pri svakom pisanju. Hvala puno i samo naprijed! Lp, Tena [4]

Hašek je odavno prestao biti konvencionalni pravopisni provjernik. Ispravljanje gramatičkih grešaka započelo je mijenjanjem nepostojećeg glagolskog priloga prošlog, primjerice „slijedivši“, u valjani glagolski prilog sadašnji, tj. „slijedeći“, i obrnuto, „proslijedeći“ u „proslijedivši“. Čak ni pismeni korisnici hrvatskoga nisu više sasvim sigurni, vjerojatno zbog gubitka aorista, odnosno imperfekta u svakodnevnoj uporabi, koji su hrvatski glagoli svršeni, a koji nesvršeni. Bavljenje „nekonvencionalnim greškama“ nastavljeno je s kreiranjem hrvatskog n-gramskog sustava, koji je omogućio da se kontekstno prepoznaju, po potrebi i isprave, učestale gramatičke i stilske greške u pisanju na hrvatskome.

Skupljanje i uređivanje hrvatskih n-grama započelo je, potaknuto projektom Google Translate, sredinom 2007. godine. N-gramski je sustav nužna podatkovna podloga za suočavanje s izazovima kao što su strojno prevođenje, strojna pretvorba govora u tekst itd. U Tablici 2. nalazi se usporedni prikaz hrvatskoga s dva najveća Googleova n-gramska sustava s početka rečenoga projekta.

Engleski
WaC
1,025 Tpojavnica
Kineski
WaC
883 Gpojavnica
Hrvatski
Hašekov korpus
7,2 Gpojavnica
1-grami 13.588.391 1.616.150 5.757.442
2-grami 314.843.401 281.107.315 265.171.603
3-grami 977.069.902 1.024.642.142 918.083.221
4-grami 1.313.818.354 1.348.990.533 1.390.001.665
5-grami 1.176.470.663 1.256.043.325 1.463.796.046
Ukupno 3.795.790.711 3.912.399.465 4.042.809.977

Tablica 2.

Google se poslužio cjelokupnim WWW-om kao tekstovnim repozitorijem, odnosno tzv. Web as Corpus (WaC) pristupom – isti je poslužio i za dobivanje maloprije spomenutoga „najvećeg hrvatskog korpusa“ – i čestotnošću n-grama, primijenivši tzv. cut-off kriterij, da bi dobio gore prikazane sustave. To u hrvatskom slučaju ne može voditi do usporedivih rezultata, ali do usporedivih se rezultata dolazi ako se iskoriste Hašekove obrade i leksičnost kao kriterij za uvrštavanje n-grama u bazu, tj. da su konstituenti svih n-grama riječi s potvrdom u Hašekovom rječniku. Valja napomenuti da preko 50 % unigrama u hrvatskom slučaju tvore različnice-brojevi, no već s n ≥ 2 udio n-grama s takvim konstituentima pada ispod 2 %.

Hašekov 25-godišnji društveni doprinos može se sažeti u sljedećem:

  1. Ušteđeno je oko 10.000 radnih godina sričućega čitanja, koje bi se bez usluge potrošile radi otkrivanja i otklanjanja grešaka, neizostavnih pratiteljica nastajanja novoga teksta.
  2. Stvoren je hrvatski n-gramski sustav, podatkovna podloga nužna za uspješno suočavanje s izazovima koji stoje pred hrvatskim jezičnim tehnolozima, čiji je opseg veći od opsega svih knjiga koje su od Gutenberga do danas tiskane na hrvatskom jeziku.

Kako je usluga https://ispravi.me/ zapravo predlektoriranje, osmišljena da bi se uređivaču teksta olakšao i skratio najnekreativniji, a vrlo zamorni dio posla, izračun prvoga doprinosa polazi od:

  • davna lektorska norma kretala se između 10 i 20 autorskih kartica teksta dnevno;
  • radna godina prema europskom standardu broji 1.720 radnih sati, odnosno 215 radnih dana.

Hašek je obradi 30.000.000 autorskih kartica teksta, pa računajte.

Opseg korpusa svi knjiga tiskanih od Gutenberga do 2010. godine broji 18,2 Tpojavnica [5], iz čega slijedi procjene da sve knjige ikada tiskane na hrvatskome tvore korpus čiji opseg ne premašuje 20 Gpojavnica. Opseg hrvatskog n-gramskog sustava, mjeren pojavnicama, računa se iz podataka posljednjega stupca Tablice 2. na sljedeći način:

5i = 1 (broj_i_grama) · (i + 1) = 20,2 Gpojavnica

i na tome se temelji navedena veličina drugoga doprinosa.

Hašek je ovoliko opstao zahvaljujući uplatama manje od jednog promila njegovih korisnika, koji ga rabe ili su ga rabili u profesionalne svrhe. Skrb o usluzi počiva na leđima aktualnog dekana FER-a i njegovog umirovljenika, čije je zdravlje dobrano narušeno. Srećom, obojica još dišu.

Što nije napravljeno?

Vijest o postojanju hrvatskog n-gramskog sustava potaknula ja Francuze, koji rade na sustavu Ariane, da predlože da se njihov francusko-ruski par, razvijan od vremena kada je Francuska pod de Gaulleom napustila NATO, metodom samonadopunjavanja (engl. bootstrapping) pretvori u francusko-hrvatski par za strojno prevođenje. Prijedlog je djelovao zdravo, jer je nudio mogućnost da se u razumnom roku s malim ulaganjima dođe do visokokvalitetnog sustava za strojno prevođenje s francuskoga na hrvatski, i obrnuto. O kakvoj se kvaliteti prevođenja razmišljalo dovoljno govori podatak da je za benchmarking, tj. usporedbu pokazatelja kakvoće prevođenja, odabran Saint-Exupéryjev Le Petit Prince, kod nas davno preveden od strane jedne Splićanke kao Mali princ, potom u izdanju iz 2011. preimenovan u Malog kraljevića. Međutim, od zamisli se nije daleko stiglo, jer ni tražena sredstva za pokrivanje materijalnih troškova projekta nisu odobrena. Zašto?

Hrvatska politika, bilo koje vrste, nikada nije ozbiljno shvaćala Digitalnu deklaraciju međuovisnosti, političku najavu guglzoika napisanu od strane osobe koja je dobila Nobelovu nagradu za mir 2007. godine. Posebno je njezinu drugu točku:

„Moramo prevladati naše jezične barijere razvijajući stvarnovremenske sustave za strojno govorno prevođenje, tako da svatko na svijetu može razgovarati s bilo kim drugim“

ona doživljavala kao science fiction. Izravni dokazi s početka guglzoika za potkrjepu ove tvrdnje trebali bi se nalaziti u arhivima MZO-a, HAZU-a i IHJJ-a. Nešto svježiji, premda neizravni dokaz slijedi:

  • iz adresnih raspona Hrvatskog sabora (IP –adrese 194.152.219.0 – 194.152.219.255, odnosno 195.29.174.0 – 195.29.175.255) u 25 godina obrađena su 2.872 teksta koji su tvorili korpus od 864.479 pojavnica, od čega je 99,94 % prometa ostvareno u posljednjih 15 mjeseci, od početka 2018. do konca ožujka 2019.;
  • iz adresnog raspona Europskog parlamenta (IP-adrese 136.173.0.0 – 136.173.255.255) Hašek je od početka 2013. do konca ožujka 2019. zaprimio na obradu 14.522 teksta koji su tvorili korpus od 2.122.054 pojavnice, s manje-više jednolikom razdiobom prometa u vremenu.

Dostatno.

U govornotehnološkom segmentu (strojna tvorba govora, odnosno strojno pretvaranje govora u tekst) jednostavnija rješenja (strojna tvorba govora, upravljanje govorom) na hrvatskom tržištu nude slovenske i srpske tvrtke, jer hrvatskih tvrtki, koje bi im konkurirale, jednostavno nema. No, pravo vrhnje u ovom području bere Newton Technologies Adria, lokalna podružnica češke tvrtke, koja je nedavno Ministarstvu pravosuđa RH prodala sustav za pretvorbu kontinuiranoga govora u tekst „s pripadajućim specijaliziranim uređajima za diktiranje za 800 korisnika“ za 33,5 milijuna kuna. Uzalud svi prijedlozi davno upućeni Hrvatskoj zakladi za znanost da je nastupilo vrijeme za pokretanje projekata ciljanih prema razvoju hrvatskih govornotehnoloških proizvoda. Uzalud dokazivanja da se uporabljivi prototipovi sustava, kako za strojnu tvorbu govora [6], tako i za pretvaranje kontinuiranoga govora u tekst [7], dadu brzo napraviti, i to bez ikakvih financijskih ulaganja, samo temeljeno na dobrim domaćim podatkovnim podlogama i radu ne doktoranada, već diplomanata. Izgleda da je u Hrvatskoj isplativije sufinancirati tuđi nego poticati vlastiti tehnološki razvoj, čak i kada je u pitanju jezik bez kojega bi Hrvatska bila tek zemljopisna odrednica. Valja napomenuti da su prije 25 godina Česi i Hrvati dijelili istu razinu razvijenosti prirodnojezičnih tehnologija [8].

Zaključak

Prije 150 godina pokrenuta je izrada tzv. Akademijina rječnika, grandioznoga projekta koji je trajao preko 100 godina, da bi se pokazalo kako je hrvatski ravnopravan svim drugim europskim jezicima. U današnjoj su Europi svi jezici nazivno ravnopravni, no u stvarnosti su neki nešto ravnopravniji, kao u onoj poznatoj životinjskoj farmi. Za male narode, njihovu kulturu i identitet, nužno je stoga da u 21. stoljeću izbore, i putem jezičnih tehnologija, svoje mjesto pod suncem ravnopravnosti. Malo je područja nad kojima danas mali narod može iskazivati potpuni suverenitet kao što je to njegov jezik.

Jasno je da se od suvereniteta uvijek može odustajati, ako za to postoje valjani razlozi. Takva odustajanja imaju svoju cijenu i u pravilu počivaju na političkim procjenama. O cijenama je ovdje bilo nešto riječi, a za političke procjene Hašekov autor nije mjerodavan. Može samo iskazati svoju bojazan da će se hrvatskom jeziku do konca 21. stoljeća vratiti status Küchensprachea, kakav je imao prije Akademijina rječnika, odustanu li Hrvati od razvoja jezičnih tehnologija za vlastiti jezik. Ovaj rad upućuje da je takav scenarij, na autorovu veliku žalost, danas već na djelu. Čemu su se onda Strossmayer i toliki nakon njega uopće trudili, neki i ginuli?

DODATAK

Prikaz opsega pružene usluge po vršnim domenama

Budući da su nazivi vršnih domena uzeti iz američke baze, prikaz je pisan engleskim pravopisom.

IP-domains (countries) #IP-addresses #Texts Corpus [tokens]
1. Afghanistan 14 128 10,907
2. Albania 665 3,808 652,605
3. Algeria 20 40 7,319
4. Andorra 6 22 5,172
5. Angola 2 5 194
6. Anonymous Proxy 20 1,646 330,606
7. Argentina 104 492 168,571
8. Armenia 7 41 13,557
9. Asia/Pacific Region 11 67 13,578
10. Australia 738 7,590 1,869,227
11. Austria 7,019 129,741 25,148,812
12. Azerbaijan 13 26 2,868
13. Bahrain 4 9 279
14. Bangladesh 7 18 14,873
15. Barbados 5 40 2,865
16. Belarus 32 78 24,734
17. Belgium 1,608 25,464 5,409,281
18. Belize 7 292 41,935
19. Bermuda 1 1 41
20. Bolivia 10 98 47,783
21. Bosnia and Herzegovina 108,122 1,491,045 460,404,455
22. Botswana 1 15 10,887
23. Bouvet Island 1 7 42,037
24. Brazil 212 975 196,390
25. British Virgin Islands 3 13 2,784
26. Brunei 1 1 928
27. Bulgaria 306 12,359 1,272,561
28. Burkina Faso 1 1 19
29. Burundi 3 16 695
30. Cambodia 115 695 91,950
31. Cameroon 14 22 83,891
32. Canada 1,190 43,247 9,996,040
33. Cape Verde 2 10 63
34. Chile 58 309 124,996
35. China 371 5,498 1,344,131
36. Colombia 53 428 85,234
37. Congo – Brazzaville 1 8 717
38. Congo – Kinshasa 4 30 4,419
39. Costa Rica 22 70 12,677
40. Côte d’Ivoire 6 78 26,673
41. Croatia 1,155,346 23,142,519 6,313,123,913
42. Cuba 4 4 50
43. Curaçao 1 1 125
44. Cyprus 47 236 51,506
45. Czech Republic 890 35,282 7,002,622
46. Denmark 564 11,565 1,799,119
47. Dominican Republic 4 31 1,114
48. Ecuador 17 83 10,697
49. Egypt 83 652 26,395
50. El Salvador 5 99 15,377
51. Estonia 1,503 12,057 3,123,082
52. Ethiopia 15 116 28,273
53. Europe 1,398 96,952 15,193,772
54. Faroe Islands 3 11 848
55. Finland 248 4,546 962,307
56. France 2,027 109,255 20,372,694
57. French Polynesia 4 14 6,946
58. Gambia 1 1 1
59. Georgia 35 156 27,077
60. Germany 17,675 293,479 58,714,427
61. Ghana 4 5 1,000
62. Gibraltar 1 2 444
63. Greece 357 1,533 477,706
64. Grenada 13 40 9,442
65. Guadeloupe 2 2 3,010
66. Guatemala 5 49 7,369
67. Guernsey 1 3 662
68. Haiti 1 1 163
69. Honduras 1 1 45
70. Hong Kong SAR China 175 1,239 215,751
71. Hungary 1,601 18,159 4,801,973
72. Iceland 62 299 118,901
73. India 329 1,116 334,232
74. Indonesia 158 522 157,330
75. Iran 30 117 21,279
76. Iraq 73 151 20,819
77. Ireland 2,098 18,091 4,936,897
78. Isle of Man 5 59 18,481
79. Israel 133 430 137,631
80. Italy 3,050 49,308 8,844,232
81. Jamaica 11 37 12,695
82. Japan 216 1,792 322,026
83. Jersey 1 2 190
84. Jordan 27 66 104,807
85. Kazakhstan 32 167 21,420
86. Kenya 34 798 101,094
87. Kuwait 37 122 55,197
88. Kyrgyzstan 6 12 5,744
89. Laos 19 62 12,999
90. Latvia 123 1,118 261,875
91. Lebanon 12 34 4,674
92. Liberia 1 1,029 284,667
93. Libya 5 12 4,655
94. Liechtenstein 12 2,489 366,166
95. Lithuania 2,236 12,556 2,950,112
96. Luxembourg 539 4,412 1,231,743
97. Macau SAR China 3 8 1,206
98. Madagascar 5 8 833
99. Malawi 14 171 692,180
100. Malaysia 98 335 68,028
101. Maldives 6 8 357
102. Malta 102 924 142,161
103. Martinique 1 1 1,310
104. Mauritania 2 3 2,790
105. Mauritius 20 51 6,205
106. Mexico 171 1,320 358,737
107. Moldova 106 1,763 499,313
108. Monaco 22 390 44,370
109. Mongolia 2 9 204
110. Montenegro 5,921 74,412 26,743,505
111. Morocco 59 226 42,278
112. Mozambique 4 22 6,768
113. Myanmar (Burma) 31 625 62,308
114. Nepal 21 103 26,308
115. Netherlands 2,299 59,282 15,222,549
116. New Zealand 104 988 188,779
117. Nicaragua 10 18 12,338
118. Nigeria 33 2,015 232,345
119. North Macedonia 1,653 18,334 4,433,953
120. Norway 360 5,474 1,982,203
121. Oman 115 628 48,591
122. Pakistan 17 79 4,449
123. Palestinian Territories 1 1 7
124. Panama 19 231 91,467
125. Paraguay 1 1 5
126. Peru 35 224 23,228
127. Philippines 95 382 51,338
128. Pitcairn Islands 1 2 249
129. Poland 2,358 45,167 12,304,620
130. Portugal 419 3,151 778,821
131. Puerto Rico 5 40 12,507
132. Qatar 93 1,815 494,898
133. Réunion 2 23 1,959
134. Romania 567 19,195 3,749,730
135. Russia 512 8,487 1,759,307
136. Rwanda 2 2 90
137. Saint Kitts and Nevis 3 40 29,618
138. Saint Lucia 2 2 182
139. Satellite Provider 4 11 665
140. Saudi Arabia 53 439 67,714
141. Senegal 10 38 57,054
142. Serbia 9,676 88,909 58,941,003
143. Seychelles 62 42,806 6,526,067
144. Sierra Leone 1 2 6
145. Singapore 158 956 707,089
146. Slovakia 466 9,813 1,946,409
147. Slovenia 12,774 246,846 33,146,688
148. South Africa 78 803 225,069
149. South Korea 85 323 52,287
150. South Sudan 1 6 2,200
151. Spain 1,384 13,014 6,896,783
152. Sri Lanka 31 46 7,340
153. Sudan 6 12 1,249
154. Suriname 1 1 73
155. Sweden 1,829 50,094 7,935,319
156. Switzerland 1,647 27,318 8,642,473
157. Syria 5 9 302
158. Taiwan 56 214 64,589
159. Tajikistan 2 2 108
160. Tanzania 37 96 33,855
161. Thailand 809 3,378 1,151,445
162. Timor-Leste 11 57 9,244
163. Togo 1 1 694
164. Tunisia 13 73 16,137
165. Turkey 631 3,990 2,102,011
166. Uganda 7 17 3,342
167. Ukraine 337 4,731 2,499,272
168. United Arab Emirates 336 1,600 375,077
169. United Kingdom 3,992 142,487 24,480,273
170. United States 6,467 266,984 54,830,162
171. Uruguay 6 13 3,681
172. Uzbekistan 8 19 573
173. Vatican City 6 18 2,570
174. Venezuela 3 5 461
175. Vietnam 347 2,903 465,490
176. Zambia 8 42 4,609
177. Zimbabwe 1 2 5
TOTAL 1,368,702 26,701,365 7,235,096,012
Last update: Mon Apr 1 08:19:41 CEST 2019

Prema dostupnim MaxMindovim GeoIP podatcima, hrvatska vršna domena raspolaže s ukupno 2.818.597 IP-adresa, od kojih dobar dio nije izravno dostupan krajnjim korisnicima interneta. Prema podatcima iz gornjega prikaza proizlazi da je 41 % hrvatskih IP-adresa koristilo Hašekovu uslugu, iz čega slijedi da je on nedvojbeno infrastrukturna usluga u Hrvatskoj. Uzimajući u obzir udio Hrvata u populaciji BiH te činjenicu da je 13 % bosanskohercegovačkih IP-adresa koristilo istu uslugu, zaključak se može protegnuti i na tu zemlju. Specifičnost Hašeka kao hrvatske infrastrukturne usluge jest ta da nikada nikakve veze nije imao, unatoč svim nastojanjima da se takav status promijeni, sa zaduženima za skrb o nacionalnim interesima. Izvjesno je da to tako ne može ići do u nedogled, ako ni radi čega drugoga onda radi smrtnosti njegova održavatelja.

Bilješke

[1] Bentley, J.: A Spelling Checker, Communications of the ACM, 28(5), 1985., str. 460.

[2] Dembitz, Š.: Funkcionalna leksikografija mrežnoga pravopisnog provjernika, Filologija, 58(2012), str. 55-98, HAZU, 2012.

[3] Uključuje i promet iniciran iz Republike Kosovo. Premda je po ISO-3166-1 standardu Kosovu već dodijeljena vršna domena KO, razdvajanje vršnih domena Kosova i Srbije još nije obavljeno.

[4] Citiranu poruku je 27. siječnja 2019. Hašeku (hascheck@fer.hr) uputila Tena Ćorić, osoba rođena i odrasla u Švicarskoj.

[5] Michel, J.-B., et al.: Quantitative Analysis of Culture Using Millions of Digitized Books, Science, Vol. 331, Issue 6014, pp. 176-182, 2011.

[6] Šoić, R.: Sinteza hrvatskog govora uporabom sustava Festival, diplomski rad br. 74, FER, Zagreb, 2010.

[7] Bajo, D., Turković, D., Dembitz, Š.: Rapid Prototyping of a Croatian Large Vocabulary Continuous Speech Recognition System, Proceedings of the IARIA, pp. 13-18, Curran Associates, Red Hook, NY, 2014.

[8] Dembitz, Š.: Automatizacija postupka otkrivanja grešaka u tekstu u novim telekomunikacijskim službama, doktorska disertacija, ETF-Zagreb, 1993., str. 5.

Novo ime i korisničko sučelje usluge

Nakon nekoliko godina osvježeno je i integrirano sučelje usluge i promijenjen njen naziv. Sustav je dugo testiran, međutim, mogući su problemi pri korištenju i provjeri teksta.

Ako primijetite da rezultati koje ste dobili nisu dobri ili uočite pogrešku u radu usluge, javite nam se elektroničkom poštom. Navedite do kakve je greške došlo te svakako priložite tekst koji ste slali na obradu.

Ispravi.Me

Ispravi.me novi je naziv web-sučelja usluge strojne provjere pravopisa. Sučelje osigurava upisivanje, uređivanje, provjeru i ispravljanje teksta. Aplikaciju je moguće konfigurirati tako da se provjera pravopisa pokreće automatski prilikom operacije copy/paste, a  ispravljeni tekst može se automatski upisati u clipboard za daljnje korištenje u drugim aplikacijama. Također, omogućeno je stvaranje i održavanje vlastitog rječnika.

Hascheck

Hascheck [Hašek] je pogonski alat koji obavlja provjeru pravopisa. On se nalazi u pozadini (na poslužitelju) i obrađuje tekstove koje zaprima na provjeru. Rezultate vraća aplikaciji korisnika u odgovarajućem formatu. Moguć je pristup usluzi iz vlastitih aplikacija. Krajnjem je korisniku nevidljiv.

Stari Hašek

Nekadašnje korisničko sučelje koje je nudilo rudimentarnu provjeru pravopisa (tzv. “stari Hašek”) ugašeno je. Sva funkcionalnost prisutna je u novom sučelju. Stari Hašek već se godinama nije održavao i vrijeme ga je pregazilo, iako ga je po inerciji koristio znatan broj korisnika.

Najčešće pogreške korisnika

Od 2009. godine Hašek bilježi ispravke korisnika koji svoje tekstove uređuju putem web-aplikacije. Iz tih podataka – radi se o preko 9 i pol milijuna zabilježenih parova grešaka i ispravaka – analizirali smo najčešće pogreške u 2015. godini.

Najčešće pogreške Hašekovih korisnika u 2015. bile su:

  1. nebi -> ne bi – 1850 puta
  2. tiće -> tiče – 1232
  3. riješenje -> rješenje – 998
  4. preged -> pregled – 941
  5. mogučnosti -> mogućnosti – 867
  6. čemo -> ćemo – 828
  7. slijedeće -> sljedeće – 805
  8. znaći -> znači – 786
  9. mogučnost -> mogućnost – 786