Zašto koristiti ispravi.me, a ne ChatGPT?

Blog

U digitalnom okruženju u kojem sve češće koristimo umjetnu inteligenciju za pisanje i uređivanje tekstova, često se postavlja pitanje: koji je alat bolji za provjeru pravopisa i gramatike – specijalizirani sustav poput ispravi.me ili generativni AI alat opće namjene, poput ChatGPT-a, Geminija ili bilo kojeg drugog sličnog modela?

Dok su veliki jezični modeli (LLM) dizajnirani da razumiju i stvaraju jezik u najširem smislu, specijalizirani alati razvijeni su s ciljem točne, normativne provjere jezika. Drugim riječima – jedan alat „razmišlja” kao urednik, a drugi djeluje kao lektor.

Iako su sustavi poput ChatGPT-a, Geminija ili drugih generativnih AI alata iznimno moćni u razumijevanju i stvaranju jezika, njihov primarni cilj nije normativna jezična provjera. S druge strane, alati poput ispravi.me razvijeni su upravo s tom svrhom — za preciznu provjeru pravopisa, gramatike i stila hrvatskoga jezika.

Zašto je ispravi.me bolji izbor za provjeru tekstova na hrvatskom jeziku

Tri najvažnija razloga su:

Normativna utemeljenost – ispravi.me se oslanja na rječnike i gramatike koje preporučuju jezikoslovne institucije (npr. Institut za hrvatski jezik). Njegova pravila su eksplicitno temeljena na normi.
Dosljednost – za istu će pogrešku uvijek ponuditi isti ispravak, jer radi prema fiksnim pravilima. ChatGPT, pak, može dati različite prijedloge ovisno o kontekstu razgovora.
Predvidljivost naspram vjerojatnosti – ChatGPT se temelji na vjerojatnosti i predviđa što „najvjerojatnije slijedi“. ispravi.me primjenjuje pravila: provjerava nalazi li se riječ u rječniku i je li struktura gramatički ispravna.

No, to nije sve!

Specijalizacija – ispravi.me je alat stvoren s jednom svrhom: ispraviti pravopisne, gramatičke i stilske pogreške u hrvatskom jeziku. ChatGPT je univerzalni alat koji može obaviti lekturu, ali mu to nije primarna funkcija.
Fokus na specifičnosti hrvatskoga jezika – hrvatski jezik složen je i bogat oblicima (padeži, glagolski vid, razlikovanje ije/je, č/ć). ispravi.me je precizno „istreniran” na tim izazovima. ChatGPT, koji pokriva desetke jezika, može previdjeti takve suptilnosti.
Objašnjenje pogrešaka – specijalizirani alati često nude objašnjenje („piše se odvojeno”, „ne slaže se subjekt i predikat”). ChatGPT to može, ali tek ako ga izričito pitate.
Korisničko sučelje – ispravi.me ima pregledno sučelje namijenjeno lekturi: pogreške su označene, a prijedlozi jasno istaknuti. Kod ChatGPT-a treba ručno komunicirati („provjeri ovaj tekst…”), što je sporije i manje pregledno.
Nema “haluciniranja” – ChatGPT ponekad „izmišlja” informacije. U lekturi to može značiti da ispravlja točno u netočno ili uvodi nepostojeće pravilo. ispravi.me ne “halucinira”!
Poštivanje autorova stila – ChatGPT često preoblikuje rečenice kako bi „zvučale bolje”. ispravi.me ne mijenja stil, nego ispravlja samo stvarne pogreške, zadržavajući autorov izraz.
Brzina i učinkovitost – za čistu lekturu jednostavnije je kopirati tekst u alat i odmah vidjeti pogreške nego voditi razgovor s AI-jem.
Točnost u hvatanju tipfelera i dijakritika – specijalizirani alati izvrsni su u prepoznavanju tipfelera („hrvastki” → „hrvatski”) i dosljednoj provjeri znakova (č, ć, š, ž, đ).
Privatnost podataka – kod alata poput ispravi.me jasno je navedeno da se tekst koristi isključivo za provjeru. Kod velikih modela, tekst može (ovisno o postavkama) biti korišten za daljnje treniranje.
Ažurnost s jezičnim promjenama – tim iza ispravi.me kontinuirano prati novosti u jeziku i ažurira bazu riječima i pravilima. ChatGPT koristi podatke koji mogu biti stari godinu ili dvije.
Ne „prekorigira” – LLM-ovi ponekad mijenjaju gramatički ispravne rečenice jer im „zvuče” neobično. ispravi.me prepoznaje da su ispravne i ne intervenira.
Prepoznavanje tipičnih pogrešaka – razlikuje, primjerice, „s” i „sa” ili pravilno pisanje negacije uz glagole. ChatGPT takve pogreške prepoznaje tek ako su statistički česte.

Ukratko:

ispravi.me je poput digitalnog lektora koji je diplomirao kroatistiku i s pravopisom u ruci pomno provjerava svaku riječ. Precizan je, brz i dosljedan normi.
ChatGPT je više urednički asistent – kreativan, kontekstualno svjestan i usmjeren na cjelokupnu kvalitetu teksta (ideju, stil, ton). Dobar je za oblikovanje i nadahnuće, ali ne i za strogo normativnu provjeru.

Za preciznu, normativnu provjeru hrvatskog jezika – specijalizirani alat poput ispravi.me uvijek je pouzdaniji izbor.

(Ovaj tekst sastavio je Gemini, uredio ga je ChatGPT, a prompt zadao i ishod nadzirao čovjek).

Ispravljanje tekstova s posebnim formatiranjem za društvene mreže

Blog

Prateći korištenje usluge ispravi.me primijetili smo da korisnici ponekad šalju na ispravljanje tekst u kojem se nalazi veliki broj neprepoznatih znakovnih nizova, što rezultira ispisom velikog broja pogrešaka koje se ne vide u ispravljenom tekstu. Najčešće se radi o tekstovima koji su naredbom copy/paste ubačeni u obrazac za ispravljanje, a u kojima je dio riječi napisan drugačijim podebljanim (boldanim) ili ukošenim (italic) slovima, vrlo često kao objave na društvenim mrežama, ponekad popraćene i jednostavnim grafičkim elementima (emoji), npr. korištenjem usluge https://texteditor.com/bold-text/facebook/ ili slične:

Kad se takav tekst preda na provjeru, sve što je pisano regularnim slovima obradi se uredno i dojave se pogreške, no posebno formatirani tekst za društvene mreže rezultira prikazom pogrešnog broja pogrešaka, a pogreške koje bi se mogle pojaviti u takvom podebljanom tekstu ne prijavljuju se korisniku:

Stoga prilikom lijepljenja (paste) teksta u obrazac za ispravljanje sva takva slova pretvaramo u normalizirani oblik, uklanjajući pritom sva posebna formatiranja. Grafičke elemente pritom ne mijenjamo.

Preporučujemo da svoj tekst u našem strojnom provjerniku provjerite i ispravite prije ukrašavanja, jer ćete u suprotnom isti posao morati raditi dvaput!

Trideset nam je godina tek…

Blog

U četvrtak, 21. ožujka 2024. godine, obilježavamo 30 godina javnog služenja korisnicima. Pokrenut 1994. godine, Hrvatski akademski spelling checker (Hascheck) prvih devet godina bio je dostupan kao usluga elektroničke pošte, a od 2003. godine preselio se na web. U tih prvih 30 godina, Hascheck je postao neizostavan alat za mnoge koji traže pouzdanu provjeru pravopisa na hrvatskom jeziku.

Ovaj značajan jubilej dolazi uz impresivne brojke koje svjedoče o Hascheckovoj važnosti i širokoj primjeni: dosad je uspješno obradio više od 63,5 milijuna tekstova iz 199 zemalja svijeta te provjerio 16,2 milijarde riječi. Na njega se svakodnevno oslanja gotovo deset tisuća korisnika iz Hrvatske, susjednih zemalja, ali i šire.

Uz ovu važnu obljetnicu, prisjećamo se i nedavno preminulog profesora Šandora Dembitza, čiji je neizmjerni doprinos bio ključan u stvaranju ove izuzetno korisne alatne usluge. Šandor Dembitz ostavio je neizbrisiv trag u području obrade prirodnoga jezika i jedan je od pionira uvođenja informacijskih jezičnih tehnologija u hrvatski jezik.

Hascheck ne posustaje, krajem 2023. godine obogaćen je novim funkcionalnostima (npr. ispravljanje datuma, suvišnih razmaka, pisanja jedinica i postotaka iza brojeva), a značajno je ubrzana kontekstna provjera teksta. U bliskoj budućnosti planiramo funkcionalnost pronalaženja i ispravljanja zatipaka koji rezultiraju ispravnim riječima, parafraziranja i stilskog uređivanja teksta te ispravljanja gramatičkih pogrešaka.

Preminuo Šandor Dembitz, autor Hašeka

Blog

U Zagrebu je u nedjelju, 11. veljače 2024. godine, samo dan prije svog 73. rođendana, preminuo Šandor Dembitz, umirovljeni izvanredni profesor i djelatnik Zavoda za osnove elektrotehnike i električka mjerenja FER-a, autor Hrvatskog strojnog provjernika pravopisa Haschecka.

Iskreno mu zahvaljujemo na njegovom vizionarskom doprinosu u razvoju i promociji jezičnih tehnologija, posebno na njegovoj predanosti razvoju usluge strojne provjere pravopisa, koja je značajno unaprijedila pejzaž jezičnih tehnologija hrvatskog jezika, a koja krajem ožujka obilježava 30 godina postojanja.

Velika mu hvala na svemu što je učinio za Fakultet i za Zavod. U ime Uprave FER-a, Zavoda te svih zaposlenika izražavamo najdublju sućut njegovoj obitelji, prijateljima, kolegama i suradnicima.

Neka počiva u miru.

Šandor Dembitz rođen je 12. veljače 1951. godine u Splitu. Osnovnu školu i gimnaziju završio je u Novom Sadu. Studij elektrotehnike upisao je 1969. godine na Elektrotehničkom fakultetu Sveučilišta u Zagrebu, gdje je i diplomirao u prosincu 1973. na smjeru Elektronika, usmjerenje Telekomunikacije i informatika. Poslijediplomski studij upisao je na ETF-u 1974. god. Magistrirao je s radom “Analiza jezika za komunikaciju s procesorski upravljanim telekomunikacijskim sistemom” u travnju 1981. godine, pod mentorstvom profesora M. Tkalića. Doktorsku disertaciju pod naslovom “Automatizacija postupaka otkrivanja grešaka u tekstu u novim telekomunikacijskim službama” obranio je u prosincu 1993., pod mentorstvom prof. dr. sc. Enver Šehović.

Rad na Elektrotehničkom fakultetu započeo je 1. veljače 1974. godine na grupi predmeta Osnove elektrotehnike, prvo u zvanju asistenta, zatim u zvanju znanstvenog asistenta od listopada 1981. te u zvanju višeg asistenta od veljače 1997. Za docenta je izabran u siječnju 1999., a za izvanrednog profesora u ožujku 2004. godine.

Od 1974. do 1997. znanstvenu i stručnu djelatnost ostvaruje radom na projektima vezanim uz Zavod za telekomunikacije FER-a. Autor je, odnosno suautor sedamdesetak znanstvenih radova te tridesetak stručnih radova (članaka, studija, elaborata, ekspertiza). Sudjelovao je s radovima na brojnim znanstvenim skupovima u zemlji i inozemstvu.

Najvrjednije istraživačko i razvojno postignuće Šandora Dembitza je Hascheck [Hašek], računalna usluga za strojnu provjeru teksta pisanog hrvatskim jezikom, danas dostupan na adresi ispravi.me. Hašek je prvi javni hrvatski spellchecker. Njegovu vrijednost potvrđuje i činjenica da mu je bila povjerena strojna provjera teksta Hrvatskog leksikona, kapitalnog djela hrvatske kulture. Hašekovo bavljenje Hrvatskim leksikonom prvi je slučaj sustavne strojne provjere teksta u slavenskim leksikografijama.

S uspostavom Republike Hrvatske intenzivnije se javno angažira. Na lokalnim izborima 1995. izabran je za vijećnika Skupštine grada Zagreba i Skupštine Zagrebačke županije. Za vijećnika Skupštine grada Zagreba ponovno je izabran i na izborima 1997. U svojstvu vijećnika obavlja niz javnih poslova, od kojih valja istaknuti članstvo u Povjerenstvu za dodjelu stipendija grada Zagreba u pet uzastopnih mandata (1996. – 2000.).

Ilustracija: Image by Racool_studio on Freepik

Godišnja inventura ususret 30. rođendanu

U 2023. godini smo za 600 tisuća korisnika pregledali 7,45 milijuna tekstova i otkrili 4,86 milijuna različitih pravopisnih grešaka. Svojim smo korisnicima uštedjeli 3 tisuće radnih godina sričućeg čitanja!

Blog

Još je jedna godina za nama i vrijeme je za inventuru 2023. godine na FER-ovom strojnom provjerniku pravopisa Ispravi.me.

Prethodne je godine Ispravi.me, poslužujući preko 600 tisuća korisnika, obradio 7,45 milijuna tekstova s ukupno 1,74 milijarde riječi, tj. u prosjeku 234 riječi po tekstu. Ako se to pretvori u radne sate, ispada da je automatskom provjerom pravopisa tih 7,3 milijuna kartica korisnicima ušteđeno 363 tisuće dana, tj. ukupno gotovo 1700 radnih godina, ako kao parametre uzmemo 20 kartica teksta na dan i osmosatno radno vrijeme.

Kao i godinu ranije, prema podacima koje daje Google Analytics, nešto više od 85 % korisnika dolazi iz Hrvatske, njih 7 % dolazi iz Bosne i Hercegovine, dok uslugu koristi i po 1 % korisnika iz Njemačke, Srbije, Austrije i Slovenije. Najviše je korisnika u dobnoj skupini od 25 do 35 godine (njih četvrtina), no ove godine najmanje je korisnika mlađih od 24 godine (tek 10 %).

Ukupno je sustav pronašao 4,86 milijuna različitih pogrešaka koje su se u tekstovima pojavile 30,32 milijuna puta, što znači da i dalje na svakih 60-ak ispravnih riječi dolazi jedna pogrešna.

Najčešće pogreške

Top-lista grešaka nije se značajno mijenjala u odnosu na posljednje godine: najčešće se griješi pišući “slijedeći” umjesto “sljedeći”, “riješenje” umjesto “rješenje”, “promjeniti” umjesto “promijeniti”, “mogučnost” umjesto “mogućnost”, “če” i “čemo” umjesto “će” i “ćemo”, “več” umjesto “već”. Vrlo često korisnici uopće ne koriste dijakritike, što ne bismo trebali smatrati pravopisnom pogreškom, nego pripisati želji za brzim pisanjem, posebno na pametnim telefonima. Zamjetno je i često pisanje riječi “svo” umjesto “sve”, “niko” umjesto “nitko”, “šta” umjesto “što”, “vjerovatno” umjesto “vjerojatno” ili “projekat” umjesto “projekt”. Pri vrhu je i pogrešno pisanje negacije pa tako “ne bi” postaje “nebi”, a “ne znam” postaje “neznam”. “Sa mnom” često postaje “samnom”. Očekivano, 10 % najčešćih pogrešnih riječi pojavljuje se u gotovo polovici svih pronađenih pogrešaka.

Usluga Ispravi.me osim klasičnih zatipaka ispravlja i česte gramatičke te stilske pogreške – takvih je pronađeno 300 tisuća, a pojavile su se 3,2 milijuna puta. U takve pogreške ubrajamo sintagme “s obzirom da” (treba “s obzirom na to da”), “na taj način” (bolje je “tako”) ili “na način da” (bolje je “tako da”), “zajedno s” (najčešće je dovoljno “s”), grozomorno “iz razloga što” (ispravno je “zato što”), iritantno administrativno “nismo u mogućnosti” (a lakše je napisati “ne možemo”). Tu je i pogrešna upotreba riječi “ukoliko”, umjesto koje, ako ne dolazi u paru s “utoliko”, treba pisati “ako”. Korisnici griješe i kod pisanja futura (npr. “biti će” umjesto “bit će”). Pri vrhu ljestvice nalazi se i pogrešno korištenje prijedloga “s”, tj. “sa” te sintagma “da li”.

Analiza višegodišnjih zapisa o ispravcima koje korisnici izabiru od ponuđenih opcija (preko 33 milijuna pogrešaka i ispravaka) pokazala je sljedeće:

18,3 % svih pogrešaka posljedica je nekorištenja dijakritika,
7 % svih pogrešaka posljedica je pogrešnog pisanja “je” umjesto “ije”,
6,3 % svih pogrešaka posljedica je pogrešnog pisanja “č” umjesto “ć”,
5,4 % svih pogrešaka predstavlja pogrešno pisanje prijedloga “sa” umjesto “s” (za razliku od 0,4 % pogrešaka pisanja “s” umjesto “sa”),
5 % svih pogrešaka predstavlja pogrešno pisanje “ije” umjesto “je”,
3,4 % svih pogrešaka predstavlja pogrešno pisanje “ć” umjesto “č”.

Nove funkcionalnosti

Krajem prošle godine usluga je obogaćena novim funkcionalnostima, promijenjeno je sučelje za nuđenje ispravaka, a dio programskog koda na poslužiteljskoj strani napisan je iznova, čime je brzina odgovora utrostručena. Nove funkcionalnosti uključuju prepoznavanje ispravnog oblika pisanja datuma (s razmakom iza točke i nazivom mjeseca u genitivu), dodavanje razmaka između broja i mjerne jedinice ili naziva valute, provjeru pisanja rednih brojeva (npr. ispravljanje “1-og” ili “3-eg”, “1940-tih” ili “1000-ih”), ispravljanje parova “tokom/tijekom”, “budući/budući da”, “zahtjeva/zahtijeva” na temelju frekvencije pojavljivanja izraza u kojima se koriste i sličnog. Predlažu se i ispravci suvišnih razmaka ispred znakova interpunkcije te iza otvorenih ili ispred zatvorenih zagrada. U planu su i nova poboljšanja, uglavnom temeljena na n-gramskom modelu hrvatskoga jezika koji se gradi u sklopu usluge provjere pravopisa. Mjereno pojavnicama, taj sustav višestruko nadmašuje opseg svih knjiga tiskanih na hrvatskom jeziku od Gutenberga do danas, dajući izvrsnu podlogu za big data obrade.

Ove godine obilježit ćemo i tridesetu obljetnicu postojanja usluge, koja je prve 22 godine živjela pod akronimom Hrvatskog akademskog spelling checkera – Haschecka (čita se “Hašek”). Od javne objave usluge 21. ožujka 1994. godine kad se ona koristila putem elektroničke pošte, preko uvođenja web-sučelja 2003. godine, Hašek je do danas obradio gotovo 63 milijuna tekstova s nešto više od 16 milijarda riječi, čime je, prema navedenim parametrima, korisnicima uštedio više od 15,5 tisuća radnih godina sričućeg čitanja teksta.

Ilustracija: Image by Racool_studio on Freepik

Najčešće pogreške u 2022. godini

Kao i prethodnih godina, objavljujemo neke od ključnih podataka o posjećenosti usluge te popis najčešćih zatipaka i jezičnih pogrešaka koje su korisnici usluge počinili u protekloj godini.

Blog

Uslugu je 2022. godine prema podacima s Google Analyticsa koristilo 423 tisuće korisnika s preko 2,5 milijuna obrađenih tekstova, čime se ukupni broj korisnika od 2008. godine povećao na 2,7 milijuna korisnika sa 17 milijuna obrada. Prosječno je pogrešno napisana jedna od 60 riječi zaprimljenih na obradu. Nešto više od 80 % korisnika dolazi iz Hrvatske, njih 7 % dolazi iz Bosne i Hercegovine, dok uslugu koristi i oko 1 % korisnika iz Njemačke, Srbije, Austrije i Slovenije. Najviše je korisnika u dobnoj skupini od 25 do 35 godine (njih četvrtina), slijede mlađi od 24, a zatim dob korisnika progresivno pada od 35 godina prema starijima.

Većina riječi i pogrešaka ponavlja se iz godine u godinu, a (i) ove godine najčešće se griješilo u pisanju sljedećih riječi:

šta -> što
če -> će
tiće -> tiče
riješenje -> rješenje
slijedeće -> sljedeće
ko -> tko
mogučnosti -> mogućnosti
promjeniti -> promijeniti
slijedeći -> sljedeći
čemo -> ćemo
mogučnost -> mogućnost
primjetiti -> primijetiti
več -> već
djete -> dijete
primjetio -> primijetio
riješenja -> rješenja
reči -> reći
primjetili -> primijetili
vjerovatno -> vjerojatno
razumijeti -> razumjeti
primjeniti -> primijeniti

Često se umjesto „kvakastih“ slova koriste njihove „beskvake“ varijante, a značajan broj korisnika ne zna da se „sa mnom“, „ne bi“ ili „ne mogu“ pišu razdvojeno, a da je „bismo“ jedna riječ. Vrlo često se griješi i s izrazima:

s obzirom da -> s obzirom na to da
biti će -> bit će
obzirom da -> s obzirom na to da
ukoliko -> ako
iz razloga što -> zato što
zato jer -> zato što

Za 2023. godinu planirana su dodatna poboljšanja usluge, uvođenjem novih funkcionalnosti (npr. prepoznavanje pogrešaka u pisanju datuma, prepoznavanje pogrešaka u punktuaciji, sklanjanje kratica i stranih imena i slično), ali i promjene u korisničkom sučelju. Dakako, nastavlja se i rad na održavanju n-gramskog sustava (n = 1, …, 7) u kojemu su pohranjeni sljedovi od n sukcesivnih riječi iz obrađivanih tekstova s potvrdom svake riječi u Hašekovu rječniku, upotpunjeno učestalošću pojedinog n-grama u ukupno obrađenome korpusu. Mjereno pojavnicama, taj sustav višestruko nadmašuje opseg svih knjiga tiskanih na hrvatskom jeziku od Gutenberga do danas, dajući izvrsnu podlogu za big data obrade.

Briga o usluzi i dalje počiva na umirovljenom profesoru FER-a Šandoru Dembitzu i donedavnom dekanu Gordanu Gledecu, koji uz pomoć studenata razvijaju i unapređuju uslugu.

25 godina Hašeka

Donosimo izvorni tekst članka o Hašekovih 25 godina rada koji je objavljen u časopisu “Jezik”, god. 66, br. 4-5, str. 138-150. Rad je primljen 2. travnja 2019., prihvaćen za tisak 7. listopada 2019. i nakon tiskanja pretvoren u ovaj oblik s dopuštenjem uredništva Jezika.

Blog

AUTOR: Šandor Dembitz

OBJAVLJENO: Jezik, god. 66, br. 4-5, str. 138-150. Rad je primljen 2. travnja 2019., prihvaćen za tisak 7. listopada 2019. i nakon tiskanja pretvoren u ovaj oblik s dopuštenjem uredništva Jezika.

Uvod

Ime iz naslova čitatelja vjerojatno najprije podsjeća na Dobrog vojaka Švejka a ponekog, možda, i na Ljudevita Jonkea, prvog urednika Jezika, prevoditelja romana na hrvatski. Za razliku od Čeha Jaroslava Hašeka, koji je svoju svjetski poznatu satiru pisao tijekom i nakon Velikoga rata, hrvatski je vojnik Švejk – pridjev „dobar“ namjerno je izostavljen – svoj Hašek počeo pisati tijekom Domovinskoga rata, te ga i dandanas dopisuje.

Hašek je pohrvaćeni oblik akronima Hascheck, izvedenog iz naziva Hrvatski akademski spelling checker, i označava jezgrenu komponentu mrežnog pravopisnog provjernika koji u različitim oblicima, danas na adresi https://ispravi.me/, od 21. ožujka 1994. stoji na raspolaganju svima koji žele da im se tekst prije objavljivanja strojno provjeri.

Danas, u guglzoiku, spellchecking nije posebno atraktivno područje prirodnojezičnih tehnologija, što u domaćim okvirima potvrđuje spominjanje Hašeka u knjizi Hrvatski jezik u digitalnom dobu, u kojoj mu je posvećena jedna jedina rečenica na 26. stranici: „On-line Hrvatski akademski spelling checker (Hascheck) postoji od 1994. i još uvijek je u uporabi.“ U citiranoj se monografiji njezini autori, svi odreda barem jednom izabrani za člana-suradnika HAZU-a, iscrpno bave temama danas opredmećenim u Google Translateu ili Google Dictateu itd. Jedino im je promakla činjenica da je Hašek davna hrvatska anticipacija istih, ali što se tu može.

Čemu uopće on-line spellchecking? U paleoguglzoiku, dok su se Amerikanci još intenzivno bavili pravopisnim provjernicima, o problemu je napisano i ovo:

„Recept za izradu gulaša od slona započinje s: prvo ulovi slona. Ako vaš recept za izradu pravopisnog provjernika započinje s: prvo pronađi sve valjane riječi-različnice u engleskom jeziku, vjerojatno ćete brzo uvidjeti da je puno lakše napraviti ukusni gulaš od slona.“ [1]

Lako je predočiv američki lovac, opremljen puškom za uspavljivanje, kako si lovi svoga slona. Što da radi njegov hrvatski parnjak, oboružan kamenom sjekirom, ako slučajno uspije ošamutiti svoga mamuta? „Na internet s njime, jer inače gulaša nema!“ Da je ovo paleolitičko razmišljanje bilo ispravno potvrđuje činjenica da danas, osim Microsoftova pravopisnog provjernika za hrvatski, korisnicima hrvatskoga u stvarnosti za te svrhe još jedino Hašek stoji na raspolaganju. Prije dvadesetak godina konvencionalnih hrvatskih pravopisnih provjernika bilo je za na lopate bacati, ali nisu preživjeli. Međunarodnim veletvrtkama šaka jada ne može konkurirati po modelu: „vidjela žaba kako potkivaju konja pa i sama digla nogu“. Za takve izazove ipak treba malo soli u glavi. Da je izazivač strancima na koncu pokazao tko je tko na domaćem bunjištu, potvrđuje i nedavna usporedba.

Što je napravljeno?

Kako je Hašek nastao, čemu sve služi, kako radi i još puno toga zainteresirani čitatelj Jezika može pronaći u Kolu i Filologiji [2]. Stoga će ovdje ukratko biti prikazano samo ono što je u 25 godina napravljeno a da ima neku vrijednost.

Hašekov je rječnik od početnih 100.000 različnica hrvatskog općejezičnog fonda u 25 godina strogo nadziranog učenja, nadziranoga radi očuvanja preciznosti rječnika, narastao na:

1.051.189 različnica hrvatskog općejezičnog fonda;
957.620 različnica hrvatskog posebnojezičnog, dominantno imenskog fonda;
70.528 različnica engleskog općejezičnog fonda, u kojemu nema onih riječi koje se identično pišu u engleskome i hrvatskome, npr. atom ili zebra.

Engleski leksik je uključen u Hašekov rječnik jer je engleski jezik današnja lingua franca. Čak se i u Hrvatskoj jezičnoj riznici, stomilijunskom dijakronijskom korpusu sa stoljetnim rasponom tekstova, koji su sastavili kroatisti, javlja 13.175 različnica iz engleskog dijela Hašekova rječnika (najučestaliji je određeni član the s ukupno 7.988 pojavljivanja), koje tvore 0,4 % cjelovitoga korpusa Riznice. Uzimajući u obzir i ukošene oblike engleskih riječi tipa rolla, rollu itd., udio engleštine u Riznici penje se do 0,8 %, što odgovara razini zatipkovno-pravopisnih grešaka u njoj. Inače, Hašekov bi rječnik, kada bi ga netko želio tiskati, tražio najmanje 3 standardna leksikografska sveska.

U 25 godina usluzi je pristupljeno s 1.368.702 IP-adrese iz 177 vršnih internetskih domena, pretežito zemalja. Prikaz opsega pružene usluge po vršnim domenama dan je u Dodatku ovom radu. Prema evidenciji HTTP kolačića, tj. tragu koji svaki korisnik ostavlja za sobom nakon obavljene obrade, uslugu je koristilo oko milijun osoba. U Tablici 1. prikazana je ukupnost 25-godišnjeg Hašekovog usluživanja najvažnijih vršnih domena s nekoliko bitnih parametara.

Izvorišta prometa	Obrađeni korpus [pojavnica]	Udio po izvorištima [%]	Prosječno prekrivanje korpusa rječnikom [%]	Prosječni udio zatipkovno-pravopisnih grešaka u korpusu [%]
Hrvatska	6.313.123.913	87,26	98,47	1,50
BiH	460.404.455	6,36	97,17	2,81
Srbija [3]	58.941.003	0,81	97,31	2,67
Njemačka	58.714.427	0,81	98,13	1,83
SAD	54.830.162	0,76	98,67	1,31
Ostala	289.082.052	4,00	97,68	2,29
Ukupno	7.235.096.012	100,00	98,34	1,62

Tablica 1.

Obrađeni korpus od 7,2 Gpojavnica (gigapojavnica) odgovara korpusu od 30 milijuna autorskih kartica teksta i 6 puta je veći od „najvećeg hrvatskog korpusa hrWaC“, kojim se na 35. stranici diči uvodno citirana monografija, što je samo još jedna potvrda da kod malih primjereno osmišljeni pristupi znaju polučiti bolje rezultate od nekritičkog slijeđenja velikih po žabljem modelu.

Ono što zabrinjava jest podatak koji upućuje da se hrvatski urednije piše u SAD-u negoli u samoj Hrvatskoj (posljednji stupac Tablice 1.), ali to je pitanje kojim bi se morale pozabaviti hrvatske obrazovne vlasti. Poziv se opravdava činjenicom da su unatrag nekoliko posljednjih godina one bile vrlo izdašne u dodjeljivanju nagrade „Ivan Filipović“ za značajna ostvarenja u odgojno-obrazovnoj djelatnosti hrvatskim normativistima, kojima je zadaća hrvatske učenike uputiti kako treba uredno pisati na hrvatskom jeziku. Nas sretnima čine priznanja sljedeće vrste:

Poštovani, pohvala za vašu stranicu https://ispravi.me/! Nisam izvorna govornica hrvatskog jezika i teško mi pada pohvatati sve gramatičke cake. Vaša stranica mi daje samopouzdanja jer učim pri svakom pisanju. Hvala puno i samo naprijed! Lp, Tena [4]

Hašek je odavno prestao biti konvencionalni pravopisni provjernik. Ispravljanje gramatičkih grešaka započelo je mijenjanjem nepostojećeg glagolskog priloga prošlog, primjerice „slijedivši“, u valjani glagolski prilog sadašnji, tj. „slijedeći“, i obrnuto, „proslijedeći“ u „proslijedivši“. Čak ni pismeni korisnici hrvatskoga nisu više sasvim sigurni, vjerojatno zbog gubitka aorista, odnosno imperfekta u svakodnevnoj uporabi, koji su hrvatski glagoli svršeni, a koji nesvršeni. Bavljenje „nekonvencionalnim greškama“ nastavljeno je s kreiranjem hrvatskog n-gramskog sustava, koji je omogućio da se kontekstno prepoznaju, po potrebi i isprave, učestale gramatičke i stilske greške u pisanju na hrvatskome.

Skupljanje i uređivanje hrvatskih n-grama započelo je, potaknuto projektom Google Translate, sredinom 2007. godine. N-gramski je sustav nužna podatkovna podloga za suočavanje s izazovima kao što su strojno prevođenje, strojna pretvorba govora u tekst itd. U Tablici 2. nalazi se usporedni prikaz hrvatskoga s dva najveća Googleova n-gramska sustava s početka rečenoga projekta.

	Engleski WaC 1,025 Tpojavnica	Kineski WaC 883 Gpojavnica	Hrvatski Hašekov korpus 7,2 Gpojavnica
1-grami	13.588.391	1.616.150	5.757.442
2-grami	314.843.401	281.107.315	265.171.603
3-grami	977.069.902	1.024.642.142	918.083.221
4-grami	1.313.818.354	1.348.990.533	1.390.001.665
5-grami	1.176.470.663	1.256.043.325	1.463.796.046
Ukupno	3.795.790.711	3.912.399.465	4.042.809.977

Tablica 2.

Google se poslužio cjelokupnim WWW-om kao tekstovnim repozitorijem, odnosno tzv. Web as Corpus (WaC) pristupom – isti je poslužio i za dobivanje maloprije spomenutoga „najvećeg hrvatskog korpusa“ – i čestotnošću n-grama, primijenivši tzv. cut-off kriterij, da bi dobio gore prikazane sustave. To u hrvatskom slučaju ne može voditi do usporedivih rezultata, ali do usporedivih se rezultata dolazi ako se iskoriste Hašekove obrade i leksičnost kao kriterij za uvrštavanje n-grama u bazu, tj. da su konstituenti svih n-grama riječi s potvrdom u Hašekovom rječniku. Valja napomenuti da preko 50 % unigrama u hrvatskom slučaju tvore različnice-brojevi, no već s n ≥ 2 udio n-grama s takvim konstituentima pada ispod 2 %.

Hašekov 25-godišnji društveni doprinos može se sažeti u sljedećem:

Ušteđeno je oko 10.000 radnih godina sričućega čitanja, koje bi se bez usluge potrošile radi otkrivanja i otklanjanja grešaka, neizostavnih pratiteljica nastajanja novoga teksta.
Stvoren je hrvatski n-gramski sustav, podatkovna podloga nužna za uspješno suočavanje s izazovima koji stoje pred hrvatskim jezičnim tehnolozima, čiji je opseg veći od opsega svih knjiga koje su od Gutenberga do danas tiskane na hrvatskom jeziku.

Kako je usluga https://ispravi.me/ zapravo predlektoriranje, osmišljena da bi se uređivaču teksta olakšao i skratio najnekreativniji, a vrlo zamorni dio posla, izračun prvoga doprinosa polazi od:

davna lektorska norma kretala se između 10 i 20 autorskih kartica teksta dnevno;
radna godina prema europskom standardu broji 1.720 radnih sati, odnosno 215 radnih dana.

Hašek je obradi 30.000.000 autorskih kartica teksta, pa računajte.

Opseg korpusa svi knjiga tiskanih od Gutenberga do 2010. godine broji 18,2 Tpojavnica [5], iz čega slijedi procjene da sve knjige ikada tiskane na hrvatskome tvore korpus čiji opseg ne premašuje 20 Gpojavnica. Opseg hrvatskog n-gramskog sustava, mjeren pojavnicama, računa se iz podataka posljednjega stupca Tablice 2. na sljedeći način:

∑⁵_{i = 1} (broj_i_grama) · (i + 1) = 20,2 Gpojavnica

i na tome se temelji navedena veličina drugoga doprinosa.

Hašek je ovoliko opstao zahvaljujući uplatama manje od jednog promila njegovih korisnika, koji ga rabe ili su ga rabili u profesionalne svrhe. Skrb o usluzi počiva na leđima aktualnog dekana FER-a i njegovog umirovljenika, čije je zdravlje dobrano narušeno. Srećom, obojica još dišu.

Što nije napravljeno?

Vijest o postojanju hrvatskog n-gramskog sustava potaknula ja Francuze, koji rade na sustavu Ariane, da predlože da se njihov francusko-ruski par, razvijan od vremena kada je Francuska pod de Gaulleom napustila NATO, metodom samonadopunjavanja (engl. bootstrapping) pretvori u francusko-hrvatski par za strojno prevođenje. Prijedlog je djelovao zdravo, jer je nudio mogućnost da se u razumnom roku s malim ulaganjima dođe do visokokvalitetnog sustava za strojno prevođenje s francuskoga na hrvatski, i obrnuto. O kakvoj se kvaliteti prevođenja razmišljalo dovoljno govori podatak da je za benchmarking, tj. usporedbu pokazatelja kakvoće prevođenja, odabran Saint-Exupéryjev Le Petit Prince, kod nas davno preveden od strane jedne Splićanke kao Mali princ, potom u izdanju iz 2011. preimenovan u Malog kraljevića. Međutim, od zamisli se nije daleko stiglo, jer ni tražena sredstva za pokrivanje materijalnih troškova projekta nisu odobrena. Zašto?

Hrvatska politika, bilo koje vrste, nikada nije ozbiljno shvaćala Digitalnu deklaraciju međuovisnosti, političku najavu guglzoika napisanu od strane osobe koja je dobila Nobelovu nagradu za mir 2007. godine. Posebno je njezinu drugu točku:

„Moramo prevladati naše jezične barijere razvijajući stvarnovremenske sustave za strojno govorno prevođenje, tako da svatko na svijetu može razgovarati s bilo kim drugim“

ona doživljavala kao science fiction. Izravni dokazi s početka guglzoika za potkrjepu ove tvrdnje trebali bi se nalaziti u arhivima MZO-a, HAZU-a i IHJJ-a. Nešto svježiji, premda neizravni dokaz slijedi:

iz adresnih raspona Hrvatskog sabora (IP –adrese 194.152.219.0 – 194.152.219.255, odnosno 195.29.174.0 – 195.29.175.255) u 25 godina obrađena su 2.872 teksta koji su tvorili korpus od 864.479 pojavnica, od čega je 99,94 % prometa ostvareno u posljednjih 15 mjeseci, od početka 2018. do konca ožujka 2019.;
iz adresnog raspona Europskog parlamenta (IP-adrese 136.173.0.0 – 136.173.255.255) Hašek je od početka 2013. do konca ožujka 2019. zaprimio na obradu 14.522 teksta koji su tvorili korpus od 2.122.054 pojavnice, s manje-više jednolikom razdiobom prometa u vremenu.

Dostatno.

U govornotehnološkom segmentu (strojna tvorba govora, odnosno strojno pretvaranje govora u tekst) jednostavnija rješenja (strojna tvorba govora, upravljanje govorom) na hrvatskom tržištu nude slovenske i srpske tvrtke, jer hrvatskih tvrtki, koje bi im konkurirale, jednostavno nema. No, pravo vrhnje u ovom području bere Newton Technologies Adria, lokalna podružnica češke tvrtke, koja je nedavno Ministarstvu pravosuđa RH prodala sustav za pretvorbu kontinuiranoga govora u tekst „s pripadajućim specijaliziranim uređajima za diktiranje za 800 korisnika“ za 33,5 milijuna kuna. Uzalud svi prijedlozi davno upućeni Hrvatskoj zakladi za znanost da je nastupilo vrijeme za pokretanje projekata ciljanih prema razvoju hrvatskih govornotehnoloških proizvoda. Uzalud dokazivanja da se uporabljivi prototipovi sustava, kako za strojnu tvorbu govora [6], tako i za pretvaranje kontinuiranoga govora u tekst [7], dadu brzo napraviti, i to bez ikakvih financijskih ulaganja, samo temeljeno na dobrim domaćim podatkovnim podlogama i radu ne doktoranada, već diplomanata. Izgleda da je u Hrvatskoj isplativije sufinancirati tuđi nego poticati vlastiti tehnološki razvoj, čak i kada je u pitanju jezik bez kojega bi Hrvatska bila tek zemljopisna odrednica. Valja napomenuti da su prije 25 godina Česi i Hrvati dijelili istu razinu razvijenosti prirodnojezičnih tehnologija [8].

Zaključak

Prije 150 godina pokrenuta je izrada tzv. Akademijina rječnika, grandioznoga projekta koji je trajao preko 100 godina, da bi se pokazalo kako je hrvatski ravnopravan svim drugim europskim jezicima. U današnjoj su Europi svi jezici nazivno ravnopravni, no u stvarnosti su neki nešto ravnopravniji, kao u onoj poznatoj životinjskoj farmi. Za male narode, njihovu kulturu i identitet, nužno je stoga da u 21. stoljeću izbore, i putem jezičnih tehnologija, svoje mjesto pod suncem ravnopravnosti. Malo je područja nad kojima danas mali narod može iskazivati potpuni suverenitet kao što je to njegov jezik.

Jasno je da se od suvereniteta uvijek može odustajati, ako za to postoje valjani razlozi. Takva odustajanja imaju svoju cijenu i u pravilu počivaju na političkim procjenama. O cijenama je ovdje bilo nešto riječi, a za političke procjene Hašekov autor nije mjerodavan. Može samo iskazati svoju bojazan da će se hrvatskom jeziku do konca 21. stoljeća vratiti status Küchensprachea, kakav je imao prije Akademijina rječnika, odustanu li Hrvati od razvoja jezičnih tehnologija za vlastiti jezik. Ovaj rad upućuje da je takav scenarij, na autorovu veliku žalost, danas već na djelu. Čemu su se onda Strossmayer i toliki nakon njega uopće trudili, neki i ginuli?

DODATAK

Prikaz opsega pružene usluge po vršnim domenama

Budući da su nazivi vršnih domena uzeti iz američke baze, prikaz je pisan engleskim pravopisom.

	IP-domains (countries)	#IP-addresses	#Texts	Corpus [tokens]
1.	Afghanistan	14	128	10,907
2.	Albania	665	3,808	652,605
3.	Algeria	20	40	7,319
4.	Andorra	6	22	5,172
5.	Angola	2	5	194
6.	Anonymous Proxy	20	1,646	330,606
7.	Argentina	104	492	168,571
8.	Armenia	7	41	13,557
9.	Asia/Pacific Region	11	67	13,578
10.	Australia	738	7,590	1,869,227
11.	Austria	7,019	129,741	25,148,812
12.	Azerbaijan	13	26	2,868
13.	Bahrain	4	9	279
14.	Bangladesh	7	18	14,873
15.	Barbados	5	40	2,865
16.	Belarus	32	78	24,734
17.	Belgium	1,608	25,464	5,409,281
18.	Belize	7	292	41,935
19.	Bermuda	1	1	41
20.	Bolivia	10	98	47,783
21.	Bosnia and Herzegovina	108,122	1,491,045	460,404,455
22.	Botswana	1	15	10,887
23.	Bouvet Island	1	7	42,037
24.	Brazil	212	975	196,390
25.	British Virgin Islands	3	13	2,784
26.	Brunei	1	1	928
27.	Bulgaria	306	12,359	1,272,561
28.	Burkina Faso	1	1	19
29.	Burundi	3	16	695
30.	Cambodia	115	695	91,950
31.	Cameroon	14	22	83,891
32.	Canada	1,190	43,247	9,996,040
33.	Cape Verde	2	10	63
34.	Chile	58	309	124,996
35.	China	371	5,498	1,344,131
36.	Colombia	53	428	85,234
37.	Congo – Brazzaville	1	8	717
38.	Congo – Kinshasa	4	30	4,419
39.	Costa Rica	22	70	12,677
40.	Côte d’Ivoire	6	78	26,673
41.	Croatia	1,155,346	23,142,519	6,313,123,913
42.	Cuba	4	4	50
43.	Curaçao	1	1	125
44.	Cyprus	47	236	51,506
45.	Czech Republic	890	35,282	7,002,622
46.	Denmark	564	11,565	1,799,119
47.	Dominican Republic	4	31	1,114
48.	Ecuador	17	83	10,697
49.	Egypt	83	652	26,395
50.	El Salvador	5	99	15,377
51.	Estonia	1,503	12,057	3,123,082
52.	Ethiopia	15	116	28,273
53.	Europe	1,398	96,952	15,193,772
54.	Faroe Islands	3	11	848
55.	Finland	248	4,546	962,307
56.	France	2,027	109,255	20,372,694
57.	French Polynesia	4	14	6,946
58.	Gambia	1	1	1
59.	Georgia	35	156	27,077
60.	Germany	17,675	293,479	58,714,427
61.	Ghana	4	5	1,000
62.	Gibraltar	1	2	444
63.	Greece	357	1,533	477,706
64.	Grenada	13	40	9,442
65.	Guadeloupe	2	2	3,010
66.	Guatemala	5	49	7,369
67.	Guernsey	1	3	662
68.	Haiti	1	1	163
69.	Honduras	1	1	45
70.	Hong Kong SAR China	175	1,239	215,751
71.	Hungary	1,601	18,159	4,801,973
72.	Iceland	62	299	118,901
73.	India	329	1,116	334,232
74.	Indonesia	158	522	157,330
75.	Iran	30	117	21,279
76.	Iraq	73	151	20,819
77.	Ireland	2,098	18,091	4,936,897
78.	Isle of Man	5	59	18,481
79.	Israel	133	430	137,631
80.	Italy	3,050	49,308	8,844,232
81.	Jamaica	11	37	12,695
82.	Japan	216	1,792	322,026
83.	Jersey	1	2	190
84.	Jordan	27	66	104,807
85.	Kazakhstan	32	167	21,420
86.	Kenya	34	798	101,094
87.	Kuwait	37	122	55,197
88.	Kyrgyzstan	6	12	5,744
89.	Laos	19	62	12,999
90.	Latvia	123	1,118	261,875
91.	Lebanon	12	34	4,674
92.	Liberia	1	1,029	284,667
93.	Libya	5	12	4,655
94.	Liechtenstein	12	2,489	366,166
95.	Lithuania	2,236	12,556	2,950,112
96.	Luxembourg	539	4,412	1,231,743
97.	Macau SAR China	3	8	1,206
98.	Madagascar	5	8	833
99.	Malawi	14	171	692,180
100.	Malaysia	98	335	68,028
101.	Maldives	6	8	357
102.	Malta	102	924	142,161
103.	Martinique	1	1	1,310
104.	Mauritania	2	3	2,790
105.	Mauritius	20	51	6,205
106.	Mexico	171	1,320	358,737
107.	Moldova	106	1,763	499,313
108.	Monaco	22	390	44,370
109.	Mongolia	2	9	204
110.	Montenegro	5,921	74,412	26,743,505
111.	Morocco	59	226	42,278
112.	Mozambique	4	22	6,768
113.	Myanmar (Burma)	31	625	62,308
114.	Nepal	21	103	26,308
115.	Netherlands	2,299	59,282	15,222,549
116.	New Zealand	104	988	188,779
117.	Nicaragua	10	18	12,338
118.	Nigeria	33	2,015	232,345
119.	North Macedonia	1,653	18,334	4,433,953
120.	Norway	360	5,474	1,982,203
121.	Oman	115	628	48,591
122.	Pakistan	17	79	4,449
123.	Palestinian Territories	1	1	7
124.	Panama	19	231	91,467
125.	Paraguay	1	1	5
126.	Peru	35	224	23,228
127.	Philippines	95	382	51,338
128.	Pitcairn Islands	1	2	249
129.	Poland	2,358	45,167	12,304,620
130.	Portugal	419	3,151	778,821
131.	Puerto Rico	5	40	12,507
132.	Qatar	93	1,815	494,898
133.	Réunion	2	23	1,959
134.	Romania	567	19,195	3,749,730
135.	Russia	512	8,487	1,759,307
136.	Rwanda	2	2	90
137.	Saint Kitts and Nevis	3	40	29,618
138.	Saint Lucia	2	2	182
139.	Satellite Provider	4	11	665
140.	Saudi Arabia	53	439	67,714
141.	Senegal	10	38	57,054
142.	Serbia	9,676	88,909	58,941,003
143.	Seychelles	62	42,806	6,526,067
144.	Sierra Leone	1	2	6
145.	Singapore	158	956	707,089
146.	Slovakia	466	9,813	1,946,409
147.	Slovenia	12,774	246,846	33,146,688
148.	South Africa	78	803	225,069
149.	South Korea	85	323	52,287
150.	South Sudan	1	6	2,200
151.	Spain	1,384	13,014	6,896,783
152.	Sri Lanka	31	46	7,340
153.	Sudan	6	12	1,249
154.	Suriname	1	1	73
155.	Sweden	1,829	50,094	7,935,319
156.	Switzerland	1,647	27,318	8,642,473
157.	Syria	5	9	302
158.	Taiwan	56	214	64,589
159.	Tajikistan	2	2	108
160.	Tanzania	37	96	33,855
161.	Thailand	809	3,378	1,151,445
162.	Timor-Leste	11	57	9,244
163.	Togo	1	1	694
164.	Tunisia	13	73	16,137
165.	Turkey	631	3,990	2,102,011
166.	Uganda	7	17	3,342
167.	Ukraine	337	4,731	2,499,272
168.	United Arab Emirates	336	1,600	375,077
169.	United Kingdom	3,992	142,487	24,480,273
170.	United States	6,467	266,984	54,830,162
171.	Uruguay	6	13	3,681
172.	Uzbekistan	8	19	573
173.	Vatican City	6	18	2,570
174.	Venezuela	3	5	461
175.	Vietnam	347	2,903	465,490
176.	Zambia	8	42	4,609
177.	Zimbabwe	1	2	5
TOTAL		1,368,702	26,701,365	7,235,096,012
Last update: Mon Apr 1 08:19:41 CEST 2019

Prema dostupnim MaxMindovim GeoIP podatcima, hrvatska vršna domena raspolaže s ukupno 2.818.597 IP-adresa, od kojih dobar dio nije izravno dostupan krajnjim korisnicima interneta. Prema podatcima iz gornjega prikaza proizlazi da je 41 % hrvatskih IP-adresa koristilo Hašekovu uslugu, iz čega slijedi da je on nedvojbeno infrastrukturna usluga u Hrvatskoj. Uzimajući u obzir udio Hrvata u populaciji BiH te činjenicu da je 13 % bosanskohercegovačkih IP-adresa koristilo istu uslugu, zaključak se može protegnuti i na tu zemlju. Specifičnost Hašeka kao hrvatske infrastrukturne usluge jest ta da nikada nikakve veze nije imao, unatoč svim nastojanjima da se takav status promijeni, sa zaduženima za skrb o nacionalnim interesima. Izvjesno je da to tako ne može ići do u nedogled, ako ni radi čega drugoga onda radi smrtnosti njegova održavatelja.

Bilješke

[1] Bentley, J.: A Spelling Checker, Communications of the ACM, 28(5), 1985., str. 460.

[2] Dembitz, Š.: Funkcionalna leksikografija mrežnoga pravopisnog provjernika, Filologija, 58(2012), str. 55-98, HAZU, 2012.

[3] Uključuje i promet iniciran iz Republike Kosovo. Premda je po ISO-3166-1 standardu Kosovu već dodijeljena vršna domena KO, razdvajanje vršnih domena Kosova i Srbije još nije obavljeno.

[4] Citiranu poruku je 27. siječnja 2019. Hašeku (hascheck@fer.hr) uputila Tena Ćorić, osoba rođena i odrasla u Švicarskoj.

[5] Michel, J.-B., et al.: Quantitative Analysis of Culture Using Millions of Digitized Books, Science, Vol. 331, Issue 6014, pp. 176-182, 2011.

[6] Šoić, R.: Sinteza hrvatskog govora uporabom sustava Festival, diplomski rad br. 74, FER, Zagreb, 2010.

[7] Bajo, D., Turković, D., Dembitz, Š.: Rapid Prototyping of a Croatian Large Vocabulary Continuous Speech Recognition System, Proceedings of the IARIA, pp. 13-18, Curran Associates, Red Hook, NY, 2014.

[8] Dembitz, Š.: Automatizacija postupka otkrivanja grešaka u tekstu u novim telekomunikacijskim službama, doktorska disertacija, ETF-Zagreb, 1993., str. 5.

Novo ime i korisničko sučelje usluge

Nakon nekoliko godina osvježeno je i integrirano sučelje usluge i promijenjen njen naziv.

Blog

Nakon nekoliko godina osvježeno je i integrirano sučelje usluge i promijenjen njen naziv. Sustav je dugo testiran, međutim, mogući su problemi pri korištenju i provjeri teksta.

Ako primijetite da rezultati koje ste dobili nisu dobri ili uočite pogrešku u radu usluge, javite nam se elektroničkom poštom. Navedite do kakve je greške došlo te svakako priložite tekst koji ste slali na obradu.

Ispravi.Me

Ispravi.me novi je naziv web-sučelja usluge strojne provjere pravopisa. Sučelje osigurava upisivanje, uređivanje, provjeru i ispravljanje teksta. Aplikaciju je moguće konfigurirati tako da se provjera pravopisa pokreće automatski prilikom operacije copy/paste, a ispravljeni tekst može se automatski upisati u clipboard za daljnje korištenje u drugim aplikacijama. Također, omogućeno je stvaranje i održavanje vlastitog rječnika.

Hascheck

Hascheck [Hašek] je pogonski alat koji obavlja provjeru pravopisa. On se nalazi u pozadini (na poslužitelju) i obrađuje tekstove koje zaprima na provjeru. Rezultate vraća aplikaciji korisnika u odgovarajućem formatu. Moguć je pristup usluzi iz vlastitih aplikacija. Krajnjem je korisniku nevidljiv.

Stari Hašek

Nekadašnje korisničko sučelje koje je nudilo rudimentarnu provjeru pravopisa (tzv. “stari Hašek”) ugašeno je. Sva funkcionalnost prisutna je u novom sučelju. Stari Hašek već se godinama nije održavao i vrijeme ga je pregazilo, iako ga je po inerciji koristio znatan broj korisnika.