25 godina Hašeka

AUTOR: Šandor Dembitz

OBJAVLJENO: Jezik, god. 66, br. 4-5, str. 138-150. Rad je primljen 2. travnja 2019., prihvaćen za tisak 7. listopada 2019. i nakon tiskanja pretvoren u ovaj oblik s dopuštenjem uredništva Jezika.

Uvod

Ime iz naslova čitatelja vjerojatno najprije podsjeća na Dobrog vojaka Švejka a ponekog, možda, i na Ljudevita Jonkea, prvog urednika Jezika, prevoditelja romana na hrvatski. Za razliku od Čeha Jaroslava Hašeka, koji je svoju svjetski poznatu satiru pisao tijekom i nakon Velikoga rata, hrvatski je vojnik Švejk – pridjev „dobar“ namjerno je izostavljen – svoj Hašek počeo pisati tijekom Domovinskoga rata, te ga i dandanas dopisuje.

Hašek je pohrvaćeni oblik akronima Hascheck, izvedenog iz naziva Hrvatski akademski spelling checker, i označava jezgrenu komponentu mrežnog pravopisnog provjernika koji u različitim oblicima, danas na adresi https://ispravi.me/, od 21. ožujka 1994. stoji na raspolaganju svima koji žele da im se tekst prije objavljivanja strojno provjeri.

Danas, u guglzoiku, spellchecking nije posebno atraktivno područje prirodnojezičnih tehnologija, što u domaćim okvirima potvrđuje spominjanje Hašeka u knjizi Hrvatski jezik u digitalnom dobu, u kojoj mu je posvećena jedna jedina rečenica na 26. stranici: „On-line Hrvatski akademski spelling checker (Hascheck) postoji od 1994. i još uvijek je u uporabi.“ U citiranoj se monografiji njezini autori, svi odreda barem jednom izabrani za člana-suradnika HAZU-a, iscrpno bave temama danas opredmećenim u Google Translateu ili Google Dictateu itd. Jedino im je promakla činjenica da je Hašek davna hrvatska anticipacija istih, ali što se tu može.

Čemu uopće on-line spellchecking? U paleoguglzoiku, dok su se Amerikanci još intenzivno bavili pravopisnim provjernicima, o problemu je napisano i ovo:

„Recept za izradu gulaša od slona započinje s: prvo ulovi slona. Ako vaš recept za izradu pravopisnog provjernika započinje s: prvo pronađi sve valjane riječi-različnice u engleskom jeziku, vjerojatno ćete brzo uvidjeti da je puno lakše napraviti ukusni gulaš od slona.“ [1]

Lako je predočiv američki lovac, opremljen puškom za uspavljivanje, kako si lovi svoga slona. Što da radi njegov hrvatski parnjak, oboružan kamenom sjekirom, ako slučajno uspije ošamutiti svoga mamuta? „Na internet s njime, jer inače gulaša nema!“ Da je ovo paleolitičko razmišljanje bilo ispravno potvrđuje činjenica da danas, osim Microsoftova pravopisnog provjernika za hrvatski, korisnicima hrvatskoga u stvarnosti za te svrhe još jedino Hašek stoji na raspolaganju. Prije dvadesetak godina konvencionalnih hrvatskih pravopisnih provjernika bilo je za na lopate bacati, ali nisu preživjeli. Međunarodnim veletvrtkama šaka jada ne može konkurirati po modelu: „vidjela žaba kako potkivaju konja pa i sama digla nogu“. Za takve izazove ipak treba malo soli u glavi. Da je izazivač strancima na koncu pokazao tko je tko na domaćem bunjištu, potvrđuje i nedavna usporedba.

Što je napravljeno?

Kako je Hašek nastao, čemu sve služi, kako radi i još puno toga zainteresirani čitatelj Jezika može pronaći u Kolu i Filologiji [2]. Stoga će ovdje ukratko biti prikazano samo ono što je u 25 godina napravljeno a da ima neku vrijednost.

Hašekov je rječnik od početnih 100.000 različnica hrvatskog općejezičnog fonda u 25 godina strogo nadziranog učenja, nadziranoga radi očuvanja preciznosti rječnika, narastao na:

1.051.189 različnica hrvatskog općejezičnog fonda;
957.620 različnica hrvatskog posebnojezičnog, dominantno imenskog fonda;
70.528 različnica engleskog općejezičnog fonda, u kojemu nema onih riječi koje se identično pišu u engleskome i hrvatskome, npr. atom ili zebra.

Engleski leksik je uključen u Hašekov rječnik jer je engleski jezik današnja lingua franca. Čak se i u Hrvatskoj jezičnoj riznici, stomilijunskom dijakronijskom korpusu sa stoljetnim rasponom tekstova, koji su sastavili kroatisti, javlja 13.175 različnica iz engleskog dijela Hašekova rječnika (najučestaliji je određeni član the s ukupno 7.988 pojavljivanja), koje tvore 0,4 % cjelovitoga korpusa Riznice. Uzimajući u obzir i ukošene oblike engleskih riječi tipa rolla, rollu itd., udio engleštine u Riznici penje se do 0,8 %, što odgovara razini zatipkovno-pravopisnih grešaka u njoj. Inače, Hašekov bi rječnik, kada bi ga netko želio tiskati, tražio najmanje 3 standardna leksikografska sveska.

U 25 godina usluzi je pristupljeno s 1.368.702 IP-adrese iz 177 vršnih internetskih domena, pretežito zemalja. Prikaz opsega pružene usluge po vršnim domenama dan je u Dodatku ovom radu. Prema evidenciji HTTP kolačića, tj. tragu koji svaki korisnik ostavlja za sobom nakon obavljene obrade, uslugu je koristilo oko milijun osoba. U Tablici 1. prikazana je ukupnost 25-godišnjeg Hašekovog usluživanja najvažnijih vršnih domena s nekoliko bitnih parametara.

Izvorišta prometa	Obrađeni korpus [pojavnica]	Udio po izvorištima [%]	Prosječno prekrivanje korpusa rječnikom [%]	Prosječni udio zatipkovno-pravopisnih grešaka u korpusu [%]
Hrvatska	6.313.123.913	87,26	98,47	1,50
BiH	460.404.455	6,36	97,17	2,81
Srbija [3]	58.941.003	0,81	97,31	2,67
Njemačka	58.714.427	0,81	98,13	1,83
SAD	54.830.162	0,76	98,67	1,31
Ostala	289.082.052	4,00	97,68	2,29
Ukupno	7.235.096.012	100,00	98,34	1,62

Tablica 1.

Obrađeni korpus od 7,2 Gpojavnica (gigapojavnica) odgovara korpusu od 30 milijuna autorskih kartica teksta i 6 puta je veći od „najvećeg hrvatskog korpusa hrWaC“, kojim se na 35. stranici diči uvodno citirana monografija, što je samo još jedna potvrda da kod malih primjereno osmišljeni pristupi znaju polučiti bolje rezultate od nekritičkog slijeđenja velikih po žabljem modelu.

Ono što zabrinjava jest podatak koji upućuje da se hrvatski urednije piše u SAD-u negoli u samoj Hrvatskoj (posljednji stupac Tablice 1.), ali to je pitanje kojim bi se morale pozabaviti hrvatske obrazovne vlasti. Poziv se opravdava činjenicom da su unatrag nekoliko posljednjih godina one bile vrlo izdašne u dodjeljivanju nagrade „Ivan Filipović“ za značajna ostvarenja u odgojno-obrazovnoj djelatnosti hrvatskim normativistima, kojima je zadaća hrvatske učenike uputiti kako treba uredno pisati na hrvatskom jeziku. Nas sretnima čine priznanja sljedeće vrste:

Poštovani, pohvala za vašu stranicu https://ispravi.me/! Nisam izvorna govornica hrvatskog jezika i teško mi pada pohvatati sve gramatičke cake. Vaša stranica mi daje samopouzdanja jer učim pri svakom pisanju. Hvala puno i samo naprijed! Lp, Tena [4]

Hašek je odavno prestao biti konvencionalni pravopisni provjernik. Ispravljanje gramatičkih grešaka započelo je mijenjanjem nepostojećeg glagolskog priloga prošlog, primjerice „slijedivši“, u valjani glagolski prilog sadašnji, tj. „slijedeći“, i obrnuto, „proslijedeći“ u „proslijedivši“. Čak ni pismeni korisnici hrvatskoga nisu više sasvim sigurni, vjerojatno zbog gubitka aorista, odnosno imperfekta u svakodnevnoj uporabi, koji su hrvatski glagoli svršeni, a koji nesvršeni. Bavljenje „nekonvencionalnim greškama“ nastavljeno je s kreiranjem hrvatskog n-gramskog sustava, koji je omogućio da se kontekstno prepoznaju, po potrebi i isprave, učestale gramatičke i stilske greške u pisanju na hrvatskome.

Skupljanje i uređivanje hrvatskih n-grama započelo je, potaknuto projektom Google Translate, sredinom 2007. godine. N-gramski je sustav nužna podatkovna podloga za suočavanje s izazovima kao što su strojno prevođenje, strojna pretvorba govora u tekst itd. U Tablici 2. nalazi se usporedni prikaz hrvatskoga s dva najveća Googleova n-gramska sustava s početka rečenoga projekta.

	Engleski WaC 1,025 Tpojavnica	Kineski WaC 883 Gpojavnica	Hrvatski Hašekov korpus 7,2 Gpojavnica
1-grami	13.588.391	1.616.150	5.757.442
2-grami	314.843.401	281.107.315	265.171.603
3-grami	977.069.902	1.024.642.142	918.083.221
4-grami	1.313.818.354	1.348.990.533	1.390.001.665
5-grami	1.176.470.663	1.256.043.325	1.463.796.046
Ukupno	3.795.790.711	3.912.399.465	4.042.809.977

Tablica 2.

Google se poslužio cjelokupnim WWW-om kao tekstovnim repozitorijem, odnosno tzv. Web as Corpus (WaC) pristupom – isti je poslužio i za dobivanje maloprije spomenutoga „najvećeg hrvatskog korpusa“ – i čestotnošću n-grama, primijenivši tzv. cut-off kriterij, da bi dobio gore prikazane sustave. To u hrvatskom slučaju ne može voditi do usporedivih rezultata, ali do usporedivih se rezultata dolazi ako se iskoriste Hašekove obrade i leksičnost kao kriterij za uvrštavanje n-grama u bazu, tj. da su konstituenti svih n-grama riječi s potvrdom u Hašekovom rječniku. Valja napomenuti da preko 50 % unigrama u hrvatskom slučaju tvore različnice-brojevi, no već s n ≥ 2 udio n-grama s takvim konstituentima pada ispod 2 %.

Hašekov 25-godišnji društveni doprinos može se sažeti u sljedećem:

Ušteđeno je oko 10.000 radnih godina sričućega čitanja, koje bi se bez usluge potrošile radi otkrivanja i otklanjanja grešaka, neizostavnih pratiteljica nastajanja novoga teksta.
Stvoren je hrvatski n-gramski sustav, podatkovna podloga nužna za uspješno suočavanje s izazovima koji stoje pred hrvatskim jezičnim tehnolozima, čiji je opseg veći od opsega svih knjiga koje su od Gutenberga do danas tiskane na hrvatskom jeziku.

Kako je usluga https://ispravi.me/ zapravo predlektoriranje, osmišljena da bi se uređivaču teksta olakšao i skratio najnekreativniji, a vrlo zamorni dio posla, izračun prvoga doprinosa polazi od:

davna lektorska norma kretala se između 10 i 20 autorskih kartica teksta dnevno;
radna godina prema europskom standardu broji 1.720 radnih sati, odnosno 215 radnih dana.

Hašek je obradi 30.000.000 autorskih kartica teksta, pa računajte.

Opseg korpusa svi knjiga tiskanih od Gutenberga do 2010. godine broji 18,2 Tpojavnica [5], iz čega slijedi procjene da sve knjige ikada tiskane na hrvatskome tvore korpus čiji opseg ne premašuje 20 Gpojavnica. Opseg hrvatskog n-gramskog sustava, mjeren pojavnicama, računa se iz podataka posljednjega stupca Tablice 2. na sljedeći način:

∑⁵_{i = 1} (broj_i_grama) · (i + 1) = 20,2 Gpojavnica

i na tome se temelji navedena veličina drugoga doprinosa.

Hašek je ovoliko opstao zahvaljujući uplatama manje od jednog promila njegovih korisnika, koji ga rabe ili su ga rabili u profesionalne svrhe. Skrb o usluzi počiva na leđima aktualnog dekana FER-a i njegovog umirovljenika, čije je zdravlje dobrano narušeno. Srećom, obojica još dišu.

Što nije napravljeno?

Vijest o postojanju hrvatskog n-gramskog sustava potaknula ja Francuze, koji rade na sustavu Ariane, da predlože da se njihov francusko-ruski par, razvijan od vremena kada je Francuska pod de Gaulleom napustila NATO, metodom samonadopunjavanja (engl. bootstrapping) pretvori u francusko-hrvatski par za strojno prevođenje. Prijedlog je djelovao zdravo, jer je nudio mogućnost da se u razumnom roku s malim ulaganjima dođe do visokokvalitetnog sustava za strojno prevođenje s francuskoga na hrvatski, i obrnuto. O kakvoj se kvaliteti prevođenja razmišljalo dovoljno govori podatak da je za benchmarking, tj. usporedbu pokazatelja kakvoće prevođenja, odabran Saint-Exupéryjev Le Petit Prince, kod nas davno preveden od strane jedne Splićanke kao Mali princ, potom u izdanju iz 2011. preimenovan u Malog kraljevića. Međutim, od zamisli se nije daleko stiglo, jer ni tražena sredstva za pokrivanje materijalnih troškova projekta nisu odobrena. Zašto?

Hrvatska politika, bilo koje vrste, nikada nije ozbiljno shvaćala Digitalnu deklaraciju međuovisnosti, političku najavu guglzoika napisanu od strane osobe koja je dobila Nobelovu nagradu za mir 2007. godine. Posebno je njezinu drugu točku:

„Moramo prevladati naše jezične barijere razvijajući stvarnovremenske sustave za strojno govorno prevođenje, tako da svatko na svijetu može razgovarati s bilo kim drugim“

ona doživljavala kao science fiction. Izravni dokazi s početka guglzoika za potkrjepu ove tvrdnje trebali bi se nalaziti u arhivima MZO-a, HAZU-a i IHJJ-a. Nešto svježiji, premda neizravni dokaz slijedi:

iz adresnih raspona Hrvatskog sabora (IP –adrese 194.152.219.0 – 194.152.219.255, odnosno 195.29.174.0 – 195.29.175.255) u 25 godina obrađena su 2.872 teksta koji su tvorili korpus od 864.479 pojavnica, od čega je 99,94 % prometa ostvareno u posljednjih 15 mjeseci, od početka 2018. do konca ožujka 2019.;
iz adresnog raspona Europskog parlamenta (IP-adrese 136.173.0.0 – 136.173.255.255) Hašek je od početka 2013. do konca ožujka 2019. zaprimio na obradu 14.522 teksta koji su tvorili korpus od 2.122.054 pojavnice, s manje-više jednolikom razdiobom prometa u vremenu.

Dostatno.

U govornotehnološkom segmentu (strojna tvorba govora, odnosno strojno pretvaranje govora u tekst) jednostavnija rješenja (strojna tvorba govora, upravljanje govorom) na hrvatskom tržištu nude slovenske i srpske tvrtke, jer hrvatskih tvrtki, koje bi im konkurirale, jednostavno nema. No, pravo vrhnje u ovom području bere Newton Technologies Adria, lokalna podružnica češke tvrtke, koja je nedavno Ministarstvu pravosuđa RH prodala sustav za pretvorbu kontinuiranoga govora u tekst „s pripadajućim specijaliziranim uređajima za diktiranje za 800 korisnika“ za 33,5 milijuna kuna. Uzalud svi prijedlozi davno upućeni Hrvatskoj zakladi za znanost da je nastupilo vrijeme za pokretanje projekata ciljanih prema razvoju hrvatskih govornotehnoloških proizvoda. Uzalud dokazivanja da se uporabljivi prototipovi sustava, kako za strojnu tvorbu govora [6], tako i za pretvaranje kontinuiranoga govora u tekst [7], dadu brzo napraviti, i to bez ikakvih financijskih ulaganja, samo temeljeno na dobrim domaćim podatkovnim podlogama i radu ne doktoranada, već diplomanata. Izgleda da je u Hrvatskoj isplativije sufinancirati tuđi nego poticati vlastiti tehnološki razvoj, čak i kada je u pitanju jezik bez kojega bi Hrvatska bila tek zemljopisna odrednica. Valja napomenuti da su prije 25 godina Česi i Hrvati dijelili istu razinu razvijenosti prirodnojezičnih tehnologija [8].

Zaključak

Prije 150 godina pokrenuta je izrada tzv. Akademijina rječnika, grandioznoga projekta koji je trajao preko 100 godina, da bi se pokazalo kako je hrvatski ravnopravan svim drugim europskim jezicima. U današnjoj su Europi svi jezici nazivno ravnopravni, no u stvarnosti su neki nešto ravnopravniji, kao u onoj poznatoj životinjskoj farmi. Za male narode, njihovu kulturu i identitet, nužno je stoga da u 21. stoljeću izbore, i putem jezičnih tehnologija, svoje mjesto pod suncem ravnopravnosti. Malo je područja nad kojima danas mali narod može iskazivati potpuni suverenitet kao što je to njegov jezik.

Jasno je da se od suvereniteta uvijek može odustajati, ako za to postoje valjani razlozi. Takva odustajanja imaju svoju cijenu i u pravilu počivaju na političkim procjenama. O cijenama je ovdje bilo nešto riječi, a za političke procjene Hašekov autor nije mjerodavan. Može samo iskazati svoju bojazan da će se hrvatskom jeziku do konca 21. stoljeća vratiti status Küchensprachea, kakav je imao prije Akademijina rječnika, odustanu li Hrvati od razvoja jezičnih tehnologija za vlastiti jezik. Ovaj rad upućuje da je takav scenarij, na autorovu veliku žalost, danas već na djelu. Čemu su se onda Strossmayer i toliki nakon njega uopće trudili, neki i ginuli?

DODATAK

Prikaz opsega pružene usluge po vršnim domenama

Budući da su nazivi vršnih domena uzeti iz američke baze, prikaz je pisan engleskim pravopisom.

	IP-domains (countries)	#IP-addresses	#Texts	Corpus [tokens]
1.	Afghanistan	14	128	10,907
2.	Albania	665	3,808	652,605
3.	Algeria	20	40	7,319
4.	Andorra	6	22	5,172
5.	Angola	2	5	194
6.	Anonymous Proxy	20	1,646	330,606
7.	Argentina	104	492	168,571
8.	Armenia	7	41	13,557
9.	Asia/Pacific Region	11	67	13,578
10.	Australia	738	7,590	1,869,227
11.	Austria	7,019	129,741	25,148,812
12.	Azerbaijan	13	26	2,868
13.	Bahrain	4	9	279
14.	Bangladesh	7	18	14,873
15.	Barbados	5	40	2,865
16.	Belarus	32	78	24,734
17.	Belgium	1,608	25,464	5,409,281
18.	Belize	7	292	41,935
19.	Bermuda	1	1	41
20.	Bolivia	10	98	47,783
21.	Bosnia and Herzegovina	108,122	1,491,045	460,404,455
22.	Botswana	1	15	10,887
23.	Bouvet Island	1	7	42,037
24.	Brazil	212	975	196,390
25.	British Virgin Islands	3	13	2,784
26.	Brunei	1	1	928
27.	Bulgaria	306	12,359	1,272,561
28.	Burkina Faso	1	1	19
29.	Burundi	3	16	695
30.	Cambodia	115	695	91,950
31.	Cameroon	14	22	83,891
32.	Canada	1,190	43,247	9,996,040
33.	Cape Verde	2	10	63
34.	Chile	58	309	124,996
35.	China	371	5,498	1,344,131
36.	Colombia	53	428	85,234
37.	Congo – Brazzaville	1	8	717
38.	Congo – Kinshasa	4	30	4,419
39.	Costa Rica	22	70	12,677
40.	Côte d’Ivoire	6	78	26,673
41.	Croatia	1,155,346	23,142,519	6,313,123,913
42.	Cuba	4	4	50
43.	Curaçao	1	1	125
44.	Cyprus	47	236	51,506
45.	Czech Republic	890	35,282	7,002,622
46.	Denmark	564	11,565	1,799,119
47.	Dominican Republic	4	31	1,114
48.	Ecuador	17	83	10,697
49.	Egypt	83	652	26,395
50.	El Salvador	5	99	15,377
51.	Estonia	1,503	12,057	3,123,082
52.	Ethiopia	15	116	28,273
53.	Europe	1,398	96,952	15,193,772
54.	Faroe Islands	3	11	848
55.	Finland	248	4,546	962,307
56.	France	2,027	109,255	20,372,694
57.	French Polynesia	4	14	6,946
58.	Gambia	1	1	1
59.	Georgia	35	156	27,077
60.	Germany	17,675	293,479	58,714,427
61.	Ghana	4	5	1,000
62.	Gibraltar	1	2	444
63.	Greece	357	1,533	477,706
64.	Grenada	13	40	9,442
65.	Guadeloupe	2	2	3,010
66.	Guatemala	5	49	7,369
67.	Guernsey	1	3	662
68.	Haiti	1	1	163
69.	Honduras	1	1	45
70.	Hong Kong SAR China	175	1,239	215,751
71.	Hungary	1,601	18,159	4,801,973
72.	Iceland	62	299	118,901
73.	India	329	1,116	334,232
74.	Indonesia	158	522	157,330
75.	Iran	30	117	21,279
76.	Iraq	73	151	20,819
77.	Ireland	2,098	18,091	4,936,897
78.	Isle of Man	5	59	18,481
79.	Israel	133	430	137,631
80.	Italy	3,050	49,308	8,844,232
81.	Jamaica	11	37	12,695
82.	Japan	216	1,792	322,026
83.	Jersey	1	2	190
84.	Jordan	27	66	104,807
85.	Kazakhstan	32	167	21,420
86.	Kenya	34	798	101,094
87.	Kuwait	37	122	55,197
88.	Kyrgyzstan	6	12	5,744
89.	Laos	19	62	12,999
90.	Latvia	123	1,118	261,875
91.	Lebanon	12	34	4,674
92.	Liberia	1	1,029	284,667
93.	Libya	5	12	4,655
94.	Liechtenstein	12	2,489	366,166
95.	Lithuania	2,236	12,556	2,950,112
96.	Luxembourg	539	4,412	1,231,743
97.	Macau SAR China	3	8	1,206
98.	Madagascar	5	8	833
99.	Malawi	14	171	692,180
100.	Malaysia	98	335	68,028
101.	Maldives	6	8	357
102.	Malta	102	924	142,161
103.	Martinique	1	1	1,310
104.	Mauritania	2	3	2,790
105.	Mauritius	20	51	6,205
106.	Mexico	171	1,320	358,737
107.	Moldova	106	1,763	499,313
108.	Monaco	22	390	44,370
109.	Mongolia	2	9	204
110.	Montenegro	5,921	74,412	26,743,505
111.	Morocco	59	226	42,278
112.	Mozambique	4	22	6,768
113.	Myanmar (Burma)	31	625	62,308
114.	Nepal	21	103	26,308
115.	Netherlands	2,299	59,282	15,222,549
116.	New Zealand	104	988	188,779
117.	Nicaragua	10	18	12,338
118.	Nigeria	33	2,015	232,345
119.	North Macedonia	1,653	18,334	4,433,953
120.	Norway	360	5,474	1,982,203
121.	Oman	115	628	48,591
122.	Pakistan	17	79	4,449
123.	Palestinian Territories	1	1	7
124.	Panama	19	231	91,467
125.	Paraguay	1	1	5
126.	Peru	35	224	23,228
127.	Philippines	95	382	51,338
128.	Pitcairn Islands	1	2	249
129.	Poland	2,358	45,167	12,304,620
130.	Portugal	419	3,151	778,821
131.	Puerto Rico	5	40	12,507
132.	Qatar	93	1,815	494,898
133.	Réunion	2	23	1,959
134.	Romania	567	19,195	3,749,730
135.	Russia	512	8,487	1,759,307
136.	Rwanda	2	2	90
137.	Saint Kitts and Nevis	3	40	29,618
138.	Saint Lucia	2	2	182
139.	Satellite Provider	4	11	665
140.	Saudi Arabia	53	439	67,714
141.	Senegal	10	38	57,054
142.	Serbia	9,676	88,909	58,941,003
143.	Seychelles	62	42,806	6,526,067
144.	Sierra Leone	1	2	6
145.	Singapore	158	956	707,089
146.	Slovakia	466	9,813	1,946,409
147.	Slovenia	12,774	246,846	33,146,688
148.	South Africa	78	803	225,069
149.	South Korea	85	323	52,287
150.	South Sudan	1	6	2,200
151.	Spain	1,384	13,014	6,896,783
152.	Sri Lanka	31	46	7,340
153.	Sudan	6	12	1,249
154.	Suriname	1	1	73
155.	Sweden	1,829	50,094	7,935,319
156.	Switzerland	1,647	27,318	8,642,473
157.	Syria	5	9	302
158.	Taiwan	56	214	64,589
159.	Tajikistan	2	2	108
160.	Tanzania	37	96	33,855
161.	Thailand	809	3,378	1,151,445
162.	Timor-Leste	11	57	9,244
163.	Togo	1	1	694
164.	Tunisia	13	73	16,137
165.	Turkey	631	3,990	2,102,011
166.	Uganda	7	17	3,342
167.	Ukraine	337	4,731	2,499,272
168.	United Arab Emirates	336	1,600	375,077
169.	United Kingdom	3,992	142,487	24,480,273
170.	United States	6,467	266,984	54,830,162
171.	Uruguay	6	13	3,681
172.	Uzbekistan	8	19	573
173.	Vatican City	6	18	2,570
174.	Venezuela	3	5	461
175.	Vietnam	347	2,903	465,490
176.	Zambia	8	42	4,609
177.	Zimbabwe	1	2	5
TOTAL		1,368,702	26,701,365	7,235,096,012
Last update: Mon Apr 1 08:19:41 CEST 2019

Prema dostupnim MaxMindovim GeoIP podatcima, hrvatska vršna domena raspolaže s ukupno 2.818.597 IP-adresa, od kojih dobar dio nije izravno dostupan krajnjim korisnicima interneta. Prema podatcima iz gornjega prikaza proizlazi da je 41 % hrvatskih IP-adresa koristilo Hašekovu uslugu, iz čega slijedi da je on nedvojbeno infrastrukturna usluga u Hrvatskoj. Uzimajući u obzir udio Hrvata u populaciji BiH te činjenicu da je 13 % bosanskohercegovačkih IP-adresa koristilo istu uslugu, zaključak se može protegnuti i na tu zemlju. Specifičnost Hašeka kao hrvatske infrastrukturne usluge jest ta da nikada nikakve veze nije imao, unatoč svim nastojanjima da se takav status promijeni, sa zaduženima za skrb o nacionalnim interesima. Izvjesno je da to tako ne može ići do u nedogled, ako ni radi čega drugoga onda radi smrtnosti njegova održavatelja.

Bilješke

[1] Bentley, J.: A Spelling Checker, Communications of the ACM, 28(5), 1985., str. 460.

[2] Dembitz, Š.: Funkcionalna leksikografija mrežnoga pravopisnog provjernika, Filologija, 58(2012), str. 55-98, HAZU, 2012.

[3] Uključuje i promet iniciran iz Republike Kosovo. Premda je po ISO-3166-1 standardu Kosovu već dodijeljena vršna domena KO, razdvajanje vršnih domena Kosova i Srbije još nije obavljeno.

[4] Citiranu poruku je 27. siječnja 2019. Hašeku (hascheck@fer.hr) uputila Tena Ćorić, osoba rođena i odrasla u Švicarskoj.

[5] Michel, J.-B., et al.: Quantitative Analysis of Culture Using Millions of Digitized Books, Science, Vol. 331, Issue 6014, pp. 176-182, 2011.

[6] Šoić, R.: Sinteza hrvatskog govora uporabom sustava Festival, diplomski rad br. 74, FER, Zagreb, 2010.

[7] Bajo, D., Turković, D., Dembitz, Š.: Rapid Prototyping of a Croatian Large Vocabulary Continuous Speech Recognition System, Proceedings of the IARIA, pp. 13-18, Curran Associates, Red Hook, NY, 2014.

[8] Dembitz, Š.: Automatizacija postupka otkrivanja grešaka u tekstu u novim telekomunikacijskim službama, doktorska disertacija, ETF-Zagreb, 1993., str. 5.

Blog

Zašto koristiti ispravi.me, a ne ChatGPT?

Ispravljanje tekstova s posebnim formatiranjem za društvene mreže

Trideset nam je godina tek…

Preminuo Šandor Dembitz, autor Hašeka

Godišnja inventura ususret 30. rođendanu

Najčešće pogreške u 2022. godini