Confusion matrice
Confusion matrice napravljene su na ispravkama iz baze Hrvatskog akademskog spelling checkera.
Matrice prikazuju jednu od 4 karakteristične radnje iz Damerau–Levenshtein udaljenosti.
Više: https://www.mdpi.com/2073-431X/13/2/39
X - slovo u retku
Y - slovo u stupcu
Tipovi grešaka
- Umetanje ispred slova - umetanje pogrešnog slova Y ispred X (X -> YX)
- Umetanje iza slova - umetanje pogrešnog slova Y iza X (X -> XY)
- Brisanje ispred slova - brisanje slova Y ispred X (YX -> X)
- Brisanje iza slova - brisanje slova Y iza X (XY -> X)
- Zamjena - zamjena pogrešnog slova Y i ispravnog slova X (X -> Y)
- Transponiranje - zamjena redoslijeda dva susjedna slova (XY -> YX)
Tipovi matrica
- Broj pojava - broj pojava za svaku kombinaciju slova
- Vjerojatnost (na razini slova) - vjerojatnost pogrešnog slova Y u kontekstu slova X
- Vjerojatnost (cjelokupni uzorak) - vjerojatnost pogrešnog slova Y u kontekstu karakteristučne radnje
Posebni znakovi
Uz slova hrvatske abecede, u matricama zabune nalaze se i dodatni znakovi:
- razmak - znak razmaka se kod umetanja i brisanja ubraja u statistiku (npr. kod "sa tobom", "oprostiti ću")
- \b - oznaka za granicu riječi - početak ili kraj riječi, koristi se kod dodavanja ili umetanja kad se znak doda ili briše s početka ili kraja riječi