Confusion matrice

Confusion matrice napravljene su na ispravkama iz baze Hrvatskog akademskog spelling checkera.
Matrice prikazuju jednu od 4 karakteristične radnje iz Damerau–Levenshtein udaljenosti.
Više: https://www.mdpi.com/2073-431X/13/2/39


X - slovo u retku
Y - slovo u stupcu

Tipovi grešaka

  • Umetanje ispred slova - umetanje pogrešnog slova Y ispred X (X -> YX)
  • Umetanje iza slova - umetanje pogrešnog slova Y iza X (X -> XY)
  • Brisanje ispred slova - brisanje slova Y ispred X (YX -> X)
  • Brisanje iza slova - brisanje slova Y iza X (XY -> X)
  • Zamjena - zamjena pogrešnog slova Y i ispravnog slova X (X -> Y)
  • Transponiranje - zamjena redoslijeda dva susjedna slova (XY -> YX)

Tipovi matrica

  • Broj pojava - broj pojava za svaku kombinaciju slova
  • Vjerojatnost (na razini slova) - vjerojatnost pogrešnog slova Y u kontekstu slova X
  • Vjerojatnost (cjelokupni uzorak) - vjerojatnost pogrešnog slova Y u kontekstu karakteristučne radnje

Posebni znakovi

Uz slova hrvatske abecede, u matricama zabune nalaze se i dodatni znakovi:

  • razmak - znak razmaka se kod umetanja i brisanja ubraja u statistiku (npr. kod "sa tobom", "oprostiti ću")
  • \b - oznaka za granicu riječi - početak ili kraj riječi, koristi se kod dodavanja ili umetanja kad se znak doda ili briše s početka ili kraja riječi