Skilletegn
Taggeren markerer setningsgrenser
med clb (ved f.eks. komma og konjunksjoner). Helsetningsgrense
e.l. markeres med <<< .
Hermetegn og punktum blir satt
sammen med ordet til venstre eller høyre dersom tegnet antas å være en del av ordet, f.eks. når
punktumet er en del av en forkortelse: A. subst prop fork eller når
kun ett ord står i hermetegn:
<"exit"> (Når flere ord er rammet inn av hermetegn, skilles hermetegn ut som eget tegn <">.)
Taggeren forsøker også å skille ut overskrifter, gir dem helsetningsgrensetagg og setter inn et tegn | for overskrift slik:
<word>Været</word>
"<været>"
"vær" subst appell nøyt be ent
<word>blir</word>
"<blir>"
"bli" verb pres i2 tr5 a5 pa4/til pr1 pr2
<aux1/perf_part>
<word>bedre</word>
"<bedre>"
"god" adj komp
"<|>"
"$|" clb <overskrift> <<<
Legg merke til at alle store bokstaver blir gjort om til små, men at originalteksten beholdes mellom taggene <word></word>.
Ellipse | <...> , $... clb <ellipse> |
Hermetegn | <"> , $ <anf> |
Kolon | <:> , $: clb <kolon> |
Komma | <,> , $, clb <komma> |
Overskrift | <|> , $| clb <overskrift> <<< |
Parentes begynner | <(> , $( <parentes-beg> |
Parentes slutter | <)> , $) <parentes-slutt> |
Punktum | <.> , $. clb <<< <punkt> |
Semikolon | <;> , $; clb <semi> |
Spørsmålstegn | <?> , $? clb <spm> |
Strek | "<->" , "$-" <strek> |
Utrop | "<!>" , "$!" clb <<< <utrop> |