
 |
Strukturierte Dokumente sind z.B. Bestellformulare oder die neben
stehende Arbeitsunfähigkeitsbescheinigung.
Merkmale: feste Positionen, gleichbleibende Inhalte.
Hier weiß man welches Feld sich an welchem Ort befindet, ebenso
ob es nur Ziffern oder nur Buchstaben, in welcher Systematik gibt.
Solche Dokumente lassen sich exakt beschreiben. Man weiß, was
an welcher Stelle stehen muss, ob es Zahlen oder Wörter sind. Durch
Prüfalgorithmen oder Datenbankabgleich können auch bei schlechter
Qualität richtige Leseergebnisse erzielt werden. |
| |
|
 |
Halb- oder semistrukturierte Dokumente wie z.B. Rechnungen
sehen nur auf den ersten Blick stukturiert aus. Bei näherer Betrachtung mehrerer Dokumente von mehreren Absendern erkennt man
schnell, es gibt Grundstrukturen, bestimmte Felder kommen immer vor, doch jeder schreibt sie an eine andere Stelle, hat andere Zusammensetzungen usw.
Merkmale: gleichbleibende Inhalte, unterschiedliche Positionen.
Hier stößt die Formularbeschreibung an ihre Grenzen. Es bietet
sich eine sogenannte Freiformverarbeitung und/oder ein
regelbasiertes Vorgehen an. |
| |
|
 |
Unstrukturierte Dokumente, z.B. Briefe oder andere nicht formularisierte Schreiben können übersichtlich aussehen. Man weiß
nicht was an welcher Stelle, welchem Ort auf dem Dokument steht.
Merkmale: unterschiedliche Inhalte, unterschiedliche Positionen
In diesen Fällen muss der gesamte Text gelesen werden (Volltextverarbeitung). Für eine Software ist solch ein Text eine
lange Folge von Zeichen, die erst durch den Menschen in einen
Zusammenhang gebracht werden können. |
|