Der englische Begriff für unstrukturierte Daten lautet „unstructured data“. Es handelt sich um digitalisierte Informationen, die einer unstrukturierten Rohform vorliegen. Sie haben eine für Computerprogramme nicht identifizierbare oder direkt zugängliche Datenstruktur. Im Gegensatz zu strukturierten Daten lassen sich die Informationen nicht in zeilen- und spaltenorientierten relationalen Datenbankenschemata abbilden. Typische Beispiele für unstrukturiert vorliegende Daten sind Audiodaten, Videodaten, Bilder, digital aufgezeichnete Sprache, Texte, Präsentationen oder Social-Media-Kommentare.
Da der Zugriff auf die in den unstrukturierten Daten vorhandenen Informationen für Computerprogramme stark eingeschränkt ist […], sind die automatischen Verarbeitungs- und Analysemöglichkeiten begrenzt. Um die relevanten Informationen zu finden und die Daten zu verarbeiten, ist es zunächst notwendig, eine Struktur aus den Daten zu gewinnen. Im IT-Umfeld existieren zahlreiche Anwendungen und Konzepte, um unstrukturierte Daten zu strukturieren, zu speichern, auszulesen, zu analysieren und zu verarbeiten.
Abgrenzung zwischen unstrukturierten, semistrukturierten und strukturierten Daten
Abhängig vom Strukturierungsgrad ist eine grundsätzliche Unterscheidung der Daten in folgende drei Kategorien möglich:
- strukturierte Daten,
- semistrukturierte (halbstrukturierte) Daten,
- unstrukturierte Daten.
Während die unstrukturierten Daten keine eindeutige Datenstruktur haben […], besitzen halbstrukturierte Daten ein strukturelles Grundgerüst. Ein typisches Beispiel semistrukturierter Daten sind E-Mails. Sie besitzen im Nachrichtenkopf strukturierte Datenfelder für Absenderadressen, Empfängeradressen, Betreffzeilen und andere Informationen. Die eigentliche Nachricht liegt jedoch in Form von unstrukturierten Daten als Text vor.
Bei strukturierten Daten sind Format und Datenstruktur fest vorgegeben. Alle Informationen lassen sich in dieser Struktur in Datenfelder einordnen. Werden strukturierte Daten in […] Datenbanken gespeichert, haben die Informationen bestimmte Zeilen- und Spaltenpositionen und stehen mit anderen Informationen in definierten Beziehungen. Computerprogramme können aufgrund der Struktur gezielt auf einzelne Informationen zugreifen und sie bearbeiten. Zum Auslesen und Bearbeiten der Daten kommen Sprachen wie SQL (Structured Query Language) zum Einsatz.
(Quelle: Storage-Insider.de)
Datenmengen im Pilotprojekt KULTIVAS
Ein entscheidender Faktor für das Pilotprojekt KULTIVAS sind solche Daten. Verschiedene Institutionen besitzen historische und geolokalisierte Daten über den Apfelanbau in Südtirol. Genau diese Datenmengen sollen im Pilotprojekt KULTIVAS von KONVERTO zum Vorteil der Apfelwirtschaft in Südtirol genutzt werden. Unter Anwendung modernster Techniken, werden alle relevanten Daten systematisch strukturiert, zusammengeführt und analysiert. Ziel ist es, mit dem neuen Pilotprojekt KULTIVAS eine zeit- und kosteneffiziente Plattform für die lokale Landwirtschaft zur Verfügung stellen.