Der Auftragnehmer hat jene Arbeiten, die
in nachfolgender Beschreibung aufgeführt
sind, sorgfältig und fachmännisch
auszuführen:
Der Auftraggeber stellt Ihnen 10
verschiedene Zip-Files zur Verfügung,
die erhebliche Datenmengen im CSV-Format
bzw. im Textformat enthalten (allein die
Zip-Files sind jeweils mehrere MB groß).
Diese Dateien gilt es aufzubereiten.
Alle CSV- bzw. Textdateien sind
inhaltlich ähnlich strukturiert
(gleiche/sinngemäße
Spaltenüberschriften, nur gelegentlich
an unterschiedlichen Stellen). Alle
Daten, die jeweils in einer Zeile
stehen, gehören zusammen (es sind also
EDV-übliche "Datensätze").
Die Aufbereitungen gelten für alle
Dateien, es ist also nicht so, dass bei
jeder Datei vollkommen andere Arbeiten
zu verrichten sind.
Die Daten sind wie folgt aufzubereiten:
- alle Datensätze, die in einer
bestimmten Spalte einen bestimmten
Inhalt haben, sind zu löschen
- alle Datensätze, bei denen in einer
bestimmten Spalte nicht ein bestimmter
Inhalt X oder ein bestimmter Inhalt Y
steht, sind zu löschen
Die genauen Werte für die Platzhalter
werden bei Auftrags-Erteilung übermittelt.
Etwas komplizierter zum Beschreiben,
hoffentlich weniger zum Durchführen:
- eine bestimmte Spalte enthält sehr
viele Inhalte, die in ihr mehrfach
identisch vorkommen (simples Beispiel
zur Veranschaulichung: Spalte "Namen"
enthält mehrfach "Maier", mehrfach
"Müller", mehrfach "Schulze" und viele
andere mehrfach identisch vorkommende
Namen). Bei solchen mehrfach
vorkommenden Inhalten ist zu prüfen, ob
in einer anderen bestimmten Spalte
irgendwo ein bestimmter Inhalt vorkommt.
Ist dies nicht der Fall, sind die
entsprechenden Datensätze zu löschen (an
oben anknüpfendes Beispiel: es wäre zu
prüfen, ob in Bezug auf den Namen
"Maier" irgendwo in der "Wohnort"-Spalte
"Hamburg" vorkommt. Wenn beim Namen
"Maier" nicht irgendwo der Wohnort
"Hamburg" auftaucht, sind sämtliche
Maier-Datensätze zu löschen, da die
Maiers nur dann im Datenbestand
erwünscht sind, wenn sie zwingend
mindestens einmal in Hamburg vorkommen.
Das heißt natürlich im Umkehrschluß:
kommt auch nur ein einziger Maier aus
Hamburg, bleiben alle Maier-Datensätze
erhalten).
Zu beachten: diese Auslese ist nicht nur
in Bezug auf einen bestimmten Inhalt
("Maier") durchzuführen, sondern immer
wenn in der betroffenen Spalte ("Namen")
mehrfach diesselben Inhalte vorkommen
(beispielsweise also auch für "Müller"
und "Schulze" usw., sofern Sie mehrfach
vorkommen).
Das obige Beispiel ist nur exemplarisch
der Einffachheit halber, tatsächlich
geht es um andere Spalten und Inhalte,
die bei Auftragserteilung genannt werden.
- Die so erheblich reduzierten
Datenbestände sind nach Möglichkeit im
XLS-Format und falls weiterhin zu groß
als ZIP komprimiert dem Auftraggeber
zuzumailen. Ist das XLS-Format nicht
möglich, ist das ursprüngliche Format zu
verwenden. Sollte das Zumailen aus einem
bestimmtem Grund nicht möglich sein,
sind die Dateien auf CD gebrannt auf dem
Postweg per Einschreiben zuzusenden
(Versandkosten übernimmt in diesem Fall
der Auftraggeber).
Es ist gleichgültig, wie, also mit
welcher Software und mit welchem
Programmierungs-Know How etc. der
Auftragnehmer zum dargelegten Ergebnis
kommt. Entscheidend ist dass das Ergebnis
infolge sauberer Arbeit stimmt.
Es wäre sinnvoll, wenn nach der
Aufbereitung der ersten Datei eine
Zusendung erfolgen würde, damit seitens
des Auftraggebers durch eine Prüfung das
Ok für die weiteren Dateien gegeben
werden kann.
Die Ausführung (die Durchführung der
Aufbereitung) erfolgt selbstverständlich
beim Auftragnehmer. Außer den
aufzubereitenden Daten stellt der
Auftraggeber nichts. Der Auftrag ist
erfolgreich erledigt und erfüllt, wenn
der Auftraggeber die Daten wunschgemäß
aufbereitet und ansonsten unverändert
erhalten hat.
Eine der Dateien kann potenziellen
Auftragnehmern vorab zu Prüfzwecken
überlassen werden, z.B. um
festzustellen, ob die großen
Datenbestände ein prinzipielles Problem
darstellen, da es wichtig ist, dass die
Dateien für den Auftragnehmer komplett
verarbeitet werden können. Es handelt
sich nicht um sensible Daten.
Fragen Sie bitte grundsätzlich bei
Unklarheiten.
Archiv für EDV, Telekommunikation