Einkommen & Preise

Vom Wort zur Zahl: Wie mit Hilfe automatisierter Verfahren Produktbeschreibungen in der Verbraucherpreisstatistik für das Forschungsdatenzentrum effizient bereitgestellt werden können – Ein Werkstattbericht

In der Verbraucherpreisstatistik dienen Feinbeschreibungsmerkmale dazu, detaillierte Informationen zu Produkten in der Preiserhebung zu dokumentieren. Dies stellt sicher, dass im Zeitverlauf stets dieselben Produkte zur Preiserfassung ausgewählt werden. Denn das Ziel der Inflationsmessung ist, reine Preisveränderungen zu messen. Die Preiserheberinnen und Preiserheber können neben standardisierten Begriffen auch eigene Beschreibungen/Abkürzungen verwenden, die ihnen helfen, die gleichen Produkte bei der nächsten Erhebung wiederzufinden. Dazu zählen u. a. Eigenmarkennamen von Handelsketten, die Berichtsstellen identifizieren. Für die wissenschaftliche Nutzung in den Forschungsdatenzentren des Bundes und der Länder sind die Einzeldaten in einer formal anonymen Form bereitzustellen, sodass Personen und Betriebe nicht direkt identifiziert werden können. Eigenmarkennamen müssen daher aus den Datensätzen entfernt werden. Da es sich pro Berichtsmonat um bis zu 6 Millionen Texteinträge handelt, ist eine manuelle Überprüfung dieser großen Textmengen nicht leistbar und effizient.

Der Artikel zeigt auf, wie durch den Einsatz von Pseudonymen, White Lists, Ähnlichkeitsparametern und Methoden des maschinellen Lernens manueller Bearbeitungsaufwand erheblich reduziert und gleichzeitig eine komplette Löschung der Feinbeschreibungsmerkmale vermieden werden kann – denn diese werden für tiefgehende Analysen von Preisstrukturen benötigt. Anwendungen in anderen Bereichen, in denen z. B. Wortbestandteile zur Klassifizierung relevant sind, werden im Ausblick skizziert.

Von Malte Kaukal und Normen Peters, Hessisches Statistisches Landesamt

Einleitung

Über die Forschungsdatenzentren des Bundes und der Länder (FDZ) ermöglichen die Statistischen Ämter der Länder und das Statistische Bundesamt wissenschaftlichen Einrichtungen die Nutzung von Einzeldaten in formal anonymer Form, die ihnen in speziell gesicherten Arbeitsumgebungen zur Verfügung gestellt werden. Die gesetzliche Grundlage dafür ist der § 16 Abs. 6 Nr. 2 des Bundesstatistikgesetzes (BStatG). Formal anonym bedeutet, dass Namen und Adressen aus den Datensätzen entfernt werden (siehe § 5a Abs. 2 Satz 1 BStatG). Das Hessische Statistische Landesamt (HSL) ist innerhalb der FDZ u. a. für die Aufbereitung der Verbraucherpreisstatistik zuständig. Es handelt sich um Einzelpreisdaten, die zur Erstellung des Verbraucherpreisindex für Deutschland monatlich erhoben werden (EVAS 61111). Mit dem Ziel die Verbraucherpreisdaten als festen Bestandteil in das Produktportfolio der FDZ aufzunehmen, entwickelt das HSL ein Konzept zur standardisierten Aufbereitung und Bereitstellung der Daten.

Durch ein Pilotprojekt zu interregionalen Preisvergleichen auf Grundlage des bundesweiten Datenmaterials eines Berichtsmonats wurde deutlich, dass die Feinbeschreibungsmerkmale der Verbraucherpreiserhebung ein wichtiger Bestandteil für die Nutzung durch die Wissenschaft sind. Sie enthalten zusätzliche Informationen zu den erhobenen Preisen und dienen bei der Preisermittlung als Orientierungshilfe, um monatlich dieselben Produkte zu erfassen, sodass eine Inflationsberechnung für reine Preisveränderungen möglich ist.

In Folge einer intensiven Auseinandersetzung mit den Feinbeschreibungsmerkmalen für die Datensätze aller Bundesländer wurde zum einen deutlich, dass Eigenmarken in der Lage sind Berichtsstellen direkt zu identifizieren und daher anonymisiert werden müssen. Zum anderen zeigte sich, dass diese sensiblen Informationen in den Feinbeschreibungsmerkmalen schwer zu identifizieren sind. Der daraus resultierende manuelle Prüfaufwand im FDZ wäre enorm hoch, da das gesamte Datenmaterial der Feinbeschreibungsmerkmale mittels manueller Sichtprüfung kontrolliert werden müsste. Bezogen auf das bundesweite Datenmaterial des Monats Mai 2016 wären dies 2,7 Millionen Feinbeschreibungen mit tatsächlichem Inhalt, bzw. gut 450 000 Feinbeschreibungen, wenn mehrfache identische Nennungen entfernt werden. Dies entspräche einer reinen Bearbeitungsdauer bei vier Sekunden pro Texteintrag von rund 13 Arbeitswochen für einen Berichtsmonat. Hinzu kommt, dass bei einer manuellen Sichtprüfung und Entfernung der sensiblen Informationen Fehler bei der Überprüfung aufgrund der großen Menge an Daten nicht ausgeschlossen werden könnten.

Im Hinblick darauf, dass die letzten zehn Berichtsjahre aufbereitet werden sollen und auch zukünftig eine regelmäßige zeitnahe Bereitstellung erfolgen soll, ist das manuelle Entfernen sensibler Informationen nicht praktikabel. Um dennoch ein möglichst vollständiges Datenangebot für die wissenschaftliche Nutzung zu erzeugen, entwickelt das HSL ein Konzept, das den Anonymisierungsprozess stärker automatisiert und es gleichzeitig durch den Einsatz maschinellen Lernens ermöglicht, den Informationsgehalt der Feinbeschreibungen zu optimieren.

Anonymisierung der Feinbeschreibungsmerk-male in der Verbraucherpreisstatistik

Die Verbraucherpreisstatistik ist eine monatliche Erhebung, die von allen statistischen Landesämtern dezentral sowie für einzelne Bereiche zentral vom Statistischen Bundesamt durchgeführt wird. Die Preise eines umfassenden Warenkorbs aus verschiedenen Waren und Dienstleistungen werden regelmäßig erfasst. Die Einordnung der Waren und Dienstleistungen basiert auf der Klassifikation der Verwendungszwecke des Individualkonsums (Classification of Individual Consumption by Purpose – COICOP1) und umfasst u. a. Nahrungsmittel, Getränke, Tabakwaren, Bekleidung, Wohnen, Wasser, Strom, Gesundheitspflege, Verkehr, Freizeit, Bildungswesen sowie Beherbergungs- und Gaststättenleistungen. Aus den erhobenen Preisen werden die Verbraucherpreisindizes berechnet. Diese werden verwendet, um die Inflationsraten für einzelne Bundesländer oder für Deutschland insgesamt und für einzelne Konsumgütergruppen zu ermitteln.2

Für eine korrekte Berechnung von Preisveränderungsraten muss sichergestellt werden, dass jeden Monat dasselbe Produkt erfasst wird. Die bloße Vorgabe „Schnittkäse“ würde bspw. in der konkreten Preisermittlung vielfältige Optionen ermöglichen, da die Angebotspalette der Supermärkte sehr breit ist. Ob für die Preiserfassung der teure Markenkäse verwendet werden soll oder die günstigere Eigenmarke, wie groß der Inhalt der Packung sein darf und welches Produkt in dem vorhergehenden Monat ausgewählt wurde, wäre nicht ersichtlich. Damit eine konstante Erfassung desselben Produkts gewährleistet werden kann, werden die Waren und Dienstleistungen in den Feinbeschreibungsmerkmalen zusätzlich näher beschrieben.

Für jede Position der zehnstelligen COICOP-Nummer sieht die Erhebung bis zu zehn verschiedene detaillierte Feinbeschreibungen vor, die dabei helfen, das Produkt zu identifizieren. Beim Schnittkäse würde noch die Marke erfasst werden und ob das Produkt aus dem Kühlregal oder von der Frischetheke stammt. Bei Schuhen würde ebenfalls die Marke und zusätzlich die Farbe und das Material notiert werden. Wird der Preis einer Mietwohnung ermittelt, werden u. a. die Finanzierung der Wohnung und das Baujahr festgehalten. Diese zahlreichen Details ermöglichen es schließlich, monatlich die identischen Produkte zu erheben. Sie werden z. B. auch dann benötigt, wenn Produkte aus dem Sortiment eines Supermarkts genommen werden und ein qualitätsgleiches Ersatzprodukt ausgewählt werden muss.

Auch wenn sich die Feinbeschreibungen anschließend nicht in der publizierten Statistik wiederfinden, handelt es sich um wichtige Merkmale, die für die Qualität des Verbraucherpreisindex entscheidend sind. Aufgrund ihrer Detailtiefe sind sie auch für wissenschaftliche Forschungsprojekte von hohem Interesse, da sie tiefgehende Analysen von Preisstrukturen erlauben. Gemäß § 16 Abs. 6 Nr. 2 BStatG müssen die Daten in den FDZ in formal anonymer Form bereitgestellt werden. Sensible Informationen in den Feinbeschreibungen sind folglich zu anonymisieren.

Die Herausforderung bei der Anonymisierung der Feinbeschreibungsmerkmale innerhalb der Verbraucherpreisstatistik liegt in der Variabilität der sensiblen Informationen. Es ist nicht möglich, eine voll ausschöpfende Liste mit sensiblen Texteinträgen zur definieren, eine „Black List“, die alle sensiblen Informationen zweifelsfrei findet und anhand der man die Daten manuell oder automatisiert überprüfen könnte. So kann die Nennung einer Eigenmarke identifizierend für die Berichtsstelle sein und ein Deanonymisierungsrisiko darstellen. Marken wie „Rewe Beste Wahl“ oder „Edeka Bio“ sind offensichtlich identifizierend, doch auch Marken wie „ja“ (Rewe), „gut und günstig“ (Edeka) und „Tandil“ (Aldi Süd) liefern indirekt Informationen über die zugehörige Berichtsstelle, da sie überwiegend nur in den genannten Handelsketten verkauft werden. In Kombination mit Angaben zur regionalen Einheit, wie der Gemeinde, wäre es möglich, Berichtsstellen exakt zu bestimmen. Das HSL kommt in seiner rechtlichen Einschätzung zu dem Ergebnis, dass die Eigenmarken mit Namen und Adressen gleichzusetzen sind und daher geschützt werden müssen, sofern in einer Gemeinde nur ein oder zwei Berichtstellen des Händlers vorhanden sind. Ein solcher Abgleich würde den eingangs beschriebenen Aufwand einer manuellen Anonymisierung zusätzlich vervielfachen, da hier zusätzliche Datenquellen hinzugezogen werden müssten. Durch die Anwendung einer Pseudonymisierung in Verbindung mit einer Liste von erlaubten Begriffen – einer „White List“ –, der Vereinheitlichung von Schreibweisen und der Überprüfung durch einen maschinell lernenden Algorithmus sieht das HSL zum jetzigen Stand die Möglichkeit, die sensiblen Informationen in den Feinbeschreibungsmerkmalen zu schützen, ohne gänzlich auf die Merkmale zu verzichten. Die Anwendungen bestehen aus automatisierten Verfahren, die zugleich einen ressourcenschonenden Personaleinsatz ermöglichen.

Schutz sensibler Informationen durch Pseudo-nymisierung und White List

Um verlässlich alle sensiblen Informationen unkenntlich zu machen und gleichzeitig den manuellen Aufwand so gering wie möglich zu halten, bieten sich grundsätzlich zwei Verfahren an. Die Erstellung einer Black List oder die Erstellung einer White List in Kombination mit einer Pseudonymisierung.

Bei einer Black List, auch Negativliste genannt, werden Inhalte definiert, die nicht erlaubt sind. Bei einer Überprüfung von Textinhalten würden nur die Inhalte unkenntlich gemacht werden, die auf dieser Black List stünden. In dem Fall der Feinbeschreibungen wäre dies eine Auflistung aller sensiblen Informationen. Das Problem ist, dass die sensiblen Informationen für die Verbraucherpreisstatistik nicht vollständig bekannt sind. Möglicherweise bietet ein Bauernhof unter einer eigenen Marke seine Milchprodukte ausschließlich in einem örtlichen Supermarkt an. Der Eintrag der Marke müsste dann als sensibel eingestuft werden, wäre dem HSL aufgrund seiner geringen Häufigkeit aber nicht bekannt und würde entsprechend nicht auf der Black List stehen. Für die Bereitstellung in den FDZ muss allerdings zu 100 % sichergestellt sein, dass alle sensiblen Informationen unkenntlich gemacht werden. Die Verwendung einer Black List scheidet daher als Option aus.

Ein der Black List entgegengesetztes Verfahren ist die Erstellung einer White List. Sie definiert Begriffe, die keinen sensiblen Inhalt darstellen (z. B. „Familienpackung“). Folglich würden alle Einträge, die nicht auf der White List stehen, als sensible Information behandelt werden und unkenntlich gemacht werden. Der Vorteil dieser Vorgehensweise liegt darin, dass nur die Informationen gezeigt werden, die geprüft und eindeutig nicht sensibel sind. Bei Unsicherheit bezüglich einer Information oder Unkenntnis, wie in dem obigen Beispiel vom Bauernhof skizziert, würde dieser Eintrag nicht Teil der White List sein und entsprechend geschützt werden.

Zum Schutz der sensiblen Informationen in den Datensätzen bietet sich statt einer bloßen Entfernung der Informationen das Verfahren der Pseudonymisierung an. Bei der Pseudonymisierung wird jedes Wort in einer Feinbeschreibung – das durch ein Leerzeichen vom nächsten Wort getrennt ist – durch ein Pseudonym ersetzt. Um welches Produkt (Reis, Erbsen, Autoreifen, Schornsteinfegerdienstleistung, usw.) es sich handelt, ist nach wie vor über die zehnstellige COICOP Nummer und deren Bezeichnung ersichtlich. Dabei wird zusätzlich gewährleistet, dass identische Wörter auch identische Pseudonyme zugewiesen bekommen. Dadurch kann in den wissenschaftlichen Nutzungen anschließend nachvollzogen werden, für welche der Produktpreise die gleichen Feinbeschreibungen vorlagen und somit bei Analysen Produktgruppen (wie z. B. Marken) unterschieden werden (siehe Tabelle 1). Ob es sich bei der Beschreibung um eine sensible oder eine unkritische Information handelt, ist nicht ersichtlich. Auch besteht keine Möglichkeit, die Einträge nach den Bedürfnissen der Nutzerinnen und Nutzer zu verändern oder auszuwerten. Es ist ihnen lediglich möglich, den FDZ vorab eine Liste zukommen zu lassen, die Begriffe enthält, die von der Pseudonymisierung ausgenommen werden sollen und die somit die White List potenziell erweitert. Die Mitarbeiter des FDZ im HSL prüfen diese Liste auf sensible Informationen und geben sie ggf. für die Verwendung frei. Dies ermöglicht es relevante und unkritische Begriffe vollständig für die Analyse in wissenschaftlichen Nutzungen zu erhalten.

Abbildung 1: Pseudonymisierung

In Anbetracht der zu Beginn erläuterten Fülle von 450 000 einmaligen Informationen in den Feinbeschreibungen ist auch der Aufbau einer White List mit hohem Aufwand verbunden. Das Ziel der Erstellung der White List ist grundsätzlich, dass sie alle Begriffe aus der Verbraucherpreisstatistik enthält, die unkritisch sind. Dies geht aber nur durch die Sichtung der entsprechenden Feinbeschreibungsmerkmale und der Evaluation der jeweiligen Informationen. Das Verfahren scheint demnach keinen Vorteil gegenüber der eingangs beschriebenen manuellen Prüfung und Entfernung der sensiblen Informationen zu bringen. Allerdings eröffnet die White List die Möglichkeit, die Evaluation der Feinbeschreibungen zu speichern und auf einen anderen Berichtsmonat anzuwenden. Gleicht man die Feinbeschreibungen des anderen Berichtsmonats mit der Liste ab, müssen nur die Feinbeschreibungen geprüft werden, die noch nicht in der White List stehen. Das bedeutet, dass die Prüfung zu Beginn sehr arbeitsintensiv ist, sich aber mit jedem neu betrachteten Berichtsmonat weiter reduziert. Das HSL nimmt an, dass die Reduktion exponentiell zunimmt, da die Feinbeschreibungen immer zu Beginn einer Basisperiode aufgrund neuer Güterstichproben befüllt werden und sich in den darauffolgenden fünf Erhebungsjahren bei Ausfall des Produkts oder der Betriebsstelle ändern (können). Im Rahmen einer sukzessiven Bereitstellung der Berichtsmonate in den FDZ würde somit der Anteil der pseudonymisierten Feinbeschreibungen zunächst sehr hoch sein und dann im Zeitverlauf sinken. Für wissenschaftliche Nutzungen würden zunehmend mehr Feinbeschreibungen im Klartext zur Verfügung stehen, bei denen sichergestellt ist, dass sie keine sensiblen Informationen enthalten.

Die White List ist ein Konzept, dass die FDZ in die Lage versetzen könnte, so viele Details wie möglich bereitzustellen. Dadurch stellt sie ein praktikables Instrument zum Umgang mit den Feinbeschreibungsmerkmalen dar. Durch die Kombination mit der Pseudonymisierung wird zudem sichergestellt, dass keine sensiblen Informationen offenbart werden. Die Vergabe gleicher Pseudonyme für gleiche Feinbeschreibungen ermöglicht in Teilen den Erhalt des Analysepotenzials.

Vereinheitlichung der Schreibweisen

Bei dem Vorgehen der Pseudonymisierung hat es sich als problematisch erwiesen, dass Abweichungen in der Schreibweise von Begriffen, z. B. durch Abkürzungen und Schreibfehler, mit einer Vergabe eines neuen Pseudonyms einhergeht. Z. B. würden „Oryza“ und „Oriza“ zwei unterschiedliche Pseudonyme erhalten, die anschließend nicht mehr erkennen lassen, dass es sich um ein inhaltlich äquivalentes Wort handelt. Für die der FDZ besteht nicht die Möglichkeit, solche Abweichungen vor der Pseudonymisierung zu korrigieren. Daher könnte seitens des FDZ im HSL der Service angeboten werden, vorab eine Vereinheitlichung der Schreibweisenvorzunehmen, um dadurch die Anzahl der zu vergebenen Pseudonyme zu reduzieren.

Der Entscheidungsprozess, welche Feinbeschreibungen zu einem gemeinsamen Eintrag vereinheitlicht werden sollen, beruht auf einer Kombination aus deterministischen Entscheidungsregeln und der Anwendung maschinellen Lernens:

Jede Feinbeschreibung eines Produkts wird mit jeder anderen Feinbeschreibung der anderen Produkte innerhalb derselben Feinbeschreibungskategorie verglichen. Die Entscheidungsregeln geben vor, welche Eigenschaften der Feinbeschreibungen notwendig sind, damit diese aufgrund einer hohen Ähnlichkeit zusammengefügt werden können. Sie wurden eigens zu dem Zweck entwickelt, unterschiedliche Feinbeschreibungen mit fälschlicherweise hohen Ähnlichkeiten zu ignorieren (Regel eins bis drei) bzw. sie wurden aus der Evaluation erster Probeläufe abgeleitet (Regel vier und fünf). Dies ist notwendig, da sonst zahlreiche falsche Vereinheitlichungen vorgenommen werden würden:

Regel 1:  Feinbeschreibungen werden nur innerhalb einer Produktkategorie (COICOP 10-Steller) vereinheitlicht.

Regel 2:  Die Feinbeschreibungen müssen über denselben Anfangsbuchstaben verfügen.

Regel 3:  Das Ähnlichkeitsmaß zwischen zwei Feinbeschreibungen muss mindestens 90 % betragen.

Regel 4:  Feinbeschreibungen, in denen eine Zeichenfolge (bis zu drei Zeichen, bestehend aus Buchstaben, Ziffern oder Satzzeichen) durch Leerzeichen losgelöst vom übrigen Text steht, werden ignoriert (z. B. „Pflegestufe 1“).

Regel 5:  Feinbeschreibungen, in denen zwei oder mehr Ziffernfolgen durch einen Punkt getrennt sind und durch Leerzeichen losgelöst vom übrigen Text stehen, werden ignoriert (z. B. „Version 1.1“, „Art-Nr. 1515.4546.5465.“).

Anhand der bundesweiten Verbraucherpreisdaten vom Mai 2016 wurden verschiedene Ähnlichkeitsmaße getestet und manuell überprüft, ob die zu vereinheitlichenden Feinbeschreibungen auch tatsächlich inhaltlich äquivalent sind. Getestet wurden

  • die Levenshtein-Distanz, die die Anzahl der zu ändernden Zeichen angibt, um einen Text in einen anderen Text zu überführen
  • das zirkuläre Bigramm, das die Feinbeschreibungen in eine Abfolge von Textteilen zerlegt, die aus zwei Zeichen bestehen (bigramme). So wird bspw. aus „Preise“ „Pr“, „re“, „ei“, „se“ und „eP“;
  • das Trigramm, das statt Zweierfolgen immer drei Zeichen betrachtet, sowie
  • das phonetische Maß „Soundex“, welches die Texte in Codes für die Vokale übersetzt und dadurch ähnlich klingende Wörter identifizieren kann.

Die Vereinheitlichung anhand der verschiedenen Maße wird jeweils unter Beachtung der o. g. Regeln vier und fünf und ohne durchgeführt.

Es zeigte sich, dass restriktivere Bedingungen zu weniger Vereinheitlichungen führen. Bei weniger Vereinheitlichungen der Schreibweisen sinkt der Anteil derer, die als falsch klassifiziert werden. Vereinheitlichungen durch einen phonetischen Abgleich sind zahlreicher aber auch fehleranfälliger. Die Verwendung der Regeln vier und fünf und dem Ähnlichkeitsmaß „Bigramm“ ergibt die optimale Balance zwischen der Reduktion der Pseudonymenanzahl und des Anteils der fehlerhaften Vereinheitlichungen.

Konkret bedeutet dies am Beispiel des ersten von zehn Feinbeschreibungsmerkmalen des Berichtsmonats Mai 2016 mit bundesweiten Daten, dass durch das Entfernen der Feinbeschreibungen zu den Mieten, der Angleichung der Groß- und Kleinschreibung, dem Auflösen von Umlauten („ä“ zu „ae“) und der Einhaltung der oben genannten Regeln und dem Ähnlichkeitsmaß „Bigramm“ sich die Anzahl der zu vergebenden Pseudonyme um rund 30 % reduzieren lässt. Etwa 1,4 % der Feinbeschreibungen werden durch eine neue Feinbeschreibung ersetzt. Die anschließende manuelle Überprüfung der neu zugewiesenen Feinbeschreibungen ergibt, dass davon rund 5 % falsch sind, die alte Feinbeschreibung mit der neuen also nicht im Zusammenhang steht und die Vereinheitlichung rückgängig gemacht werden muss. Würde keine Korrektur erfolgen, würden auf den gesamten Datensatz gesehen 0,07 % aller Einträge des ersten Feinbeschreibungsmerkmals einen falschen Begriff enthalten. Es ist daher in jedem Fall notwendig die Vereinheitlichung der Schreibweisen abschließend zu überprüfen. Diese Überprüfung der zu vereinheitlichen Feinbeschreibungen muss allerdings nicht ausschließlich manuell erfolgen. Sie lässt sich durch die Methoden des maschinellen Lernens unterstützen und damit effizienter gestalten. Beim maschinellem Lernen wird einem Algorithmus beigebracht, wann eine Vereinheitlichung falsch ist und wann nicht. Dies kann den Überprüfungsaufwand deutlich reduzieren.

Verwendung des Maschinellen Lernens zur Kontrolle der Vereinheitlichung

Die Arbeitsbelastung durch eine Prüfung jeder Vereinheitlichung soll möglichst gering gehalten werden und nur die Vereinheitlichungen geprüft werden, die vorher durch einen Algorithmus als falsch prognostiziert wurden. Ein hierfür geeignetes deterministisches, regelbasiertes Verfahren ist zwar relativ einfach zu installieren, die Kausalität zwischen der Klassifizierung (falsch oder richtig) und den verschiedenen vorliegenden, beobachtbaren Eigenschaften ist jedoch unbekannt und entsprechende Grenzwerte müssen willkürlich und für alle Fälle festgelegt werden. Hier liegen ein hoher Aufwand und ein großes Fehlerpotenzial vor. Um eine automatisierte Klassifikation mit dennoch möglichst hoher Genauigkeit zu erzielen, eignet sich hierfür ein Verfahren aus dem Bereich der prädiktiven Modellierung.

Mit Hilfe historischer Daten, bei denen die Klassifikation durch Recherche bekannt ist, kann die Kausalität zwischen der Wahrscheinlichkeit oder einer anderen Vorteilsfunktion eines bestimmten Klassifikationsmerkmals und den beobachtbaren Merkmalen einmal geschätzt und die so gelernten Parameter für die Bestimmung nicht recherchierter Klassifikationen verwendet werden. Dies hat den Vorteil, dass die Recherche der klassifizierten Daten – bei Gültigkeit des zugrundeliegenden Datenmaterials als Grundgesamtheit – nur einmal durchgeführt werden muss. Alle neu auftretenden Fälle könnten dann bei Gültigkeit der Grundgesamtheitsannahme und bei Verfügbarkeit der erklärenden Merkmale ohne Recherche automatisch klassifiziert werden. Eine solche Klassifikation mit amtlichen Daten ist mit Hilfe der prädiktiven Modelle bereits erfolgreich zum Einsatz gekommen, etwa bei der Identifikation von erwerbstätigen Müttern. Die Berücksichtigung dieser Eigenschaft ist bedeutend im Zusammenhang mit dem Gender Pay Gap3. Ein weiterer Einsatz automatisierter Klassifikationen amtlicher Mikrodaten war die prädiktive Bestimmung von E-Commerce-Aktivitäten hessischer Unternehmen4.

Für die Wahl des prädiktiven Modells bieten sich grundsätzlich ein klassisches, statistisches Querschnittsanalysemodell und ein Verfahren des vollüberwachten maschinellen Lernens an. Während klassische auf Probabilismus (Wahrscheinlichkeit für das Auftreten eines Klassifikationsmerkmals) beruhende Statistikmethoden wie die logistische Regression (LOGIT) sehr gut dazu geeignet sind, die Zusammenhänge zwischen der Klassifikation und den verfügbaren erklärenden Merkmalen zu analysieren und zu interpretieren, stehen die Verfahren des maschinellen Lernens eher für eine sehr hohe Prognosegenauigkeit. In diesem Fall dienen die historischen Daten als Trainings- und Testdaten5. Aufgrund der guten Anwendbarkeit und sehr hohen Genauigkeit wird neben der logistischen Regression der Ansatz der ‚Support Vector Machine‘ (SVM) als Verfahren des maschinellen Lernens für die Prognose verwendet.

Für den Zweck der Kausalitätsanalyse mit den beiden Verfahren, wird zuerst ein binärer Klassifizierer definiert, der zwei Fälle enthält. Im positiven Fall liegt eine korrekte, im negativen Fall eine inkorrekte Vereinheitlichung vor. Ein im HSL vorliegender historischer, vollständig recherchierter und um Dubletten bereinigter Testdatensatz enthält für das erste von zehn Feinbeschreibungsmerkmalen 8 482 Vereinheitlichungen, die nach der im vorigen Abschnitt erläuterten Methode vorgenommen wurden. Von den beobachteten Klassifikationsmerkmalen sind 8 053 Fälle positiv und 429 Fälle negativ. Abhängig von der Auswahl erklärender Merkmale, könnte das Zustandekommen der beobachteten Klassifikation nun mit Hilfe der prädiktiven Modelle erlernt werden.

Es liegt jedoch ein besonders starkes Ungleichgewicht beim Auftreten der Klassifikationsmerkmale zu Gunsten der positiven Fälle vor. Auf jeden negativen Fall kommen rund 19 positive Fälle. Dies kann die Performanz des Schätzprozess der prädiktiven Modellierung drastisch verringern und sich verzerrend auf die Klassifikation auswirken. Dabei könnte der Prognosealgorithmus als Error-Minimum-Ansatz die Variabilität in der Minderheitsklasse als Reststreuung ignorieren und grundsätzlich zur Mehrheitsklasse tendieren. Um eine solche Verzerrung in der Prognose in den beiden Klassen zu vermeiden, wurden die Daten des Trainingsdatensatzes über Synthetic Minority Over-Sampling (SMOTE) vor dem Lernen der Kausalitäten ausgeglichen. Dabei werden zufällig Fälle der Mehrheitsklasse gelöscht und Fälle der Minderheitsklasse über Simulationsmethoden vermehrt, bis ein ausbalancierter Datensatz entsteht6. Die Anwendung des SMOTE-Verfahrens ergibt einen ausbalancierten Datensatz mit 3 452 Einheiten, der zur Hälfte positive und negative Fälle enthält (siehe Tabelle 1).

Tabelle 1: Korrekte und inkorrekte Vereinheitlichungen in den originalen und ausbalancierten Daten

Historische Daten
OriginalSMOTE
Vereinheitlichungkorrekt8 0531 736
inkorrekt4291 716
gesamt8 4823 452

In den ausbalancierten, historischen Daten enthaltene Größen, die sich als potenzielle Einflussfaktoren auf das Vorliegen eines positiven oder negativen Falls herausgestellt haben sind:

  • die Länge der Feinbeschreibung (String),
  • der berechnete Ähnlichkeitsparameter (Bigramm),
  • ein binärer Indikator, für das Vorkommen von Kardinalzahlen und
  • ein binärer Indikator, für das Vorkommen eines COICOP-Zweistellers.

Die ausbalancierten Daten werden nun noch per Zufallsverfahren zur Hälfte in eine Trainings- und in eine Teststichprobe aufgeteilt. Der Trainingsdatensatz mit 1 727 Beobachtungen dient hierbei dem vollüberwach-ten Funktionslernen der entsprechenden Kausalitäten und der Testdatensatz mit 1 726 Beobachtungen der Korrektheitsevaluation der durchgeführten Klassifikationen.

Bei der logistischen Regression wird die Kausalität zwischen den genannten Einflussfaktoren und der Wahrscheinlichkeit, dass das Klassifikationsmerkmal der jeweiligen Einheit einen positiven Fall enthält, mit Hilfe der Trainingsdaten geschätzt. Basierend auf den gelernten Parametern erfolgt dann die Berechnung der Wahrscheinlichkeit für ein einen positiven Fall enthaltendes Klassifikationsmerkmal. Dabei muss jedoch vorher entschieden werden, welches Wahrscheinlichkeitsniveau für die Zuweisung eines positiven Falls überschritten werden muss. Somit ist der Anteil korrekter Klassifikationen im Testdatensatz für verschiedene Wahrscheinlichkeitsniveaus berechnet worden (siehe Abbildung 2). Es erfolgt die Entscheidung für das Wahrscheinlichkeitsniveau für einen positiven Fall, welches den Anteil korrekter Klassifikationen maximiert. Dies ist bei einem Wahrscheinlichkeitsniveau von 60 % der Fall. Hier erreicht die logistische Regression einen Anteil korrekter Klassifikationen von positiven und negativen Fällen von maximal 86,15 %.

Abbildung 2: Anteil korrekter Klassifikationen bei der logistischen Regression für verschiedene Klassifikationswahrscheinlichkeiten in Prozent

Die Klassifikationsquote als Ergebnis der in Tabelle 2 abgebildeten Konfusionsmatrix ist mit 86,15 % bei der eher einfachen und ohne großen Rechenaufwand durchführbaren logistischen Regression ein vergleichsweise gutes Ergebnis.

Tabelle 2: Konfusionsmatrix der logistischen Regression

Referenz
Vereinheitlichung
inkorrektkorrekt
Prognose LOGITVereinheitlichunginkorrekt66748
korrekt191820

Die Support Vector Machine (SVM) ist wesentlich komplexer und rechenaufwändiger als die logistische Regression, wird jedoch häufig als das für Klassifikationsprozesse leistungsstärkste Verfahren des vollüberwachten maschinellen Funktionslernens betrachtet. Es wird daher getestet, ob sich durch die SVM eine höhere Klassifikationsquote erreichen lässt. Dabei werden bei der SVM in einem Vektorraum, in dem sich alle zu klassifizierenden Objekte befinden, eine Hyperebene eingepasst, welche die Objekte voneinander trennt. Die Objekte, die der Hyperebene am nächsten liegen, werden als Support-Vektoren bezeichnet. Die Hyperebene wird dabei so angepasst, dass der Abstand zwischen den Support-Vektoren maximal wird. Die SVM basiert nicht auf der Prognose von Klassifikationswahrscheinlichkeiten, sondern auf sogenannten Vorteils- oder Nutzenfunktionen. Die Klassifikation ist Ergebnis eines Optimierungsprozesses. Somit ist es nicht nötig, willkürlich Schwellen oder Grenzen für die Klassifikation wie bei der logistischen Regression festzulegen.

Das Lernen der SVM mit den Trainingsdaten sowie die Anwendung der Parameter auf die Testdaten ergibt folgende Ergebnisse in Tabelle 3.

Tabelle 3: Konfusionsmatrix der Support Vector Machine

Referenz
Vereinheitlichung
inkorrektkorrekt
Prognose SVMVereinheitlichunginkorrekt77441
korrekt84827

Der Anteil der korrekten Klassifikationen bei der SVM liegt mit 92,8 % um knapp 7 Prozentpunkte höher als beim LOGIT mit 86,15 %. Der Anteil der korrekt prognostizierten positiven Fälle liegt bei beiden Ansätzen bei knapp 95 %. Der Anteil der korrekt prognostizierten negativen Fälle ist bei der SVM mit 90,1 % jedoch um gut 12 Prozentpunkte höher als beim LOGIT.

Die Prognosen mit den erlernten Kausalitäten für die originalen, nicht ausbalancierten Daten ergeben ein ähnliches Bild. Die SVM prognostiziert mit 94,2 % etwa 2 Prozentpunkte weniger korrekte positive Fälle als das LOGIT mit 96,1 %. Mit 85,6 % klassifiziert die SVM jedoch etwa 18 Prozentpunkte mehr korrekte negative Fälle als das LOGIT mit 67,1 %. Mit einer Balanced Accuracy, ein Genauigkeitsmaß, welches die Unausgeglichenheit der Klassenverteilung berücksichtigt, liegt der Anteil korrekt klassifizierter Fälle bei der SVM mit 90,1 % um etwa 8 Prozentpunkte höher als beim LOGIT mit 82,5 %.

Die SVM, als Verfahren des maschinellen vollüberwachten Funktionslernens, stellt sich somit dem LOGIT, als traditionelle Schätz- und Klassifikationsmethode, bezogen auf die Prognosequalität als überlegen heraus. Im Rahmen der Bereitstellung der Einzeldaten aus der Verbraucherpreisstatistik wird daher die SVM als lernender Algorithmus zur Überprüfung der Vereinheitlichungen verwendet. Durch den automatisierten Ablauf kann die Arbeitsbelastung reduziert werden. Es werden nur die Vereinheitlichungen manuell überprüft und ggf. korrigiert, die die SVM als falsch prognostiziert. Diese manuellen Evaluationen fließen wiederum in den Aufbau des Trainingsdatensatz ein und sollen so die Prognosefähigkeit sukzessive verbessern.

Fazit und Ausblick

Aufgrund der gegenwärtigen Gesetzeslage ist es nicht möglich, die Feinbeschreibungsmerkmale im Klartext ungeprüft an den Gastwissenschaftsarbeitsplätzen der FDZ bereitzustellen, da die in ihnen vorkommenden sensiblen Informationen entfernt werden müssen. Eine vollständige manuelle, für jeden Berichtsmonat sich wiederholende Prüfung ist aufgrund der hohen Anzahl der Feinbeschreibungen nicht praktikabel. Die Verwendung einer White Liste in Kombination mit der Pseudonymisierung stellt einen optimalen Kompromiss für ein mögliches, zukünftiges Standardangebot dar, da für die wissenschaftliche Nutzung der Einzeldaten aus der Verbraucherpreisstatistik ein Rest an Informationsgehalt der Feinbeschreibung erhalten bleibt. Die Nutzerinnen und Nutzer der FDZ bekämen zudem durch das Erstellen einer Positivliste die Möglichkeit, für ihre Forschung relevante und zugleich aus statistikrechtlicher Sicht unbedenkliche Begriffe der White List hinzuzufügen. Durch das evaluierte und vom HSL am besten bewertete Vereinheitlichungsmodell wird der Informationsgehalt sogar noch etwas erhöht, da Schreibweisen vereinheitlicht werden können und die Begriffsgruppen homogener werden. Die eingesetzten Verfahren, wie die Vereinheitlichung der Feinbeschreibungen, die durch einen lernenden Prüfalgorithmus der Support-Vector-Machine unterstützt wird, und die anschließende automatisierte Pseudonymisierung, bieten die Möglichkeit, die großen Textmengen effizient zu bearbeiten. Dadurch könnte eine Aufnahme der Verbraucherpreisdaten in das Angebot der FDZ ermöglicht werden.

Darüber hinaus konnten in der Auseinandersetzung mit den Verfahren wertvolle Erfahrungen bezüglich des automatisierten Umgangs mit Textelementen gesammelt werden. Auf ihnen können bei zukünftigen Projekten, wie bspw. der automatischen Klassifikation von Wirtschaftszweigen auf Grundlage von Unternehmensbeschreibungen weiter aufgebaut werden.

Literaturverzeichnis

CHAWLA, Nitesh O., Kevin BOWYER, Lawrence O. HALL und W. Philip KEGELMEYER, 2002. SMOTE: Synthetic Minority Over-sampling Technique. In: Journal of Artificial Intelligence Research [online], 16(2002), S. 321-357 [Zugriff am: 25.04.2019]. AAAI Press. ISSN: 1076-9757, Verfügbar unter: DOI: 10.1613/jair.953

DUMPERT, Florian und Martin BECK, 2017. Einsatz von Machine-Learning-Verfahren in amtlichen Unternehmensstatistiken. In: AStA Wirtschafts- und Sozialstatistisches Archiv [Online], 11(2), S. 83-106 [Zugriff am: 14.08.2019]. Springer Science+Business Media on behalf of the German Statistical Society. ISSN: 1863-8163, Verfügbar unter: DOI: 10.1007/s11943-017-0208-6

NILSSON, Nils J.,1998. Introduction to Machine Learning: An early draft of a proposed Textbook [unpublished]. Stanford, Stanford University. [Zugriff am 14.08.2019]. Verfügbar unter: http://robotics.stanford.edu/people/nilsson/mlbook.html

PETERS, Normen, 2018. Webscraping von Unternehmenswebseiten und maschinelles Lernen zum Gewinnen von neuen digitalen Daten. Sonderauswertung: Hessisches Statistisches Landesamt [Zugriff am: 14.08.2019]. Verfügbar unter: https://statistik.hessen.de/sites/statistik.hessen.de/files/Webscraping_von_Unternehmenswebseiten.pdf

STATISTISCHES BUNDESAMT, 2013. Einnahmen und Ausgaben der privaten Haushalte – Systematisches Verzeichnis [online]. Wiesbaden: Statistisches Bundesamt. [Zugriff am 14.08.2019]. Verfügbar unter: https://www.destatis.de/DE/Methoden/Klassifikationen/Private-Haushalte/sea-2013.pdf?__blob=publicationFile&v=3

STATISTISCHES BUNDESAMT, 2018. Verbraucherpreisindex für Deutschland – Qualitätsbericht[online]. Wiesbaden: Statistisches Bundesamt. [Zugriff am 14.08.2019]. Verfügbar unter: https://www.destatis.de/DE/Methoden/Qualitaet/Qualitaetsberichte/Preise/verbraucherpreis.pdf?__blob=publicationFile&v=3

Beitrag drucken

  1. Statistisches Bundesamt, 2013.
  2. Für mehr Details zur Statistik siehe Statistisches Bundesamt, 2018.
  3. Siehe Dumpert und Beck 2017.
  4. Siehe Peters 2018.
  5. Siehe Nilsson 1998.
  6. Siehe Chawla, Bowyer, Hall und Kegelmeyer 2002.

Schreiben Sie einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.