Wirtschaft

Erweiterung des regionalen Datenangebots in der Einzelhandelsstatistik

Lesedauer: 14 Minuten

Eine zentrale Aufgabe der statistischen Landesämter ist die Bereitstellung regionaler Daten. Häufig sind der Veröffentlichung von Ergebnissen in tiefer regionaler Untergliederung jedoch enge Grenzen gesetzt. Über den Einsatz moderner Hochrechnungs- bzw. Schätzmethoden, sogenannter Small-Area-Verfahren, ist es dennoch möglich, auch räumlich tiefer gegliederte Ergebnisse auf der Grundlage von Stichproben zu gewinnen, die ursprünglich nicht dafür konzipiert waren, zum Beispiel in der Einzelhandelsstatistik.

Von Dr. Peter Gottfried, Hessisches Statistisches Landesamt

1. Einleitung

Eine zentrale Aufgabe der statistischen Landesämter ist die Bereitstellung regionaler Daten. Häufig sind der Veröffentlichung von Ergebnissen in tiefer regionaler Untergliederung jedoch enge Grenzen gesetzt. Dies gilt insbesondere dann, wenn es sich bei den Ergebnissen um Hochrechnungen aus einer Stichprobenerhebung handelt. Denn in aller Regel werden Stichproben bereits im Vorfeld so konzipiert, dass sie mit minimalem Erhebungsaufwand (d. h.  Stichprobenumfang) verlässliche Hochrechnungen für eine vorab festgelegte Aggregationsebene, z. B. für Bundesländer, erlauben. Regional tiefer gegliederte Ergebnisse, etwa Hochrechnungen für Regierungsbezirke oder gar Kreise, sind dann auf Basis der vorliegenden Stichprobe sehr unzuverlässig und wenig belastbar. Zumindest dann, wenn sie nach der klassischen Hochrechnungsmethode ermittelt werden. Hierzu wäre ein deutlich höherer Stichprobenumfang und damit größerer Erhebungsaufwand erforderlich gewesen. Über den Einsatz moderner Hochrechnungs- bzw. Schätzmethoden, sogenannter Small-Area-Verfahren, ist es dennoch möglich, auch räumlich tiefer gegliederte Ergebnisse auf der Grundlage von Stichproben zu gewinnen, die ursprünglich nicht dafür konzipiert waren.

Nach vermehrten Anfragen seitens privatwirtschaftlicher Verbände und regionaler öffentlicher Institutionen hat sich das Hessische Statistische Landesamt (HSL) dazu entschlossen, diese Methoden zu nutzen, um in der Einzelhandelsstatistik Ergebnisse für kreisfreie Städte und Landkreise auszuweisen. An der Schnittstelle zwischen Erzeugerseite und privatem Endverbrauch ist die Einzelhandelsbranche per se ein zentraler Wirtschaftsfaktor. Gesamtwirtschaftliche Entwicklungen wie etwa die der Beschäftigung, Tarifabschlüsse oder Änderungen des Sparverhaltens der privaten Haushalte schlagen zumindest teilweise auf den Einzelhandel durch. In regionaler Hinsicht ist er ausschlaggebend für die Versorgung der regionalen Bevölkerung mit Gütern und er trägt zur Finanzkraft der regionalen Gebietskörperschaften bei. In Hessen ist der Einzelhandel bereits seit geraumer Zeit die Branche mit den meisten (umsatzsteuerpflichtigen) Unternehmen und dem vierthöchsten Gesamtumsatz1.

Den hier vorgestellten Schätzungen der Beschäftigten und Umsätze auf Ebene der kreisfreien Städte und Landkreise gingen eine Reihe von Voruntersuchungen voraus. Den Auftakt bildete eine Pilotstudie2, in welcher zunächst zwei Small-Area-Verfahren – das Area-Level-Modell von Fay und Herriot3 sowie das Uni-Level-Modell von Battese, Harter und Fuller4 – zur Schätzung von Kreisergebnissen herangezogen wurden. Im weiteren Verlauf wurden auch mehrere Varianten eines verallgemeinerten Regressionsschätzers (GREG) getestet. Die angesprochenen Schätzverfahren werden in Abschnitt 3 kurz dargestellt und ihre Eignung für das gegebene Schätzvorhaben in einer Monte-Carlo-Simulationsrechnung geprüft. Aufbau der Simulationsstudie und die Simulationsergebnisse sind in Abschnitt 4 aufgeführt. Der darauffolgende Abschnitt 5 präsentiert schließlich die finalen Schätzergebnisse und beinhaltet noch einige Anmerkungen zur Interpretation der ermittelten Kreiszahlen. Zunächst sei jedoch im unmittelbar anschließenden Abschnitt 2 kurz auf die Datengrundlage – die Jahreserhebung im Handel – eingegangen; nicht zuletzt vor dem Hintergrund, die vorliegende Schätzproblematik etwas deutlicher zu veranschaulichen.

2. Einzelhandelsstatistik

Das Hessische Statistische Landesamt publiziert regelmäßig zwei Statistische Berichte, die sich auf den Einzelhandel beziehen. In der Reihe G I 4 wird die monatliche Entwicklung von Umsatz und Beschäftigten in Form von Messzahlen und Veränderungsraten ausgewiesen. Dargestellt sind jeweils Landeswerte für den Einzel-, Kfz-oder Großhandel insgesamt oder für Teilbranchen in 3-stelliger Gliederungstiefe nach der Wirtschaftszweigsystematik WZ 2008 – also für Wirtschaftsgruppen. Die Reihe G I 3 wiederum enthält Strukturdaten zum hessischen Einzelhandel in Form von Jahreswerten.  Neben Umsatz und Beschäftigten werden auch Aggregate wie Aufwendungen, Investitionen und Bruttogewinnspannen der Branche publiziert. Auch hier erfolgt die Darstellung für die gesamte Einzelhandelsbranche und für Wirtschaftsgruppen. In beiden Berichten ist keine regionale Untergliederung der jeweiligen Landeswerte enthalten.

Grundlage der für den Einzelhandel publizierten Ergebnisse bildet in beiden Fällen eine bundesweit gezogene Stichprobe. Die Ergebnisse stellen somit stichprobenbasierte Schätzwerte dar. Befragt werden bundesweit maximal 8,5 % aller rechtlich selbständigen Unternehmen mit einschlägigem wirtschaftlichen Schwerpunkt und Sitz in Deutschland. Auswahlgrundlage für die Stichprobe bildet die jeweils aktuellste Registerkopie des Statistischen Unternehmensregisters. Die Stichprobe ist mehrfach geschichtet, d. h. in Teilstichproben untergliedert. Die Schichtung erfolgt nach den Merkmalen Bundesland, Wirtschaftsgruppe und innerhalb der Wirtschaftsgruppen nach Umsatzgrößenklasse. Dieses Vorgehen bietet eine Reihe von Vorteilen. Grundsätzlich hat die Bildung von homogeneren Teilstichproben eine stabilisierende Wirkung auf die Schätzergebnisse. In umgekehrter Richtung müssen aus einer homogeneren Teilgesamtheit weniger Stichprobeneinheiten gezogen werden, um ein präzises Schätzergebnis zu erhalten. Im Endeffekt lässt sich dadurch der Erhebungsaufwand reduzieren. Für jede der einzelnen Teilstichproben kann ein gesonderter Auswahlsatz gewählt werden. Gegenwärtig werden beispielsweise in der Schicht der umsatzschwächsten Unternehmen, je nach Branche, zwischen 2 und 7 % der Unternehmen befragt, in der Schicht der umsatzstärksten Unternehmen hingegen alle (Auswahlsatz 100 %). Mitunter bezeichnet man letztere deshalb auch als Totalschichten, erstere als Repräsentativschichten. Für die Gewinnung der jährlichen Strukturdaten wurden in 2017 von den rund 25 000 hessischen Einzelhandelsunternehmen insgesamt 2 378 befragt. Die Messzahlen zur monatlichen Entwicklung von Beschäftigten und Umsatz basieren auf einer Teilmenge der Stichprobe, nämlich auf Unternehmen mit einem Netto-Jahresumsatz von mehr als 250 000 Euro.

Trotz der Flexibilität, mit der der gesamte Stichprobenumfang gezielt gesteuert werden kann, ist für jede der Schichten oder Teilgruppen bekannt, wie viele Einheiten der Grundgesamtheit ein befragtes Unternehmen repräsentiert5. Die Information wird bei der klassischen Hochrechnungsmethode in Form von Hochrechnungsfaktoren genutzt. Alle Statistischen Landesämter ermitteln nach dieser Methode die Ergebnisse für die Strukturdaten und weisen sie in den entsprechenden Statistischen Berichten aus.

3. Alternative Schätzverfahren

Zur Schätzung von Umsatz und Beschäftigten auf Kreisebene wurden vier Verfahren näher in Betracht gezogen und ihre Leistungsfähigkeit unter den hier vorliegenden Ausgangsdaten in einer Simulationsrechnung getestet. Auch die zuvor angesprochene klassische Hochrechnungsmethode ist in den Test einbezogen, obwohl es sich dabei nicht um ein Small-Area-Verfahren handelt. Es dient vielmehr als Vergleichs- bzw. Orientierungsmaßstab. Die jeweiligen Schätzverfahren seien im Folgenden kurz vorgestellt. Auf die genaue formale Darstellung wird jedoch verzichtet.6

3.1 Horvitz-Thompson-Schätzer (klassische Hochrechnungsmethode)

Wie im vorangehenden Abschnitt angesprochen, kann jedem befragten Unternehmen über die Schichtung der Stichprobe in Verbindung mit den gewählten Auswahlsätzen ein Hochrechnungsfaktor zugeordnet werden. In der Regel entsprechen die Hochrechnungsfaktoren gerade dem Kehrwert der Wahrscheinlichkeit, dass das betreffende Unternehmen in die Stichprobe gelangt. Nach der klassischen Hochrechnungsmethode schätzt man die Umsatzsumme von beispielsweise Tankstellen (Wirtschaftsgruppe 47.3), indem man die Umsätze aller befragten Tankstellen mit den jeweiligen Hochrechnungsfaktoren multipliziert und anschließend aufsummiert. Das Verfahren wird üblicherweise nach seinen Entwicklern7, als Horvitz-Tompson-Schätzer (HT) mitunter auch als freie oder ungebundene Hochrechnung bezeichnet. Mit der Methode ließen sich prinzipiell auch die Umsatzsummen für Landkreise und kreisfreie Städte schätzen. Für dieses Aggregat ist die vorliegende Stichprobe aber nicht geschichtet. Während man bei den Wirtschaftsgruppen (zumindest im Vorfeld) genau weiß, wie viele Unternehmen der Grundgesamtheit die befragten Einheiten jeweils repräsentieren, ist dies bei Kreiszugehörigkeiten nicht der Fall. So ist es leicht vorstellbar, dass sich in der einen Stichprobe einmal 10 Unternehmen einer Branche und eines bestimmten Landkreises befinden, in der nächsten Stichprobe hingegen 15 oder nur eines, obwohl sich weder die Konzeption der Stichprobe noch die Unternehmenslandschaft geändert hat. Dieser zusätzliche Unsicherheitsfaktor trägt stark zur Unzuverlässigkeit einer freien Hochrechnung der Kreisergebnisse bei.

3.2 Small-Area-Schätzer

Allen Small-Area-Verfahren ist der Ansatz gemein, in die Schätzung zusätzliche Informationen einfließen zu lassen, um dadurch stabilere und präzisere Ergebnisse zu erzielen. Je enger diese zusätzlichen Informationen, die sogenannten Hilfsvariablen, mit dem eigentlich interessierenden Merkmal (der Zielvariablen) verbunden sind – genauer gesagt korrelieren – desto erfolgsversprechender ist das Unterfangen. Ferner sollten bei den hier vorgestellten Verfahren die Werte der Hilfsvariablen relativ sicher sein und nicht ihrerseits Schätzergebnisse darstellen und auf diese Weise eine weitere Unsicherheit in das Verfahren hineintragen. Da im Statistischen Unternehmensregister (URS) für jedes hessische Einzelhandelsunternehmen u. a. auch Umsatz- und Beschäftigtenzahlen hinterlegt8 sind, bietet es sich an, diese Werte aus der entsprechenden URS-Registerkopie als Hilfsvariablen heranzuziehen. In diesem Zusammenhang sei darauf hingewiesen, dass die jeweiligen Merkmale in beiden Datenquellen zwar gleich bezeichnet werden, ihre inhaltliche Abgrenzung sich aber voneinander unterscheidet. So sind in der Registerkopie beispielsweise die Umsätze aus Lieferungen und Leistungen gemäß der Umsatzsteuervoranmeldung hinterlegt, die in der Regel auf die in der vorangehenden Umsatzsteuerveranlagung festgestellten Umsätze zurückgehen. In der Jahreserhebung im Handel werden die Unternehmen dagegen direkt nach dem Umsatz im Berichtsjahr befragt. Es besteht aber ein sehr enger Zusammenhang zwischen den beiden Merkmalen. Ähnlich verhält es sich mit den Beschäftigtenangaben. Während im Unternehmensregister die sozialversicherungspflichtig Beschäftigten hinterlegt sind, werden in der Jahreserhebung im Handel sämtliche tätige Personen erfasst (beispielsweise auch unbezahlt mithelfende Familienangehörige).

3.3 GREG-Schätzer

Zum einfacheren Verständnis könnte man sich gedanklich das Vorgehen bei einer GREG-Schätzung in drei Schritte unterteilt vorstellen. Im ersten Schritt wird der Zusammenhang zwischen Ziel- und Hilfsvariable in Form einer Regressionsgeraden geschätzt. Dabei ist es denkbar, eine einheitliche Regressionsgerade für alle Einzelhandelsunternehmen in der Stichprobe anzunehmen oder mehrere regional spezifische, etwa für Ballungsräume, ländliche Regionen, etc. oder pragmatisch separat für jeden Kreis eine eigene. Letzteres wurde hier unterstellt.9 Im zweiten Schritt wird gewissermaßen getestet, wie gut das klassische Hochrechnungsverfahren anhand der Hilfsvariablen funktioniert. Für die Unternehmen in der Stichprobe werden über die zugehörigen Werte der Hilfsvariablen und Hochrechnungsfaktoren die Summen der Hilfsvariablenwerte geschätzt. Da die Hilfsvariablenwerte für alle Unternehmen der Grundgesamtheit vorliegen, sind auch die tatsächlichen Summen bekannt. Sie dienen gewissermaßen als Richtwerte bzw. Vergleichsgröße zu den geschätzten Summen. Im dritten Schritt werden schließlich die klassisch hochgerechneten Schätzwerte der Zielvariablen um die Differenz zwischen tatsächlicher und geschätzter Summe der Hilfsvariablen korrigiert. Die Koeffizienten der Regressionsgeraden fungieren dabei als Umrechnungsfaktoren, um die Einheiten der Hilfsvariablen in Einheiten der Zielvariablen zu überführen. Aufgrund dieser Ausrichtung bzw. Korrektur der frei hochgerechneten Ergebnisse am Abschneiden der Hochrechnung bei den Hilfsvariablen, wird das Verfahren auch als gebundene Hochrechnung bezeichnet. Das Verfahren ist in der deutschen amtlichen Statistik fest etabliert und wird in unterschiedlichen Bereichen eingesetzt10.

Abweichend zu dem gerade skizzierten allgemeinen Vorgehen wurden im konkret gewählten GREG-Schätzansatz keine Totalschichten berücksichtigt. Die als Richtwerte dienenden Summen über die Hilfsvariablen wurden entsprechend nach unten angepasst. Da Totalschichten sich dadurch auszeichnen, dass alle Unternehmen mit Sicherheit in die Stichprobe eingehen und auch befragt werden, besteht kein Korrekturbedarf für die daraus resultierenden Teilsummen, unabhängig davon zu welchem Landkreis oder zu welcher kreisfreien Stadt die Unternehmen gehören. Differenzen zwischen den jeweiligen Teilsummen haben dann andere Ursachen, etwa unterschiedliche Bearbeitungsstände.

3.4 Unit-Level-Schätzer

Ähnlich dem GREG-Schätzer geht das Schätzverfahren nach Battese, Harter und Fuller (BHF) davon aus, dass zwischen dem Wert des eigentlich interessierenden Merkmals (eines Unternehmens) und den Werten der Hilfsvariablen (für dasselbe Unternehmen) ein linearer Zusammenhang besteht. Dieser fixe Zusammenhang ist für alle Unternehmen identisch, er wird jedoch von einem zufälligen, regional spezifischen Niveaueffekt überlagert. Bei allen Unternehmen einer Region ist der Niveaueffekt gleich hoch, zwischen den Regionen fallen die Niveaueffekte aber unterschiedlich aus. In regionaler Hinsicht gehorchen sie einer Normalverteilung. Grob skizziert erfolgt die Schätzung des Niveaueffekts auf Basis der jeweils relevanten Stichprobenmittelwerte von Ziel- und Hilfsvariablen, die Schätzung der fixen Komponente auf Basis der Mittelwerte der Hilfsvariablen in der Grundgesamtheit. Zusammengenommen ergibt sich somit eine Schätzung für den Mittelwert der Zielvariablen je Kreis. Da angenommen wird, dass der feste Zusammenhang auf Ebene der Einheiten besteht, bezeichnet man das Verfahren auch als Unit-Level-Schätzer.

3.5 Area-Level-Schätzer

Etwas weniger anspruchsvoll hinsichtlich der Verfügbarkeit von Hilfsinformationen ist ein Area-Level-Schätzer. Auch hier wird ein fester linearer Zusammenhang unterstellt, aber auf Aggregatsebene. Die interessierende Kreissumme hängt linear von bekannten Aggregaten für diesen Kreis – den Hilfsinformationen – ab. Hilfsinformationen in Form von Einzeldaten für jedes Unternehmen sind nicht notwendig. Der für alle Kreise identische fixe Zusammenhang wird auch in diesem Modell von einem zufälligen regionalen Effekt überlagert. Ferner wird davon ausgegangen, dass eine freie Hochrechnung die Kreissumme erwartungstreu schätzt. Der Area-Level-Schätzer nach Fay und Herriot (FH) kombiniert nun diese beiden Komponenten. Der Schätzer besteht somit aus einer Linearkombination zwischen der freien Hochrechnung und einem Regressionsteil, der den fixen Zusammenhang beschreibt. Diejenige der beiden Komponenten, welche die geringere (geschätzte) Streuung aufweist, erhält in der kombinierten Schätzung das stärkere Gewicht.

4. Monte-Carlo-Simulation

Die Simulationsstudie besteht darin, aus einer Grundgesamtheit wiederholt Zufallsstichproben zu ziehen, die im vorangehenden Abschnitt beschriebenen Schätzverfahren anzuwenden und die Schätzergebnisse einander gegenüberzustellen. Wird dieses Vorgehen hinreichend oft wiederholt, konkret wurden nacheinander 10 000 Stichproben zufällig gezogen, erhält man einen recht guten Eindruck von der zufallsbedingten Streuung der Schätzergebnisse der einzelnen Verfahren. Da die Grundgesamtheit vorgegeben ist, kann man auch die tatsächlichen Ergebnisse ermitteln und die Schätzergebnisse daran messen.

Es wurde versucht, die Simulation so zu gestalten, dass sie dem eigentlichen Schätzvorhaben möglichst nahekommt. Als Grundgesamtheit diente eine URS-Registerkopie. Die darin ausgewiesenen, auf Kreisebene aggregierten Umsatz- und Beschäftigtensummen der Unternehmen im Einzelhandel dienen gewissermaßen als Referenzgröße, die es zu schätzen gilt. Für die Schätzung wurden geschichtete Stichproben gezogen, wobei Schichtenbildung (Branchenuntergliederung, Umsatzgrößenklassen, Klassengrenzen, etc.) und Auswahlsätze identisch mit denen der Jahreserhebung im Handel sind. Als Hilfsvariablen werden die Unternehmenswerte aus der URS-Registerkopie des Vorjahres herangezogen. Sie korrelieren mit den Zielvariablen in etwa ebenso stark wie erfragte Umsätze (Zielvariable) und URS Umsätze (Hilfsvariable) beim eigentlichen Schätzvorhaben.

Abbildung 1 zeigt die Ergebnisse für die Schätzung der Umsätze der kreisfreien Städte und Landkreise in Form von Box-Plots. Die Plus-Zeichen repräsentieren jeweils die tatsächlichen Werte, die farblichen Linien kennzeichnen den Wertebereich, in den die 10 000 Schätzergebnisse fallen. Die etwas dicker gezeichnete Teillinie markiert den Wertebereich in den die mittleren 50 % der Schätzwerte fallen, die dünneren Enden die Bereiche, die von den 25 % größten bzw. kleinsten Schätzwerten abgedeckt werden.

Abbildung 1: Ergebnisse der Schätzverfahren im Vergleich – Schätzwerte der Einzelhandelsumsätze in hessischen kreisfreien Städten und Landkreisen (jeweils 10 000 Einzelschätzungen)

Aus der Abbildung geht klar hervor, dass die über die klassische Hochrechnung ermittelten Schätzergebnisse (blaue Linien) am meisten streuen. Mit anderen Worten fallen die Hochrechnungen sehr unterschiedlich aus, je nachdem, welche Einheiten in die Stichprobe gezogen werden. Die stabilsten, d. h. am wenigsten streuenden Schätzergebnisse erzeugt der Battese-Harter-Fuller-Schätzer (gelbe Linien). Dies ist zum Teil dem Umstand geschuldet, dass der Schätzer Mittelwerte schätzt, die anschließend mit der tatsächlichen Zahl der Unternehmen je Kreis hochgerechnet werden. Der destabilisierende Effekt, der mit einer unbekannten Zahl von Unternehmen verbunden ist, entfällt somit in der Simulation. Die Box-Plots für die BHF-Schätzungen zeigen aber auch, dass die Schätzwerte bei einigen Kreisen systematisch zu hoch oder zu niedrig ausfallen, d. h. dass die Schätzungen mitunter recht deutlich verzerrt sind. Diese Verzerrungen schmälern den positiven Effekt der sehr niedrigen Streuung der Schätzwerte beträchtlich. Auch die Fay-Herriot- (grüne Linien) und GREG-Schätzungen (rote Linien) weisen Verzerrungen auf, wenngleich diese weitaus weniger stark ausgeprägt sind. Im direkten Vergleich von Fay-Herriot-Schätzer und GREG-Schätzer produziert das Greg-Verfahren die stabileren Schätzungen (den schmaleren Streuungsbereich, den die einzelnen Schätzwerte einnehmen) und weist die geringere Verzerrung auf (die Linien sind symmetrischer um die Plus-Zeichen zentriert).

Eine ähnliche Einschätzung legen die Simulationsergebnisse zur Schätzung der Beschäftigtenzahlen nahe. In Tabelle 1 sind die Ergebnisse in Form von Kennzahlen für die Schätzgüte der Verfahren ausgewiesen. Die Gütekriterien, welche die Indikatoren quantifizieren, sind dieselben wie zuvor. Der Standardfehler (SF) misst die durchschnittliche Abweichung der Schätzwerte vom mittleren Schätzwert – dem Erwartungswert. Je größer der Standardfehler ausfällt, desto unterschiedlicher fallen die einzelnen Schätzergebnisse aus. Die Verzerrung (B) misst die systematische Über- oder Unterschätzung als Abweichung des mittleren Schätzwerts vom tatsächlichen Wert. Je größer B ausfällt, desto stärker sind die Schätzungen systematisch verzerrt. Der Gesamtfehler (RMSE) umfasst schließlich beides: Streuung und Verzerrung.11

Tabelle 1: Simulationsergebnisse zur Schätzung von Beschäftigtenzahlen – Indikatoren zur Schätzgüte der Verfahren: Standardfehler (SF), Verzerrung (B) und Gesamtfehler (RSME) jeweils im Verhältnis zum tatsächlichen Wert (Angaben in %).

KreisHorvitz-ThompsonFay-HeriottBattese-Harter-FullerGREG
SFBRMSESFBRMSESFBRMSESFBRMSE
Darmstadt, Wissenschaftsstadt9.810.039.844.151.335.480.011.081.093.7903.79
Frankfurt am Main, Stadt5.240.015.252.752.174.920.014.364.371.951.13.05
Offenbach am Main, Stadt16.47016.479.072.3811.450.010.920.937.830.097.92
Wiesbaden, Landeshauptstadt10.050.0210.074.640.074.710.025.835.853.590.544.13
Bergstraße10.560.0210.584.070.864.930.011.041.053.320.033.35
Darmstadt-Dieburg9.960.110.064.160.044.20.025.065.084.810.084.89
Groß-Gerau8.440.078.516.075.0911.160.021919.022.520.663.18
Hochtaunuskreis13.20.0113.215.120.425.540.023.683.74.380.014.39
Main-Kinzig-Kreis7.4707.472.890.12.990.010.580.592.390.132.52
Main-Taunus-Kreis9.6909.694.340.725.060.011.881.894.040.014.05
Odenwaldkreis18.50.0718.579.970.5410.510.028.128.146.150.036.18
Offenbach10.45010.454.320.074.390.025.145.164.920.665.58
Rheingau-Taunus-Kreis10.860.0110.876.584.6111.190.018.28.213.520.043.56
Wetteraukreis8.740.058.792.990.643.630.010.210.222.810.062.87
Gießen6.250.076.322.460.63.060.010.280.293.580.013.59
Lahn-Dill-Kreis110.4111.414.331.295.620.010.460.472.520.452.97
Limburg-Weilburg13.180.5413.725.861.547.40.023.313.334.580.334.91
Marburg-Biedenkopf10.010.0610.073.830.324.150.011.161.172.830.873.7
Vogelsbergkreis20.210.220.4110.090.1710.260.029.49.426.10.166.26
Kassel, documenta-Stadt10.060.0110.073.391.745.130.011.631.643.911.255.16
Fulda7.40.067.462.990.043.030.022.462.481.690.011.7
Hersfeld-Rotenburg12.830.1412.977.460.047.50.0210.4910.514.840.715.55
Kassel10.080.0310.113.590.053.640.024.334.354.251.585.83
Schwalm-Eder-Kreis4.930.064.992.260.793.050.011.11.111.470.131.6
Waldeck-Frankenberg11.380.0711.455.070.215.280.024.744.763.603.6
Werra-Meißner-Kreis15.370.315.678.612.9111.520.010.570.588.180.879.05

In Tabelle 1 fallen die sehr geringen Streuungen (SF-Werte) der BHF-Schätzungen direkt ins Auge. Der Unit-Level-Schätzer produziert somit auch bei der Schätzung der Beschäftigtenzahlen die stabilsten Schätzungen. Demgegenüber fallen die Verzerrungen (B-Werte) wiederum vergleichsweise hoch aus. Die umgekehrte Situation, praktisch keine Verzerrungen aber sehr hohe Streuungswerte, kann für die klassische Hochrechnung festgestellt werden. Von allen vier getesteten Verfahren liefert der GREG-Schätzer auch hier in der Tendenz die besten Ergebnisse.

Um ein hohes Qualitätsniveau der veröffentlichten Daten zu gewährleisten, gibt sich die amtliche Statistik Standards hinsichtlich der Verlässlichkeit der ausgewiesenen Ergebnisse. Aufgrund unterschiedlicher Rahmenbedingungen unterscheiden sich die Veröffentlichungskriterien von Statistik zu Statistik. Die Einzelhandelsstatistik betreffend, werden Ergebnisse geklammert, wenn der relative Standardfehler größer als 10 % ausfällt. Überschreitet er die 15 % Marke, wird kein Ergebnis ausgewiesen. Wie aus Tabelle 1 hervorgeht, müssten nach diesen Kriterien die herkömmlich hochgerechneten Ergebnisse (Horvitz-Thompson) bei 12 Kreisen geklammert und für vier Kreise komplett gesperrt werden. Da bei Small-Area-Verfahren die systematischen Verzerrungen der Schätzergebnisse höher ausfallen als bei einer freien Hochrechnung erscheint es für erstere angebracht, die Veröffentlichungskriterien am Gesamtfehler (RMSE) anzulegen und nicht nur den Standardfehler zu betrachten. Zieht man wiederum die in Tabelle 1 gelisteten Ergebnisse heran, genügen fast alle Small-Area-Schätzungen dem 15 %-Gütekriterium. Bei der Fay-Herriot-Schätzung wären sechs Kreisergebnisse zu klammern, bei der Unit-Level-Schätzung wäre das Schätzergebnis für den Landkreis Hersfeld-Rotenburg zu klammern und der Schätzwert für Groß-Gerau zu sperren. Diese Einschätzung bezieht sich wohlgemerkt auf die Simulationsergebnisse. Bei der eigentlichen Schätzung ist es sicherlich möglich, durch weitere Maßnahmen den relativen Gesamtfehler bei diesen beiden Verfahren noch etwas zu reduzieren. Die GREG-Schätzungen würden ohne weiteres Zutun den Standards genügen. Für keine Region fällt hier der relative Gesamtfehler höher als 10 % aus. Aufgrund dieser Ergebnisse wurde für die eigentlichen Schätzungen das GREG-Verfahren gewählt.

5. Ergebnisse

Das grundsätzliche Vorgehen der GREG-Schätzung wurde bereits in Abschnitt 3 kurz umrissen. Als Hilfsvariablen für die (eigentliche) Schätzung dienten Informationen aus der URS-Registerkopie des jeweiligen Berichtsjahres für das die Schätzung vorgenommen wurde. Für die Schätzung der Einzelhandelsumsätze 2015 also die in der Registerkopie für das Jahr 2015 ausgewiesenen Umsätze. Für die Schätzung der Beschäftigten in 2015 die im URS 2015 hinterlegte Zahl der tätigen Personen, usw. Vor der Schätzung der Regressionskoeffizienten wurden eine Ausreißer-Analyse durchgeführt und zudem die Einheiten mit starker Hebelwirkung auf die Ergebnisse von der Regression ausgenommen. Nach Schätzung der Regressionskoeffizienten wurde der Modellzusammenhang auch dazu verwendet, teilweise fehlende Hilfsvariablenwerte zu imputieren.  Abschließend stellte ein Benchmarking-Verfahren sicher, dass die Summe der Kreisergebnisse dem Landesergebnis entsprechen.

Die Abbildungen 2 zeigt die regionale Verteilung der Umsätze im Einzelhandel in den Jahren 2015-2017. Die Zahlenwerte sind in Tabellenform auch hier abrufbar (Bitte verwenden Sie zum Öffnen der Datei den Browser Google Chrome. Mit den Browsern Internet Explorer und Modzilla Firefox könnte sich die Datei nicht korrekt öffnen lassen).

Abbildung 2: Umsatz hessischer Einzelhandelsunternehmen 2015-2017 nach Landkreisen und kreisfreien Städten (in Millionen Euro)

Wenig überraschend hatte Frankfurt am Main die höchsten Umsätze zu verzeichnen. Rund 12,5 % des hessischen Umsatzes im Einzelhandel entfallen allein auf Unternehmen mit Sitz in der Mainmetropole. Auch die Umsatzzuwächse liegen mit rund 8 % in 2016 und 15 % in 2017 deutlich über den landesweiten Durchschnittswerten (4 % in 2016, 8 % in 2017).

Daneben erwirtschafteten die in den Landkreisen Gießen, Fulda und dem Main-Kinzig-Kreis ansässigen Einzelhandelsunternehmen Umsätze über der 2-Milliarden-Euro-Marke. Es ist jedoch zu beachten, dass diese Umsätze nicht ausschließlich in der betreffenden Region erwirtschaftet wurden. Dies soll Abbildung 3 verdeutlichen. Sie zeigt die Umsatzsumme, die von ausschließlich in Hessen agierenden Einzelhandelsunternehmen erwirtschaftet wird und die Umsätze von Einzelhandelsunternehmen mit Filialen in mehreren Bundesländern, sog. Mehrländerunternehmen. Der Abbildung ist zu entnehmen, dass gerade im Landkreis Fulda, dem Main-Kinzig-Kreis, aber auch in Frankfurt am Main der Umsatz von Mehrländerunternehmen sehr hoch ist.

Abbildung 3 basiert auf einer Auswertung des Statistischen Unternehmensregisters, denn die Jahreserhebung im Handel enthält keine diesbezüglichen Informationen.  Die Auswertung bezieht sich, strenggenommen, deshalb nur auf die Hilfsvariable – den Umsatz aus Lieferung und Leistung gemäß der Umsatzsteuervoranmeldung. Aufgrund des engen statistischen Zusammenhangs zwischen dem der Umsatzsteuervoranmeldung zugrundeliegenden Umsatz und dem in der Erhebung berichteten Umsatz, dürften für die Zielvariable aber ähnliche Größenordnungen vorliegen.

Abbildung 3: Umsatz im Einzelhandel 2017 nach Landkreisen und kreisfreien Städten und Art der Unternehmen (in Mio. Euro)

Die in Abbildung 4 dargestellte regionale Verteilung der Beschäftigten im Einzelhandel zeigt ein zur Verteilung der Umsätze sehr ähnliches Muster. In 2017 waren etwas mehr als 11 % der insgesamt rund 198 000 hessischen Beschäftigten im Einzelhandel bei in Frankfurt am Main ansässigen Unternehmen beschäftigt. Mit über 15 000 Beschäftigten nimmt der Landkreis Fulda den zweiten Rang ein, gefolgt vom Schwalm-Eder-Kreis mit rund 13 700 Beschäftigten und dem Main-Kinzig-Kreis mit 13 400 Beschäftigen, wobei die hohen Beschäftigtenzahlen in den genannten Landkreisen wiederum auf die starke Präsenz von Mehrländerunternehmen zurückzuführen sind.

Abbildung 4: Anzahl der Beschäftigten hessischer Einzelhandelsunternehmen 2015-2017 nach Landkreisen und kreisfreien Städten

6. Fazit und Ausblick

Wie die Simulationsrechnungen zeigten, produziert von den hier getesteten Schätzverfahren der GREG-Schätzer die besten Ergebnisse hinsichtlich der Genauigkeit und Stabilität der Schätzwerte. Er wird deshalb zur Regionalisierung der Umsätze und Beschäftigten im Einzelhandel herangezogen. Die Ergebnisse werden künftig regelmäßig publiziert und können in die Regionaldatenbank Deutschland einfließen.

Das hier beschriebene Vorgehen lässt sich prinzipiell auch auf andere Bereiche übertragen, um dort detailliertere Ergebnisse, die aber dennoch den Qualitätsstandards der amtlichen Statistik genügen, publizieren zu können. Die Ergebnisse der Simulationen, insbesondere die Wahl des Verfahrens, sind dabei spezifisch für die untersuchte Fallstudie regionalisierter Einzelhandelsumsätze. Durch individuelle Anwendung der dargestellten Methodik könnten die jeweils geeigneten Verfahren auch für andere Untersuchungen ermittelt werden. Grundsätzlich zeigt aber das Abschneiden aller Small-Area-Verfahren im Test das große Potential dieser Methoden, das angesichts der mittlerweile bestehenden Vielfalt von Verfahren in der vorliegenden Studie lediglich angerissen werden konnte. Mit ihnen ist es möglich, das Datenangebot sowohl in inhaltlich fachlicher als auch in regionaler Perspektive zu erweitern. Diese Ausweitung des Datenangebots erfordert weder einen zusätzlichen Aufwand bei der Erhebung und der Aufbereitung der Daten noch einen Mehraufwand seitens der Auskunftspflichtigen. Voraussetzung für den erfolgreichen Einsatz der Verfahren ist allerdings die Verfügbarkeit geeigneter Hilfsvariablen.

Literatur:

Battese, G. E., Harter, R. M. und Fuller, W. A. 1988. An Error-Components Model for Prediction of County Crop Areas Using Survey and Satellite Data. In: Journal of the American Statistical Association Bd. 83 (401), S. 28-36.

Berg, a. und Biehler, W. 2014. Das Hochrechnungsverfahren zur Ermittlung der Einwohnerzahl im Zensus 2011. In: Statistisches Bundesamt (Herausgeber): Wirtschaft und Statistik, Bd. 4, S. 229-235. Wiesbaden.

Fay, R. E. und Herriot, R. A. 1979. Estimates of Income for Small Places: An Application of James-Stein Procedures to Census Data. In: Journal of the American Statistical Society, Bd. 74 (366a), S. 269-277.

Frentzen, K. und Günther, R. 2017. Korrektur des Antwortausfalls in der Verdiensterhebung 2015. In: Statistisches Bundesamt (Herausgeber): Wirtschaft und Statistik, Bd. 2, S. 24-42. Wiesbaden.

Gottfried, Peter, 2017. Der Einsatz von Small-Area-Verfahren – erste Erfahrungen mit Area-Level-Schätzungen. In: Hessisches Statistisches Landesamt (Herausgeber): StaWi – Staat und Wirtschaft in Hessen, 72. Jahrgang, 1/2017, S. 17-28. Wiesbaden.

Hessisches Statistisches Landesamt, 2019. Statistische Berichte, Kennziffer: L IV 1- j/17, Umsatzsteuerstatistik 2017, Wiesbaden.

Horvitz, D. G. und Thompson, D. J., 1952. A generalization of sampling without replacement from a finite universe. In: Journal of the American Statistical Association Bd. 47 (260), S. 663-685.

Manecke, Julia, 2017. Die Regionalisierung der hessischen Jahreserhebung im Einzelhandel anhand von Small-Area-Verfahren. In: Hessisches Statistisches Landesamt (Herausgeber): StaWi – Staat und Wirtschaft in Hessen, 72. Jahrgang, 1/2017, S. 29-41. Wiesbaden.

Rao, J. N. K und Molina, I. 2015. Small Area Estimation. John Wiley & Sons, Hoboken.

Statistisches Bundesamt, 2016. Verdienststrukturerhebung 2014 – Erhebung der Struktur der Arbeitsverdienste nach § 4 Verdienststatistikgesetz, Qualitätsbericht. Wiesbaden.

Beitrag drucken
  1. Umsatz verstanden als Umsatz aus Lieferungen und Leistungen, Abgrenzung des Einzelhandels gemäß der Brancheneinteilung nach der Wirtschaftszweigsystematik WZ 2008 – in zweistelliger Gliederungstiefe: 47 Einzelhandel (ohne Handel mit Kraftfahrzeugen); siehe bspw.: Hessisches Statistisches Landesamt 2019.
  2. Siehe Gottfried 2017 und Manecke 2017.
  3. Siehe Fay und Herriot 1979.
  4. Siehe Battese, Harter und Fuller 1988.
  5. Werden beispielsweise 2 % der Unternehmen (oder jedes fünfzigste) einer Teilgesamtheit befragt, repräsentiert ein befragtes Unternehmen sozusagen 50 Einheiten der Teilgesamtheit.
  6. Eine umfassende Darstellung aller hier eingesetzten Verfahren findet sich beispielsweise in Rao und Molina 2015.
  7. Horvitz und Thompson, 1952.
  8. Streng genommen nur dann, wenn das Unternehmen mehr als 17 500 Euro Jahresumsatz erwirtschaftet oder mindestens einen sozialversicherungspflichtig Beschäftigten aufweist. Ansonsten wird die Einheit nicht erfasst. In diesem Fall gelangt sie aber auch nicht in die Jahreserhebung im Handel.
  9. Man erspart sich die aufwändige Suche nach homogenen Wirtschaftsbereichen insbesondere vor dem Hintergrund der regionalen Zuordnung der Einheiten nach dem Unternehmenssitz ohne auf die Berücksichtigung kreisspezifischer Eigenheiten zu verzichten.
  10. Beispiele hierfür wären die Verdienststrukturerhebung 2014 (Statistisches Bundesamt 2016), die Verdiensterhebung 2015 (Frentzen und Günther 2017) oder der Zensus 2011 (siehe Berg und Biehler, 2014).
  11. Genau genommen, berechnet sich der Mean Squared Error (MSE) als Durchschnitt aus den quadrierten Abweichungen der Schätzwerte vom tatsächlichen Wert. Die Quadratwurzel aus diesem Ausdruck, der RMSE, ist für Interpretationszwecke besser geeignet, da er die gleiche Dimension aufweist, wie die Einzelwerte selbst.

Schreiben Sie einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.