Tourismus

Neue Digitale Daten für die Statistik: Wie Online-Buchungsportale für die Tourismusstatistik genutzt werden können

Lesedauer: 13 Minuten

Neue digitale Daten bieten für die amtliche Statistik besonderes Potential. Werden solche allgemein zugänglichen Daten Dritter1 mit Daten der amtlichen Statistik verknüpft, entsteht daraus ein Mehrwert für die amtliche Statistik, ggf. eine Entlastung für Auskunftspflichtige sowie mehr Informationsgehalt für Nutzerinnen und Nutzer. Der Erhebungsaufwand kann sowohl auf Seiten der Auskunftspflichtigen, wie auch auf Seiten der Statistischen Ämter reduziert, die Datenqualität weiter erhöht und die Ergebnisse schneller bereitgestellt werden. Zudem bieten neue Datenquellen für die Statistik die Möglichkeit, ihr Angebot ohne zusätzlichen Aufwand für Befragte zu erweitern. So können auch Bereiche außerhalb der in den Wirtschaftsstatistiken oft gebräuchlichen Abschneidegrenzen untersucht und auf diese Weise der Blick auf das wirtschaftliche Geschehen vervollständigt werden.

Dieser Beitrag beschreibt am Beispiel der Verknüpfung der amtlichen Beherbergungsstatistik mit Daten eines Online-Hotelbuchungsportals exemplarisch den Nutzen von öffentlich zugänglichen Daten aus dem Internet.2 Berichtskreispflege, Plausibilisierung der Daten sowie Erhebung bzw. Ersetzen fehlender Werte in der Erhebung spielen dabei vor allem eine Rolle. Darüber hinaus geht der Beitrag kurz auf die verwendete Verknüpfungsmethode ein.

Von Tobias Gramlich, Hessisches Statistisches Landesamt

Die Beherbergungsstatistik

Die Grundlage der monatlichen Beherbergungsstatistik ist die „Monatserhebung im Tourismus“ (MiT, im Folgenden auch „Monatserhebung“). Hier geben Betriebe bestimmter Wirtschaftsbereiche monatlich Auskunft über die Anzahl der Gästeankünfte (nach dem Wohnsitzland der Gäste) und Gästeübernachtungen. Erhoben werden außerdem Daten über die Größe der Betriebe, z. B. Anzahl der Betten, Gästezimmer oder Stellplätze. Als Hilfsmerkmale zur monatlichen Durchführung der Erhebung dienen u. a. Adress- und Kontaktinformationen für den Schriftverkehr bzw. für Nachfragen. Hierfür werden die Merkmale Name des Betriebes, Straße, Hausnummer, Postleitzahl, Ort, Telefonnummer oder auch Email-Adresse abgefragt. Betriebe sind auskunftspflichtig, wenn sie regelmäßig zehn oder mehr Schlafgelegenheiten bzw. Stellplätze anbieten. Die Ergebnisse der Beherbergungsstatistik werden etwa sechs Wochen nach Ende des jeweiligen Berichtsmonats veröffentlicht.

Daten aus Hotelbuchungs- und Bewertungsportalen im Internet

Buchungs- und Bewertungsportale im Internet sind besonders im Tourismus sowohl auf Angebots- als auch auf Nachfrageseite zur wichtigen Plattform geworden. Die Nutzung solcher Plattformen für die Suche nach und Buchung von Unterkünften ist heutzutage für viele Menschen selbstverständlich. Die Präsenz der Beherbergungsbetriebe auf einer oder mehrerer Plattformen ist aus Gründen der Sicht- und Auffindbarkeit daher auch eine wirtschaftliche Notwendigkeit. Online-Portale bieten ihre Dienste für verschiedene Zielgruppen an: Für die klassische Hotellerie in ihren verschiedenen Ausprägungen, für Campingplätze, Ferienwohnungen und Ferienhäuser. Es gibt Angebote für größere Gruppenunterkünfte oder für beruflich auswärts tätige Personen. Dabei unterscheiden sich sowohl die Größe der einzelnen Portale als auch die Schnittmenge der Unterkünfte zwischen den Portalen.

Die Beherbergungsbetriebe präsentieren im Portal Informationen, die für potentielle Gäste interessant sind und die Unterkunft näher beschreiben. Für die Beherbergungsstatistik können die Portale damit als wichtige zusätzliche Daten- und Informationsquelle genutzt werden. Ausstattungsmerkmale oder Leistungsumfang der Unterkünfte sind in den Portalen erfasst und können in der amtlichen Statistik weiterverarbeitet werden. Zudem präsentieren die Unterkünfte zusätzlich Informationen wie „Nähe zum Flughafen/Bahnhof/Stadtzentrum“, die ebenfalls mit den Daten aus der amtlichen Statistik verknüpft werden können. Folgende Informationen oder Ausstattungsmerkmale sind für eine mögliche Erweiterung des Angebots der amtlichen Statistik im Bereich Tourismus und dort für Sonderauswertungen interessant:

  • Preis für eine Übernachtung
  • Hinweise zur Barrierefreiheit
  • Besondere Ausstattung/besondere Angebote (z. B. Sporthotel, Kur- und Bäderbetrieb, „Spa-Einrichtungen“)

Internetportale eignen sich also besonders gut für die Datengewinnung, da sie über eine Fülle an Informationen verfügen. Der ähnliche Strukturaufbau der verschiedenen Internetseiten erleichtert zudem die automatisierte Suche und Extraktion der Daten (siehe dazu Peters 2018).

Ziel der Verknüpfung von Daten der Monatserhebung im Tourismus mit Daten von Onlineportalen

Die zusätzlichen Informationen zu einer Unterkunft in den Portalen sind für die Beherbergungsstatistik aus zweierlei Gründen von großem Interesse. Sie können erstens dazu verwendet werden, die Vorbereitung der Erhebung zu unterstützen, die erhobenen Daten der Monatserhebung zu plausibilisieren oder sie zu ergänzen: Die MiT ist eine monatliche Vollerhebung mit Abschneidegrenze. Die Liste der auskunftspflichtigen Betriebe muss gepflegt und fortgeschrieben werden. Die Pflege des „Berichtskreises“ ist zeitaufwändig und bedarf manueller Recherchearbeit. Insbesondere die Feststellung der Größe eines Beherbergungsbetriebes („10 oder mehr Schlafgelegenheiten“) ist aus den Gewerbeanmeldungen, Branchen- oder Presseberichten nicht ersichtlich. Informationen von Hotelbuchungsportalen können die Durchführung der MiT außerdem dabei unterstützen, dass regelmäßig und automatisiert Beherbergungsbetriebe aus einem oder mehreren Portalen identifiziert werden, die bislang noch nicht für die Beherbergungsstatistik Auskunft gegeben haben.

Zweitens, und im besten Fall, sind Daten aus solchen Quellen, dazu geeignet, um weniger Daten bei den Auskunftspflichtigen erheben zu müssen. Das ist möglich, wenn für einen Beherbergungsbetrieb aus einem Buchungs- oder Bewertungsportal dieselben oder zumindest sehr ähnliche Informationen vorliegen wie diejenigen aus der Befragung der Betriebe. Die Belastung der befragten Betriebe könnte somit reduziert werden.

Methode

Einführung

Wenn zwei Datenquellen A und B mit Beherbergungsbetrieben oder Unterkünften miteinander verknüpft werden, ergeben sich prinzipiell mehrere mögliche Ergebnisse: Entweder ist man an den erfolgreich verknüpften Unterkünften bzw. Betrieben oder an den nicht verknüpfbaren Unterkünften bzw. Betrieben aus dem Internetportal interessiert: Für erfolgreich verknüpfte Einheiten liegen Informationen aus dem Portal vor, die Daten aus der Befragung entweder ersetzen können oder für Plausibilisierungen, Imputationen oder Sonderauswertungen verwendet werden können. Nicht verknüpfbare Einheiten müssen – nach weiterer Prüfung der Voraussetzungen – eventuell in die Befragung aufgenommen werden. Im konkreten Fall der Verknüpfung von Portalunterkünften mit der Monatserhebung im Tourismus spielen nicht nur diese beiden Datenquellen selbst eine Rolle, sondern auch mindestens ein weiterer „Rahmen“, der die Grundgesamtheit aller „Beherbergungsbetriebe“ im engeren Sinn (siehe dunkelgraue Fläche in Abbildung 1) und als Teilmenge davon die Auswahlgesamtheit der Monatserhebung darstellt (Beherbergungsbetriebe mit 10 oder mehr Schlafgelegenheiten; hellgraue Fläche). Denn nicht alle nicht verknüpften Portalunterkünfte sind notwendigerweise auch Betriebe, die in der Monatserhebung fehlen und aufzunehmen wären, z. B. Unterkünfte, die weniger als 10 Schlafgelegenheiten anbieten. Daneben kann es auf Portalen Unterkunftsangebote geben, die nicht zu den Beherbergungsbetrieben im engeren Sinne gehören (z. B. Saisonbetriebe, d. h. ein Beherbergungsbetrieb der temporär geschlossen ist).

Abbildung 1: Verhältnis von Beherbergungsbetrieben insgesamt, Unterkünften aus Internetportal und Betrieben der Monatserhebung

Die Verknüpfung zweier Datenquellen ist vergleichsweise einfach, wenn es in beiden Datenquellen für alle Datensätze einen gemeinsamen Schlüssel zur Verknüpfung gibt, zum Beispiel eine einheitliche und gemeinsame ID-Nummer. Zwei Datensätze aus A und B werden über diese einheitliche ID-Nummer miteinander verknüpft, wenn ihre ID-Nummern übereinstimmen. Im Wirtschaftsbereich stellen oft Umsatzsteuer-ID-Nummern, sonstige Steuernummern oder Handelsregisternummern solche einheitlichen und gemeinsamen ID-Nummern dar, die für eine fehlerfreie deterministische Verknüpfung verwendet werden können. Stimmen Steuernummer oder Registernummer überein, so kann man nahezu immer von einer korrekten Verknüpfung ausgehen. Stimmen die Nummern nicht überein, werden Datenquellen nicht verknüpft.

Anders sieht es aus, wenn keine Identifikationsmerkmale vorliegen: Oft liegen zur Verknüpfung nur Namen und Adressinformationen vor. Sie sind nicht selten mit Fehlern behaftet (z. B. infolge unterschiedlicher Schreibweisen wie „Maier“ und „Meyr“) oder nicht eindeutig (es gibt mehrere Beherbergungsbetriebe in einer „Bahnhofstraße“). Eine deterministische Verknüpfung erzeugt in solchen Fällen zu wenig korrekte und zu viel falsche Paare. Wenn keine eindeutigen Verknüpfungsschlüssel vorliegen – statt einer Identifikationsnummer bspw. nur mehrdeutige Adressinformationen – oder Verknüpfungsmerkmale nicht fehlerfrei sind, muss man zu fehlertoleranten Verfahren greifen (z. B. verschiedene Ähnlichkeitsmaße, räumliche Distanzen). Oder es werden probabilistische Verfahren angewendet, die keine Übereinstimmung (oder hohe Ähnlichkeit) zwischen Merkmalen voraussetzen, sondern lediglich eine häufigere Übereinstimmung als Nichtübereinstimmung erwarten bzw. auch zufällige Übereinstimmungen von Merkmalen berücksichtigen.

Verknüpfungsmethode

Betriebsnamen oder Adressangaben stimmen für zu verknüpfende Unterkünfte sehr häufig überein. Aber nicht immer, wenn sie übereinstimmen, handelt es sich auch um korrekte Zuordnungen. Ebenso im Umkehrfall: Auch korrekt zusammengehörige Paare können unterschiedliche Betriebsnamen und Adressangaben aufweisen. Idealerweise sind Übereinstimmungen unter korrekten Paaren sehr häufig und Nichtübereinstimmung sehr selten. Ebenso sind zufällige Übereinstimmungen für nicht zusammengehörige Paare sehr selten – prinzipiell ausgeschlossen sind sie aber nicht. Ähnlich verhält es sich bei der Verknüpfung von Betrieben der Monatserhebung im Tourismus mit Unterkünften aus Buchungsportalen: Eine Teilmenge von Betrieben und Unterkünften wird zunächst anhand übereinstimmender Email-Adressen deterministisch verknüpft. Aus dieser ersten mutmaßlich korrekt verknüpften Teilgruppe – dem „Goldstandard“ – können Parameter für ein sogenanntes „probabilistisches Record-Linkage“ (Newcombe 1959, Fellegi und Sunter 1969, Herzog, Scheuren und Winkler 2007) gewonnen werden.3 Diese Parameter berücksichtigen neben mehr oder weniger häufigen zufälligen Übereinstimmungen von Merkmalen unter nicht zusammengehörigen Paaren auch mehr oder weniger häufige Nichtübereinstimmungen von Merkmalen unter korrekten Paaren. Aus diesen auf diese Weise empirisch bestimmbaren Parametern werden Gewichte für Übereinstimmung bzw. Nichtübereinstimmung von verschiedenen nicht eindeutig identifizierenden Merkmalen (z. B. Namen und Adressbestandteile) bestimmt (z. B. werden Übereinstimmungen bei Straßen höher gewichtet als Übereinstimmungen bei Hausnummern) und für alle diese Verknüpfungsmerkmale zu einem Gesamtgewicht aufsummiert. Anhand dieses Gesamtgewichts („Matchgewicht“) können dann potentiell zusammengehörige Paare identifiziert werden.

Für die Paare des Goldstandards ist der wahre Verknüpfungsstatus bekannt, sodass daraus auch Fehlerraten unter einem Schwellenwert des Gesamtgewichtes für verschiedene Parameter der probabilistischen Verknüpfung berechnet werden können. Daraus können wiederum ideale Parameter gewählt werden, bei denen z. B. falsch positive und falsch negative Verknüpfungen in einem optimalen Verhältnis stehen. So bietet ein probabilistisches Verfahren den Vorteil, nicht auf ad-hoc gewählte Gewichte und Schwellenwerte zu bauen, sondern diese Parameter mathematisch fundiert bestimmen zu können.

Ergebnisse

Im Folgenden werden die Ergebnisse für die beiden Ziele der Verknüpfung beschrieben – für die nicht verknüpften Unterkünfte (von denen dann eventuell ein Teil in die Monatserhebung aufgenommen werden muss) und für die verknüpften Betriebe (für die gleiche oder ähnliche Informationen aus dem Portal und der Erhebung miteinander verglichen werden können).

Nicht verknüpfte Unterkünfte: Neue Betriebe für die Monatserhebung

Für die Verknüpfung zweier Datenquellen A und B werden alle Kombinationen für alle Einheiten aus A und B gebildet, für jedes Paar Verknüpfungsmerkmale verglichen sowie entsprechend der Parameter des Goldstandards Übereinstimmungs- und Nichtübereinstimmungsgewichte gebildet und zum Gesamtgewicht einer Paarkombination aufsummiert. Die allermeisten Paarkombinationen zu einer Einheit sind für die Verknüpfung typischerweise aber irrelevant, da sie nur sehr niedrige Gesamtgewichte erhalten. Für eine Einheit aus A sind oft nur sehr wenige Kombinationen mit B wirklich interessant: die Kombinationen mit den höchsten Matchgewichten.

Von allen möglichen Paarkombinationen wird für jede Unterkunft des Portals nur der Betrieb aus dem Berichtskreis der Monatserhebung mit dem höchsten Gesamtgewicht betrachtet („bester Treffer“). Liegt das Gesamtgewicht dieses Paares unterhalb des aus dem Goldstandard bestimmbaren Schwellenwertes, handelt es sich um ein richtig negatives Paar, d. h. es findet keine Zuordnung zu einem Betrieb der Monatserhebung statt und die Unterkunft des Portals muss ggf. in die Monatserhebung aufgenommen werden.

Tabelle 1 fasst die Ergebnisse zusammen. Auf dem für diese Arbeit herangezogenen Portal inserieren 2 437 Unterkünfte. Der Schwellenwert, ab dem keine korrekten Zuordnungen mehr erwartet werden, wurde mithilfe des Goldstandards bei einem Gesamtgewicht von 60 festgelegt. Unterkunftspaare mit einem Gesamtgewicht unter 60 gelten als nicht verknüpfbar. Demzufolge gelten 903 Unterkünfte des Portals als richtige Negative (RN), d. h. es gibt dazu keinen zugehörigen Treffer im Berichtskreis der Monatserhebung. Auf dem Onlineportal liegen nicht für alle Unterkünfte Angaben zur Anzahl der Schlafgelegenheiten vor. Berücksichtigt man die Abschneidegrenze der Monatserhebung, d. h. berücksichtigt man lediglich richtig negative Unterkünfte aus dem Portal mit Angabe von 10 oder mehr Schlafgelegenheiten bleiben 98 Unterkünfte, die eine nähere Betrachtung verdienen. Zieht man davon noch die 38 Unterkünfte ab, die zwar keinen besten Treffer oberhalb des Schwellenwertes haben, aber über die E-Mail-Adresse verknüpft werden können, bleiben 60 Unterkünfte aus dem Portal, die als potentielle Neuaufnahmen in Frage kommen. Nach manueller Recherche und Prüfung („clerical review“, ein notwendiger und anspruchsvoller Teil einer Verknüpfung) bleiben 23 Portalunterkünfte, die neu in den Berichtskreis der Monatserhebung aufgenommen werden.

Tabelle 1: Anzahl Portalunterkünfte nach Verknüpfungsergebnis und Angabe der Bettenzahl

 Anzahl PortalunterkünfteAnzahl Portalunter-
künfte mit Match-
gewicht unter 60
absolutin Prozentin Prozent
Insgesamt2 437100
davon Paare „bester Treffer“2 40698,7
davon mit Matchgewicht unter 60903100
davon mit Bettenangabe11212,4
davon mit 10 oder mehr Betten9810,9
abzüglich: Über Email verknüpfbar384,2
Potentielle Neuaufnahmen da RN602,46,6
davon: tatsächliche Neuaufnahmen in Berichtskreis230,92,5

Verknüpfte Betriebe: Ergänzung oder Plausibilisierung der Monatserhebung

Bettenzahl

Auf der anderen Seite steht eine korrekte Verknüpfung eines Betriebes der Monatserhebung mit einer Unterkunft aus dem Hotelportal: Das sind die jeweils besten Treffer zu jedem Betrieb der Monatserhebung oberhalb eines Schwellenwertes, der aus dem Goldstandard bei einem Gesamtgewicht von mindestens 90 bestimmt wurde. Tabelle 2 zeigt diese Ergebnisse zusammengefasst.

Von 3 249 Betrieben der Monatserhebung erreichen 1 253 Paare diesen Schwellenwert oder liegen darüber. Dazu kommen 87 Paare, die zwar unter dem Schwellenwert eines Gesamtgewichtes von 90 liegen, aber bereits über die E-Mail-Adresse verknüpft werden können. Damit können insgesamt 1 340 Betriebe oder 41,2 Prozent der Monatserhebung mit Unterkünften aus dem Internetportal verknüpft werden.

Für verknüpfte Betriebe ist zum Beispiel die Bettenangabe aus dem Online-Portal ein wichtiges Plausibilisierungsmerkmal. Für 1 168 verknüpfte Betriebe liegt aus dem Internetportal eine Angabe zu den angebotenen Schlafgelegenheiten vor. Mit über 87 Prozent ist das deutlich häufiger der Fall als bei allen besten Treffern des Portals (68 Prozent).

Tabelle 2: Anzahl Betriebe der Monatserhebung im Tourismus nach Verknüpfungsergebnis

 Anzahl Betriebe der MiTAnzahl verknüpfte
Betriebe der MiT
absolutin Prozentin Prozent
Monatserhebung im Tourismus
Insgesamt3 249100
Bester Treffer3 20198,5
Über Email verknüpfbar, aber NICHT bester Treffer (FN)481,5
Verknüpfungen
Matchgewicht 90 oder höher1 25338,6
Matchgewicht unter 90 ABER über E-Mail verknüpfbar (FN)872,76,5
Matchgewicht 90 oder höher ODER über Email-Adresse verknüpfbar1 34041,2100
Matchgewicht 90 oder höher ODER über Email-Adresse verknüpfbar mit Bettenangabe1 16835,987,2

Untersucht man die Größe der verknüpften bzw. nicht verknüpften Betriebe der Monatserhebung, zeigt sich, dass verknüpfbare Betriebe deutlich größer sind als nicht verknüpfbare Betriebe: Sie bieten im Mittel doppelt so viele Schlafgelegenheiten an wie nicht verknüpfbare Betriebe. Kleinere Betriebe sind entweder nun tatsächlich nicht auf dem Portal vertreten (richtig Negative, RN) oder lassen sich nur schwer bzw. gar nicht verknüpfen (falsch Negative, FN). Tabelle 3 zeigt diese Ergebnisse.

Tabelle 3: Anzahl Schlafgelegenheiten je Betrieb laut Monatserhebung im Tourismus nach Verknüpfungsergebnis

 MittelwertMedianSumme
Anzahl Schlafgelegenheiten laut MiT67,730219 916
Anzahl Schlafgelegenheiten laut MiT wenn verknüpft94,548126 574
Anzahl Schlafgelegenheiten laut MiT wenn nicht verknüpft48,92293 342

Da das Ziel der Verknüpfung in diesem Kapitel die Nutzung der Informationen aus dem Online-Portal zur Plausibilisierung oder als Ersatz für fehlende Werte bei der Monatserhebung ist, wird im Folgenden daher für verknüpfte Betriebe die Anzahl der Schlafgelegenheiten aus dem Online-Portal mit der aus der Monatserhebung verglichen.4 Wenn die Bettenzahlen in hohem Maße übereinstimmen, können mit den Angaben aus dem Portal fehlende Angaben in der Monatserhebung ergänzt werden und damit ggf. auf eine Erhebung in der Monatserhebung verzichtet werden.

Nicht für alle verknüpften Betriebe liegt allerdings aus dem Portal auch eine Information zu den Schlafgelegenheiten vor. Ein erstes Szenario verwendet daher für die 172 verknüpften Betriebe, für die keine Angaben zu den Schlafgelegenheiten aus dem Portal vorliegen, die für sie erfassten Schlafgelegenheiten aus der Monatserhebung. Ein zweites Szenario ignoriert die Schlafgelegenheiten dieser Betriebe komplett. Tabelle 4 zeigt die Gruppen, Gruppengrößen sowie die Anzahl der jeweils erfassten Schlafgelegenheiten.

Tabelle 4: Anzahl Betriebe und Anzahl Schlafgelegenheiten nach Verknüpfungsstatus

 Anzahl BetriebeAnzahl Schlafgelegenheiten
absolutin Prozentabsolutin Prozent
Insgesamt3 249100219 916100
1) nicht verknüpfbare Betriebe, Anzahl Schlafgelegenheiten aus MiT1 90958,893 34242,4
2) verknüpfte Betriebe, keine Schlafgelegenheiten aus Portal sondern aus MiT1725,38 9274,1
3a) verknüpfte Betriebe, Anzahl Schlafgelegenheiten aus MiT1 16835,9117 64753,5
3b) verknüpfte Betriebe, Anzahl Schlafgelegenheiten aus Portal1 16835,9115 16852,4

Tabelle 5: Anzahl Betriebe und Summe Schlafgelegenheiten nach Verknüpfung und Quelle der Angabe zu den Schlafgelegenheiten

 Anzahl BetriebeSumme Schlafgelegenheiten
absolutin Prozentabsolutin Prozent
Summe Schlafgelegenheiten lt. MiT (1+2+3a)3 249100219 916100
Summe Schlafgelegenheiten lt. MiT bzw. Portal (1+2+3b)3 249100217 43798,9
Summe Schlafgelegenheiten lt. MiT bzw. Portal (1+3b)3 07794,7210 98995,9

Es zeigt sich, dass die Unterschiede in den Summen der Schlafgelegenheiten nur gering sind (siehe Tabelle 5): Die Summe der Schlafgelegenheiten für verknüpfte Betriebe beträgt nach den Angaben im Online-Portal mit 115 168 rund 98 Prozent der Summe der Schlafgelegenheiten aus der Monatserhebung (Anteil Summe 3b an Summe 3a in Tabelle 5). Blickt man auf die einzelne Unterkunft, sind auch die individuellen Differenzen zwischen Befragung und Portalangabe oft nur gering: Für knapp ein Fünftel der verknüpften Betriebe unterscheidet sich die Angabe zu den Schlafgelegenheiten nicht, für weitere 36 Prozent nur um bis zu +/- 5 Schlafgelegenheiten. Nur für ein Fünftel der verknüpften Betriebe unterscheiden sich die Angaben zwischen den beiden Datenquellen um mehr als 20 Schlafgelegenheiten. Die Summe aller einzelnen absoluten Differenzen der Unterkünfte beträgt 22 645.

Auslastung

Die Anzahl der Schlafgelegenheiten spielt für die Beherbergungsstatistik nicht nur deshalb eine Rolle, weil sie die entscheidende Größe zur Bestimmung der Abschneidegrenze ist und die maximale Kapazität bzw. das maximale Angebot widerspiegelt. Sie ist auch eine notwendige Größe zur Berechnung der Auslastung der Beherbergungsbetriebe. Dazu wird die in der Monatserhebung erfasste Anzahl der Übernachtungen durch die Anzahl der „Bettentage“ geteilt:

Auslastung (in Prozent) = (Anzahl Übernachtungen) / (Anzahl angebotene Schlafgelegenheiten*Anzahl Öffnungstage) * 100 Prozent

Die Abbildungen 2a-c zeigen die in der Monatserhebung beobachtete Auslastung („MiT“) sowie die nach Verknüpfung mit den aus dem Portal ersetzten Schlafgelegenheiten neu berechneten Auslastungen der Betriebe („MiT|Portal“).

Abbildung 2a: Berechnete Bettenauslastung in Prozent für verknüpfte Betriebe der Monatserhebung.

Da sich die Angaben zu den Schlafgelegenheiten zwar unterscheiden, aber die Unterschiede nicht besonders groß sind, ist der Zusammenhang zwischen der in der Monatserhebung beobachteten Auslastung und der neu berechneten Auslastung mit einem Korrelationskoeffizienten von r = 0.84 sehr hoch (Abbildung 2a).

Abbildung 2b: Berechnete Bettenauslastung für alle Betriebe der Monatserhebung in Prozent nach Betriebsart.

Abbildung 2c: Berechnete Bettenauslastung für verknüpfte Betriebe in Prozent nach Betriebsart.

Da im Portal im Mittel etwas weniger Schlafgelegenheiten für die verknüpfbaren Unterkünfte berichtet werden als in der Monatserhebung, steigt im Vergleich zur Monatserhebung die Auslastung der Betriebe. Deutlich wird das insbesondere, wenn man nicht die Ergebnisse aller Betriebe der Monatserhebung (Abbildung 2b) betrachtet, sondern nur die für die verknüpften Betriebe (Abbildung 2c).

Bewertung der Ergebnisse

Die Ziele der Verknüpfung der Betriebe der Monatserhebung im Tourismus mit den Unterkünften in einem Online-Buchungsportal waren einerseits die Identifizierung von potentiellen Neuaufnahmen in die Monatserhebung im Tourismus (ein Teil der nicht verknüpfbaren Portalunterkünfte), andererseits die zusätzliche Information aus dem Portal für verknüpfte Betriebe, die ggf. zukünftig zur Minimierung der erfragten Merkmale und damit Reduzierung der Belastung der auskunftspflichtigen Betriebe führen kann.

Es hat sich gezeigt, dass Daten aus dem Internet prinzipiell geeignet sind, die Durchführung von Erhebungen der amtlichen Statistik zu unterstützen: Mehrere potentielle Neuaufnahmen konnten automatisch identifiziert und letztlich 23 zusätzliche Betriebe in den Berichtskreis der Monatserhebung aufgenommen werden. Dadurch verringert sich die bisherige manuelle Recherchearbeit und es bleibt mehr Zeit bspw. für qualitätssichernde Maßnahmen. Für verknüpfte Betriebe zeigen sich zwischen Portal und Monatserhebung zudem nur geringe Unterschiede für gleiche Merkmale, so dass sich die Merkmale aus dem Portal zur Plausibilisierung existierender Werte oder für den Ersatz fehlender Werte eignen. Auch das trägt zu einer Erhöhung der Qualität amtlicher Statistiken bei.

Manueller Rechercheaufwand nach weiteren Beherbergungsbetrieben entfällt auch bei Einsatz dieses unterstützenden Verfahrens nicht vollständig, da nicht davon auszugehen ist, dass alle Unterkünfte in Hessen auf einem oder mehreren Internetportalen vertreten sind. Hier wurde die Verknüpfung anhand eines Portals beschrieben. Der Rechercheaufwand kann mit der vorliegenden Methode aber weiter minimiert werden, wenn mehrere Portale für möglichst unterschiedliche Zielgruppen mit dem Berichtskreis der Monatserhebung verknüpft werden. Ob Unterschiede zwischen klassisch erhobenen Daten und Daten aus Internetportalen qualitativ bedeutsam sind, muss je konkretem Anwendungsfall individuell beurteilt werden. Die hier vorliegenden Ergebnisse für das Merkmal Schlafgelegenheiten jedenfalls deuten darauf hin, dass die Unterschiede insgesamt, also in aggregierter Form, nicht bedeutsam sind.

Ausblick

Die Nutzung digitaler Daten aus dem Internet für weitere Statistikbereiche bedarf in jedem Fall Machbarkeitsuntersuchungen, ist aber nach den vorliegenden Ergebnissen grundsätzlich möglich und sinnvoll. Denkbare Einsatzgebiete sind die Online-Erhebung von Preisen in der Preisstatistik, die generelle Berichtskreispflege in vielen Wirtschaftsstatistiken oder die Erstellung der Berichtskreise einiger spezieller Wirtschaftsstatistiken, für Sondererhebungen und Sonderauswertungen.

Das hier vorgestellte Verfahren bietet an vielen Stellen Möglichkeiten zur Adaption und Verbesserung. Im Zentrum dieses Beitrages stand die Beschreibung des prinzipiellen Vorgehens am Beispiel eines Onlineportals und der Beherbergungsstatistik. Eine notwendige Weiterentwicklung des beschriebenen Verfahrens ist die Anwendung auf andere Wirtschaftsbereiche und für die Beherbergungsstatistik die Verknüpfung mit mehreren Internetportalen, um unterschiedliche Betriebsarten besser abdecken zu können. Ein zusätzlicher Aspekt wird außerdem die Plausibilisierung solcher neuen digitalen Daten sein. Ein Hauptaugenmerk der Beherbergungsstatistik liegt neben der Anzahl, Art und Größe der Beherbergungsbetriebe auf der Anzahl der Gäste, deren Herkunft und Aufenthaltsdauer sowie auf der Auslastung des Bettenangebotes. Derzeit öffentlich zugängliche Daten aus dem Internet bieten für diese Merkmale keine Unterstützung. Die amtliche Statistik prüft derzeit noch andere Datenquellen, die diese Informationen liefern könnten: Zum einen sind das anonymisierte Buchungszahlen der Buchungsplattformen selbst, zum anderen werden anonyme Daten aus Mobilfunknetzwerken für die Zwecke der Beherbergungsstatistik untersucht. Beide Datenquellen bieten für die Beherbergungsstatistik großes Potential sowohl für eine weitere Erhöhung der Datenqualität und schnellere Bereitstellung von Ergebnissen als auch für die Entlastung von auskunftspflichtigen Betrieben.

Potenzial von Suchtrends bei Suchmaschinen

Neben Daten über Beherbergungsbetriebe können auch andere Daten aus dem Internet die Beherbergungsstatistik ergänzen. Zum Beispiel können Suchtrends von Suchwörtern oder Suchkategorien von Suchmaschinenanbietern dazu genutzt werden, Schnellvorhersagen, sogenannte „Flash Estimates“, zu erstellen. In Abbildung 3 zeigt die Häufigkeit eines in eine Suchmaschine eingegebenen Suchworts für ein großes Hotelbuchungsportal einen ähnlichen zeitlichen Verlauf wie die tatsächlichen rund 8 Wochen später veröffentlichten Zahlen zu Gästeankünften und -übernachtungen. Natürlich mit einem gewissen zeitlichen Vorlauf, da die Recherche im Internet nach Unterkünften vor einer Buchung und vor dem tatsächlichen Aufenthalt stattfindet. Der statistische Zusammenhang zwischen den dargestellten Zeitreihen ist so hoch, dass sich eine Datenquelle wie die Suchhäufigkeit von Begriffen in Suchmaschinen sehr gut bspw. für vorläufige Ergebnisse der Beherbergungsstatistik eignen würde.

Abbildung 3: Häufigkeit von Suchbegriffen in Suchmaschine sowie Anzahl Gäste und Übernachtungen in hessischen Beherbergungsbetrieben (Januar 2016 bis September 2020)

Den Einbruch der Gäste- und Übernachtungszahlen durch die Covid-19-Pandemie bildet der Suchtrend zwar nicht mit demselben zeitlichen Vorlauf ab, die Tiefe des Einbruchs ließe sich hier aber immerhin bereits vor den veröffentlichten Ergebnissen der Beherbergungsstatistik abschätzen.

Literatur

Fellegi, Ivan P.; Sunter, Alan B. (1969): A Theory for Record Linkage. Journal of the American Statistical Association (64) 328: 1183-1210.

Herzog, Thomas N.; Scheuren, Fritz J. und Winkler, William E. (2007): Data Quality and Record Linkage Techniques. New York: Springer.

Newcombe, Howard B.; Kennedy, J. M.; Axford, S. J.; James, A. P. (1959): Automatic Linkage of Vital Records. Science (160) 3381: 954-959.

Peters, Normen (2018): Webscraping von Unternehmenswebseiten und maschinelles Lernen zum Gewinnen von neuen digitalen Daten. Wiesbaden: Hessisches Statistisches Landesamt. https://statistik.hessen.de/%C3%BCber-uns/informationsservice/sonderauswertungen/webscraping

Beitrag drucken
  1. „Dritte“ können alle Datenanbieter neben den klassischen Auskunftspflichtigen und den Statistischen Ämtern sein, also z. B. kommerzielle Datenanbieter, Internetportalbetreiber, sonstige Internetseitenbetreiber, Mobilfunknetzbetreiber, Dienstleister für bargeldlosen Zahlungsverkehr, aber auch nicht-kommerzielle Datenanbieter im Sinne von Open Data, z. B. OpenStreetMap.
  2. Für die amtliche Beherbergungsstatistik sind „Betriebe“ auskunftspflichtig. „Betriebe“ sind die Niederlassungen, also die örtlich zusammenhängenden wirtschaftenden Einheiten eines Unternehmens. In den Onlineportalen inserieren oftmals einzelne „Unterkünfte“ (z. B. Hotels, Ferienhäuser aber auch einzelne Ferienwohnungen). Ein Betrieb kann mehrere Unterkünfte umfassen. Im Folgenden wird daher in der Regel der Begriff „Betriebe“ verwendet, wenn es sich (ausschließlich) um Einheiten der amtlichen Beherbergungsstatistik handelt, und der Begriff „Unterkünfte“, wenn es ausschließlich um die Einheiten eines Onlineportals handelt.
  3. Für das hier beispielhaft verwendete Portal liegen Email-Adressen von der Portalseite der Unterkunft vor. Je nach Datenquelle sind Email-Adressen jedoch keine eineindeutigen Identifikatoren. Aus anderen Portalen liegen ggf. keine Email-Adressen, sondern andere Identifikatoren vor, z. B. Telefonnummern. Wenn keine Identifikatoren vorliegen, können verschiedene nicht identifizierende Merkmale (z. B. Name und Adresse) zu sogenannten Quasi-Identifikatoren kombiniert und aus den darüber verknüpfbaren Betrieben der Goldstandard gebildet werden. Ob Parameter aus dem Goldstandard von Portal X mit dem Berichtskreis der Monatserhebung auch für die probabilistische Verknüpfung von Portal Y mit Betrieben der Monatserhebung verwendet werden können, muss für jedes Portal gesondert geprüft werden, da dies die gleiche Grundgesamtheit der Portale unterstellt und die gleiche Qualität der Verknüpfungsmerkmale.
  4. Für die vorliegende Arbeit wurden Daten aus dem Internet nicht weiter plausibilisiert, um mögliche Unterschiede aufzuzeigen. „Neue digitale Daten“ werden zukünftig aber grundsätzlich ebenso plausibilisiert werden wie traditionell erhobene Daten.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.