OPT-OUT und Anonymisierung
OPT-OUT
Der hier vorgestellte OPT-OUT-Mechanismus nutzt einen speziellen Cookie-Inhalt zur Identifikation des Client, der nicht an der Zählung teilnehmen möchte. Andere Möglichkeiten zur Identifikation solcher Clients sind im gegenwärtigen System nicht möglich, da keine direkte Erkennung eines Clients vorgesehen ist. Ein Client hat hier immer die Möglichkeit seine Identität zu verändern (Cookie-Löschung). Eine solche Identitätsveränderung führt auch immer zum Verlust der spezifischen Einstellungen des ursprünglichen Clients (der ab der Änderung im System nicht mehr auftritt).
Insofern ist es für einen Client, der die Zählung verweigert notwendig, dass dieser diese Einstellung konstant dem System mitteilt. Dies bedeutet, dass der Client sein spezifisches Cookie nicht löschen darf.
Die zentrale Stelle zum Setzen der OPT-Out-Einstellung ist der QDS, welcher auch zur Aussteuerung der Befragung dient. Der QDS stellt URLs zur Verfügung über die
- das Opt-Out-Cookie gesetzt
- der Status der Zählung ausgelesen
- das Opt-Out-Cookie gelöscht
werden kann.
Eine Protokollierung der Zugriffe incl. dem zugreifenden Client sind derzeit NICHT vorgesehen, kann aber zur Ermittlung einer Opt-Out-Quote erfolgen.
Das Modul des QDS erlaubt den Status des Client abzufragen ("kein Cookie", "aktiv in der Zählung", "Opt-Out") und den Opt-Out-Status wieder zu löschen, wobei das SZM-Cookie gelöscht wird. Der Einbau/Aufruf des Opt-Out-Moduls kann von jeder Webseite, personalisiert erfolgen. Das Opt-Out-Modul protokolliert derzeit keine Daten, was aber nach gemeinsamer Entscheidung und hinsichtlich der hieran gestellten Anforderungen geändert werden kann.
Opt-Out-Varianten
Die folgenden Varianten bei der Erkennung der Opt-Out-Einstellung des Client sind möglich:
OO 1. Alle Nutzer mit Opt-Out Eigenschaft werder unter einer Client-Kennung verarbeitet (im IVW-Visit und AGOF-Client)
Zugriffe durch Clients mit aktivem Opt-Out werden alle unter einer Id verarbeitet. Diese Zugriffe werden also in den Bewegungsdaten eines Client gesammelt. Sofern mehr als ein realer Client unter dieser ID nutzt, ist eine eindeutige Zuordnung nicht mehr möglich.
OO 2. Anfragen von Clients mit Opt-Out-Eigenschaft werden verworfen (bzw. nicht über die Protokollebene hinaus weitergeben).
Verschärfung von OO 1: Zugriffe durch Clients mit der Eigenschaft werden zwar von den Systemen korrekt beantwortet, jedoch nicht protokolliert.
In diesem Fall werden alle Zugriffe solcher Clients ignoriert. Es werden keine Kennwerte über deren Nutzung erhoben.
Anonymisierung durch Kürzen der IP4-Adresse
Zur Anonymisierung der Herkunft der Anfragen, sollen die IP4-Adressen um die am wenigsten signifikanten Bits gekürzt werden. Dies reduziert die Auflösungsgenauigkeit dieser Adresse um den Faktor 2^Anzahl der Bits (diese Anzahl an Clients/Computern kann sich hinter der gekürzten Adresse verbergen). Es gibt zwei "Stellen" im System, an denen die Kürzung durchgeführt werden kann.
IP 1. Kürzung auf Protokoll-Ebene
Hier werden die Adressen nur für die Dauer der Kommunikation mit dem anfragenden Rechner vollständig aufgehoben. Alle nachfolgenden Komponenten bekommen nur die gekürzte Adresse. Betroffen sind alle Logausgaben, alle Abbildungen und die Signaturbildung (IVW-Visit, AGOF-Client).
Bei Eingang der Daten in den Zählboxen werden die letzten Bits der IP4-Adresse auf den Wert 0 gesetzt.
Eine Speicherung oder Verarbeitung der vollständigen Adresse über die Dauer der technischen Anfrage hinaus findet nicht statt.
Auswirkungen:
- Die Protokollierung der Eingangsdaten (LogStrom) zeigt nicht mehr die vollständige Adresse
- Abbildungen über Adress-Karten erzeugen unschärfere Ergebnisse
- Die Signaturbildung erzeugt andere Signaturen
Da die Signaturbildung durch die veränderte IP-Adresse andere Ergebnisse liefert, wird auch die Client-Auflösung in den nachfolgenden Komponenten verändert. Die über Signatur oder Signatur-Cookie-Paar identifizierten Clients werden zum Zeitpunkt der Umstellung alle neu erzeugt. Um diesen Effekt zu lindern kann im Auflösungsmechanismus der Algorithmus auf "trivial" umgestellt werden. Dieser Algorithmus beachtet keine Zusammenhänge zwischen Cookie und Signatur. Er entscheidet zwischen entweder Cookie oder Signatur zur Identifikation und verwendet das Cookie sofern vorhanden.
IP 2. Kürzung bei der Weiterverarbeitung
Hier werden die Adressen vor der Verarbeitung durch die entsprechende Komponente gekürzt. Dies geschieht innerhalb der jeweiligen Komponente, wodurch es möglich ist, hier selektiv vorzugehen. D.h. die Kürzung kann im LogStrom und bei Durchführung der Abbildungen geschehen. Die Signaturbildung könnte hier wie gehabt vorgehen.
Eine Kürzung der Adresse vor der Signaturbildung wird Einfluss auf den IVW-Visit (verm. relativ gering) und den AGOF-Client (relevant bis gravierend) haben. In letzterem Fall würde sollte eine Änderung des Identifikations-Algorithmus durchgeführt werden: es wird nach Cookie und wenn nicht vorhanden nach Signatur identifiziert. Kombinationen werden nicht mehr behandelt. So werden die Auswirkungen hoffnungsvoll reduziert (Proxy-Erkennung und Cookie-Wechsel werden hier nicht mehr behandelt).
Auswirkungen der Kürzung der IP-Adresse
Neben der Signaturbildung wird die IP-Adresse zur Auflösung der geographischen Herkunft des Client verwendet. Hierbei werden die IP-Adresse auf Inland und Ausland und für die AGOF-Studie weiter auf die Bundesländer abgebildet. Da im Falle einer Kürzung der IP-Adressen Unschärfen zu erwarten sind, wurde eine Analyse der vorliegenden Abbildungstabellen, analog zum Bericht "Geolokalisierung mit gekürzter IP-Adresse", durchgeführt. Hierbei wurden die Inlandsdaten (der IP-Bereich in den Abbildungsdaten, mit Abbildung auf Deutschland) hinsichtlich der, nach der Kürzung überlappenden Daten (die nun ins Ausland zeigen) untersucht. Bei dieser Untersuchung wurden jeweils die gesamten betroffenen Bereiche als "überlappend" markiert, nicht nur die tatsächlich betroffenen Teilbereiche. Weiter wurde zwar hinsichtlich der Intervallgröße, aber nicht hinsichtlich der Nutzungsintensität einzelner Bereiche unterschieden.
Das Ergebnis zeigt bei einer Kürzung um ein Oktet, also die 8 am wenigsten signifikanten Bits, einen Anteil von mehrdeutigen Bereiche von ca. 8% bei einer Kürzung um 8 Bit. Bei der Bundeslandauflösung kommt ein zusätzlicher Anteil von ca. 6% mit (im Inland) mehrdeutigen Bereichen hinzu.
Eine Untersuchung, ab welcher Anzahl von gekürzten "Stellen" welcher Anteil an Mehrdeutigkeiten auftritt, zeigt einen Sprung von weniger als 1% bei einer Kürzung von um 3 Bit auf 8% bei einer Kürzung von 4 Bit oder mehr.
Um ein bestmögliches Verhältnis zwischen Datenschutz und Auflösungs-Genauigkeit zu erhalten, kann die IP-Adresse nach obigen Ergebnissen, generell um 3 Bit gekürzt werden. Da dies uU. nicht für eine vollkommene Anonymisierung der Signatur ausreicht, kann die IP-Adresse bei (vor) Bildung der Signatur um weitere 5 Bit um insgesamt 8 Bit gekürzt werden.