Pseudonimizacja adresów e-mail – praktyczne wskazówki

European Union Agency for Cybersecurity (ENISA) w opublikowanych w listopadzie 2019 r. wytycznych dotyczących technik i najlepszych praktyk w zakresie pseudonimizacji opisuje praktyczne wskazówki dotyczące pseudonimizacji adresów e-mail.

Adresy e-mail są często używane w serwisach internetowych jako główny identyfikator osoby fizycznej. Ponadto są obecne w wielu bazach danych, w których mogą być również obecne inne identyfikatory – takie numer PESEL. Użytkownicy zazwyczaj używają tego samego adresu e-mail do różnych zastosowań, udostępniając go różnym organizacjom, np. przy zakładaniu kont online. Co więcej, adresy e-mail są często publikowane w Internecie lub można je w niektórych przypadkach odgadnąć. Ze względu na te szczególne cechy, ochrona adresów e-mail jest szczególnie ważna.

Sposób 1: Wykorzystanie liczb losowych

Najprostszym podejściem do pseudonimizacji jest wykorzystanie liczb pseudolosowych. Przy generowaniu pseudonimów możemy wykorzystać dwa podejścia – generowanie liczb losowych (liczby całkowite) ze sprawdzeniem, czy nie pokrywa się ona z dotychczasowymi wpisami, lub też przyporządkowanie adresom numerów zgodnych z pozycją w bazie danych.

Aby zwiększyć właściwości analityczne danych pseudonimizowanych możliwe jest zastępowanie tylko części adresu e-mail. Taki zbieg pozwala na zachowanie wartości informacyjnej niezbędnej np. do prowadzenia analityki, przykładowo w postaci nazwy lub identyfikatora domeny. Wadą staje się jednakże zagrożenie ze strony depersonalizacji adresu e-mail, dlatego przed zastosowaniem metody każdorazowo należy ocenić ryzyka odgadnięcia źródłowego identyfikatora.

Bazując na przykładzie adresu jan.kowalski@domena.pl pseudonimizacja może wyglądać następująco:

  • 123 – całość adresu jest zastępowana losowym pseudonimem (najmniejsza wartość informacyjna i największe bezpieczeństwo).
  • 123@domena.pl – tylko login jest zastępowany pseudonimem.
  • 123@421 – login i domena są zastępowane pseudonimami.
  • 123@421.825 – login i składowe domeny są zastępowane pseudonimami (największa wartość informacyjna i największe ryzyko depersonalizacji).

Sposób 2: Wykorzystanie funkcji skrótu

Metoda polega na wykorzystaniu kryptograficznej funkcji skrótu, np. SHA-256, przyporządkowującej każdemu adresowi e-mail inny, unikalny identyfikator. Funkcje skrótu nie są odwracalne, tzn. na podstawie identyfikatora poznanie źródłowego adresu e-mail możliwe jest jedynie przy wykorzystania ataku słownikowego. Ponieważ taki atak jest realnym zagrożeniem dla adresów e-mail, zastosowanie funkcji skrótu możliwe jest tylko w niektórych zastosowaniach, np. do kodowania adresów e-mail na potrzeby wewnętrzne (np. w kontekście działań badawczych) lub jako mechanizm walidacji integralności dla administratora danych.

Sposób 3: Wykorzystanie MAC (Message Authentication Code)

W porównaniu do funkcji skrótu, MAC wykorzystuje dodatkowo sekretny klucz, który w praktyce uniemożliwia wykonanie ataku słownikowego. Oczywiści klucz musi być bezpiecznie przechowywany, ale to samo dotyczy tabeli mapowania pseudo identyfikatorów w Sposobie 1.

Klucze mogą być zmieniane dla tego samego adresu e-mail, aby zwiększyć bezpieczeństwo pseudonimu w różnych zastosowaniach. Tę metodę można także zastosować w scenariuszu, gdy pseudonimizacją zajmuje się inny podmiot niż administrator danych. W takim przypadku podmiot dokonujący pseudonimizacji przechowuje tylko sekretne klucze i w sposób trywialny nie jest w stanie odzyskać pierwotnych identyfikatorów.

Sposób 4: Wykorzystanie szyfrowania

Szyfrowanie, szczególnie z wykorzystaniem algorytmów symetrycznych (deterministyczne), wydaje się bardziej praktyczną metodą niż MAC. Odzyskanie bazowych adresów wymaga jedynie odszyfrowania pseudonimów – nie trzeba przechowywać tabeli mapowania.

Co ciekawe, szyfrowanie asymetryczne (z wykorzystaniem klucza publicznego i prywatnego) nie jest zalecane do pseudonimizacji adresów e-mail (lub innych typów danych, por. ENISA, “Recommendations on shaping technology according to GDPR provisions – An overview on data pseudonymisation”, 2018). Jeśli dokonalibyśmy szyfrowania kluczem publicznym odbiorcy danych, to zakładając, że klucz ten jest zasadzie znany potencjalnemu atakującemu, to może przeprowadzić on atak słownikowy w oparciu o znane (lub domniemane) adresy poczty elektronicznej (podobnie jak w przypadku funkcji skrótu).

Autor

Grzegorz Bernatek

Od roku 2004 kieruje projektami badawczymi dotyczącymi polskiego i europejskiego rynku ICT; tworzenia modeli rynkowych i systemowych oraz prowadzi doradztwo i szkolenia dla klientów Audytela. Specjalizuje się w interdyscyplinarnych projektach na styku technologii, ekonomii oraz zagadnień prawno-regulacyjnych.