W ostatnim czasie obserwujemy rosnącą popularność dużych modeli językowych (large language models, LLMs) z ChatGPT na czele. Modele oparte na sieciach neuronowych mogą być wykorzystywane na różne sposoby, jednak żeby taki model był faktycznie użyteczny i dawał odpowiednie wyniki (obarczone jak najmniejszym błędem), w pierwszej kolejności musi zostać wytrenowany na ogromnej ilości danych – dochodzącej nawet do miliardów rekordów.
Zuzanna Choińska, analityczka DELab UW
W ten sposób powstał ChatGPT. Jego udostępnienie szerszemu gronu odbiorców sprawiło, że zrobiło się o nim głośno także w środowiskach niezwiązanych bezpośrednio ze sztuczną inteligencją. W związku z tym zaczęło pojawiać się wiele materiałów analizujących możliwości zastosowania narzędzia, ale też to, jak wpłynie on na rynek pracy czy edukację w najbliższych latach. W kwestii edukacji pojawia się na przykład wiele wątpliwości w kontekście wykorzystywania LLMs przez studentów, którzy mogą się nimi posługiwać do wykonywania wszelkich prac pisemnych na studiach. Jako DELab zorganizowaliśmy nawet debatę dotyczącą potencjalnych szans oraz zagrożeń wynikających z rozwoju sztucznej inteligencji, w szczególności LLMs, dla uniwersytetu.
Pośród tych wszystkich materiałów pojawiały się również głosy dotyczące legalności działania ChatGPT, przede wszystkim w kontekście przetwarzania przez niego danych osobowych. OpenAI (dalej jako “Spółka”), czyli amerykańska spółka technologiczna zależna od Microsoft, wypuszczając swój produkt na rynek europejski powinna spełniać wymagania unijnych przepisów o ochronie danych, czyli przede wszystkim RODO. Okazuje się jednak, że model trenowany był na danych pozyskanych ze stron internetowych, mediów społecznościowych czy książek. Pośród nich znajdowały się również dane osobowe, których przetwarzanie nie było w żaden sposób kontrolowane.
W związku z tym 20 marca włoski organ nadzorczy ds. danych osobowych (Garante per la protezione dei dati personali, dalej jako „Garante”) został poinformowany o wycieku danych w postaci konwersacji użytkowników oraz informacji o ich płatnościach. Na tej podstawie wszczął postępowanie wyjaśniające, w wyniku którego 30 marca wydał wstępną decyzję. Stwierdził w niej, że:
- OpenAI jest administratorem danych osobowych milionów Włochów, przetwarzanych podczas trenowania narzędzia;
- Spółka nie przekazywała swoim użytkownikom – a więc podmiotom danych – odpowiednich informacji o przetwarzaniu ich danych;
- Dane przetwarzane były bez właściwej podstawy prawnej;
- Ze względu na brak mechanizmów weryfikacji wieku, ChatGPT naraża dzieci na otrzymywanie treści nieodpowiednich do ich wieku.
W związku z tymi ustaleniami, na podstawie art. 58 ust. 2 lit. f RODO, Garante zażądał tymczasowego zaprzestania przetwarzania tych danych. W odpowiedzi Spółka zablokowała dostęp do narzędzia na terytorium Włoch, a 6 kwietnia dostarczyła do organu dokumenty zawierające propozycję środków, które miałyby zapewnić zgodność przetwarzania z przepisami RODO.
Po przeanalizowaniu dokumentacji oraz okoliczności, 11 kwietnia Garante wydał decyzję, w której nałożył na Spółkę całą listę wymogów, wśród których znalazły się:
- obowiązki informacyjne wobec, zarówno, użytkowników, jak i nie-użytkowników narzędzia – dokładna informacja o przetwarzaniu danych w celu trenowania algorytmów powinna znaleźć się na głównej stronie Chata GPT;
- zapewnienie na stronie narzędzia do egzekwowania swoich praw przez użytkowników oraz narzędzia, za pomocą którego mogą zażądać i uzyskać sprostowanie dotyczące ich danych osobowych lub żądać ich usunięcia (co najmniej dla użytkowników łączących się z terytorium Włoch);
- umieszczenie linku do polityki prywatności w procesie rejestracji na stronie;
- zmiana podstawy przetwarzania dla celów trenowania algorytmów z umowy (art. 6 ust. 1 lit. b RODO) na zgodę (art. 6 ust. 1 lit. a RODO) lub uzasadniony interes (art. 6 ust. 1 lit. f RODO);
- włączenie “bramki wieku” dla wszystkich użytkowników, także tych już zarejestrowanych przy pierwszym dostępie po reaktywacji usługi dla Włoch oraz przedłożenie Garante planu wdrożenia narzędzi weryfikacji wieku, a następnie ich implementacja;
- przeprowadzenie, w porozumieniu z Garante, kampanii informacyjnej w radiu, telewizji, gazetach oraz Internecie w celu poinformowania podmiotów danych o wykorzystaniu ich danych osobowych do trenowania algorytmów.
Jednocześnie organ zastrzegł, że postępowanie wobec OpenAI będzie nadal prowadzone i w razie wykrycia innych naruszeń, mogą zostać podjęte kolejne środki. Dodatkowo po serii dyskusji z Garante, Europejska Rada Ochrony Danych podjęła decyzję o utworzeniu grupy roboczej poświęconej problemom narastającym wraz z rozwojem ChatGPT. Ma ona na celu wspieranie współpracy i wymiany informacji na temat ewentualnych działań podejmowanych przez unijne organy ochrony danych.
Na dostosowanie się do większości z powyższych wytycznych (wyłączając implementację narzędzi do weryfikacji wieku czy przeprowadzenie kampanii) Spółka ma czas jedynie do 30 kwietnia. Ma jeszcze możliwość odwołania się od powyższej decyzji. Jednakże, biorąc pod uwagę szybkość oraz skrupulatność działań Garante, nie wydaje się, aby decyzja miałaby ulec znacznej zmianie. Co więcej, w razie niedostosowania się, OpenAI grozi kara w wysokości do 20 milionów euro lub 4% całkowitego rocznego światowego obrotu.
Włoski organ nadzorczy jako pierwszy w Europie zajął się badaniem modeli językowych opartych na sztucznej inteligencji pod kątem przetwarzania przez nich danych osobowych. Ostra reakcja Garante wzbudziła zainteresowanie innych europejskich organów, które jednak, na ten moment, jedynie przyglądają się sprawie. Niektóre z nich (Niemcy, Francja, Irlandia) skontaktowały się z Garante i poprosiły o dostęp do zebranej przez niego dokumentacji. Również polski Urząd Ochrony Danych Osobowych (UODO) poprosił o dostęp do akt i obserwuje rozwój wydarzeń, jednocześnie nie podejmując na ten moment żadnych działań. Pomimo aktualnej ostrożności, zainteresowanie ze strony innych organów może prowadzić do kolejnych, podobnych postępowań. Z drugiej strony OpenAI również nie zignorowało wszczętego postępowania i rozpoczęło współpracę z włoskim regulatorem w celu usunięcia niezgodności.
Postępowanie toczące się przed Garante to ważny krok w kontekście pojawiania się w przyszłości nowych narzędzi tego typu – opartych przede wszystkim na danych. Jednocześnie to również odważne posunięcie rozpoczynające, prawdopodobnie długą i żmudną, drogę do regulacji sztucznej inteligencji w taki sposób, aby korzystanie z niej zapewniało również ochronę prywatności użytkowników. Aczkolwiek w tym momencie nie ma innego sposobu, aby zmusić gigantów technologicznych do działania zgodnie z przepisami. Dlatego tak ważne jest, aby także inne europejskie organy ds. danych osobowych zaangażowały się w te działania oraz sprawowały nadzór nad implementacją technologii w państwach członkowskich UE.