Szukaj
Close this search box.

Web scraping danych z internetu – jak to zrobić zgodnie z prawem?

Rosnąca popularność narzędzi do web scrapingu danych sprawia, że coraz więcej firm zastanawia się nad włączeniem do swojego biznesu nowych źródeł danych. O czym należy pamiętać opierając swój biznes na automatycznym pobieraniu danych przeczytasz w dalszej części artykułu.

Spis treści

Podsumowanie na start 

Nie masz czasu na przeczytanie całego artykułu? Zapoznaj się z podsumowaniem na start! 

  1. Web scraping nie jest wprost regulowany w polskim prawie. Nie ma także przepisu, który by wprost zabraniał jego stosowania.
  2. Pozyskiwanie danych osobowych za pomocą web scrapingu to rodzaj ich przetwarzania – wymaga posiadania podstawy prawnej i – co do zasady – spełnienia obowiązków informacyjnych oraz zapewnienia możliwości dochodzenia uprawnień przez osoby, których dane są pobierane.
  3. Web scraping może wiązać się z kopiowaniem strony, podstron i elementów objętych autorskimi prawami majątkowymi i osobistymi (grafiki, teksty). 
  4. Scrapowanie danych z platform aktywnie je gromadzących (własnym nakładem inwestycyjnym) może naruszać prawa producentów tych baz danych. Dobrą praktyką jest co najmniej niezakłócanie ich prawidłowego funkcjonowania.
  5. Regulamin strony internetowej może mieć moc wiążącą nawet, gdy nie został przez Ciebie wprost zaakceptowany.  
  6. Jeśli scrapujesz dane ze stron internetowych, które wprost zabraniają tego w opisie warunków korzystania – Twoje konto bądź połączenia z Twojego IP mogą zostać zablokowane.  

1️⃣ Chcesz zabezpieczyć się przed scrapingiem? Pobieraniem danych z Twojej strony internetowej? Umów się na bezpłatną 15 minutową konsultację. Kliknij tutaj >

2️⃣ Chcesz wiedzieć, czy Twój scraping będzie zgodny z prawem lub ryzykowny dla Twojego biznesu? Umów się na bezpłatną 15 minutową konsultację. Kliknij tutaj >

(Dalsza część artykułu poniżej.)

Newsletter, który pomoże Ci rozwinąć 🚀 Twoją firmę technologiczną lub software house pod kątem prawnym i biznesowym.

Dołącz do społeczności właścicieli, kadry zarządzającej i managerskiej w firmach technologicznych i software house! Otrzymuj co 2 tygodnie najważniejsze informacje.

Więcej o naszym newsletterze „Let’s talk tech” przeczytasz pod linkiem: https://letstalktech.pl/

Po zapisaniu się odbierz od nas powitalnego maila z bonusami m.in. bezpłatne nagrania webinarów i szkoleń dla startupów i branży tech!

W razie problemów, napisz do nas. Sprawdź folder spam/oferty.


Aktywując przycisk pod formularzem, akceptujesz nasz Regulamin (w zakresie dotyczącym Newslettera) oraz wyrażasz zgodę na otrzymywanie treści edukacyjnych, informacji o produktach i usługach kancelarii Creativa Legal Korol Szczudło adwokaci sp.p., np. o nowych artykułach, kursach on-line, czy zniżkach. Przeczytaj, w jaki sposób przetwarzamy Twoje dane osobowe w naszej Polityce prywatności.

Przeczytaj także: Jak zrobić MVP i PoC zgodnie z prawem?

Odsłuchaj także dodatkowych materiałów w tym temacie

Ten odcinek znajdziesz także na Spotify, Apple Podcast lub w Twojej innej ulubionej aplikacji.

Web scraping – o co chodzi? 

Web scraping polega na zautomatyzowanym pobieraniu danych z internetu przy wykorzystaniu dedykowanych narzędzi IT (oprogramowania). W ten sposób w krótkim czasie możliwe jest zebranie dużej ilości informacji, a następnie ich eksport, zestawienie z innymi danymi i dalsze wykorzystanie w biznesie. Często w tym celu wykorzystuje się boty imitujące aktywność rzeczywistych użytkowników.    

Efekty rosnącej popularności scrapingu danych możemy zaobserwować np. korzystając z porównywarek cen biletów lotniczych lub noclegów w hotelach. Dane pozyskane w ten sposób stanowią ważne aktywo dla przedsiębiorców – pozwalają na analizę oferty czy polityk cenowych konkurentów. 

Co na to RODO? 

Zgodnie z art. 4 pkt 1 RODO, takimi danymi są „wszelkie informacje o zidentyfikowanej lub możliwej do zidentyfikowania osobie fizycznej („osobie, której dane dotyczą”); możliwa do zidentyfikowania osoba fizyczna to osoba, którą można bezpośrednio lub pośrednio zidentyfikować, w szczególności na podstawie identyfikatora takiego jak imię i nazwisko, numer identyfikacyjny, dane o lokalizacji, identyfikator internetowy lub jeden bądź kilka szczególnych czynników określających fizyczną, fizjologiczną, genetyczną, psychiczną, ekonomiczną, kulturową lub społeczną tożsamość osoby fizycznej”.  

Zasada jest prosta. Jeżeli w grę wchodzą dane osobowe, przetwarzający je przedsiębiorca musi mieć podstawę prawną. Przetwarzaniem danych osobowych jest także ich pobieranie za pomocą scrapingu ze strony internetowej.

W przypadku scrapingu danych takimi podstawami mogą być: zgoda osób, których te dane dotyczą (art. 6 ust. 1 lit. a) RODO) lub prawnie uzasadniony interes przedsiębiorcy (art. 6 ust. 1 lit. f) RODO).

Pozyskanie zgód w praktyce byłoby jednak karkołomnym procesem. Z kolei opierając się na prawnie uzasadnionym interesie trzeba pamiętać o tym, że istnieje on tak długo, jak długo interes ten nie prowadzi do naruszenia praw osoby, której dane dotyczą, a jej dane są przetwarzane w sposób, którego racjonalnie mogła się spodziewać w danym kontekście. 

Z przetwarzaniem danych osobowych wiążą się także obowiązki informacyjne (art. 13 i art. 14 RODO) oraz obowiązki związane z zapewnieniem możliwości wykonania przez osoby, których dane dotyczą ich uprawnień, takich złożenie sprzeciwu wobec przetwarzania ich danych w celach marketingowych czy też zażądanie usunięcia danych.  

Uwaga: istnieje możliwość ograniczenia obowiązków informacyjnych, jeżeli będziesz w stanie wykazać, że ich wykonanie wymagałoby niewspółmiernie dużego wysiłku (art. 14 ust. 5 lit. b) RODO).  

Jeżeli scrapowane mają być konkretne dane, duże zbiory danych osobowych, szczególnie danych „wrażliwych”, konieczne będzie także przeprowadzenie oceny skutków przetwarzania danych, dla osób, których dane dotyczą (art. 35 RODO). Ocena powinna uwzględniać w szczególności analizę ryzyka i konsekwencji naruszenia ochrony („wycieku”) danych dla osób, których te dane dotyczą.  

Czy scrapowane dane są chronione prawem autorskim?

Web scraping niekiedy wiąże się z kopiowaniem elementów mogących stanowić przedmiot autorskich praw majątkowych, takich jak zdjęcia, grafiki lub teksty.  

Zgodnie z art. 1 ust. 1 Ustawy o prawie autorskim, utworem może być wyłącznie „przejaw działalności twórczej o indywidualnym charakterze, ustalony w jakiejkolwiek postaci, niezależnie od wartości, przeznaczenia i sposobu wyrażenia”. Utworami z pewnością nie będą dane dostępne w internecie takie jak cena towaru, informacja o produktach czy liczba ofert. Nie będą to także najpewniej opinie o danym produkcie. Możemy natomiast mieć z nimi do czynienia w przypadku nazw produktów czy tytułów ofert, które mogą zawierać treści o charakterze twórczym, do których zastosowanie znajdą prawa autorskie.  

W tym kontekście jako ciekawostkę możemy przytoczyć wyrok Trybunału Sprawiedliwości Unii Europejskiej (dalej: „TSUE”) z 16 lipca 2009 r., C-5/08 w sprawie Infopaq International A/S przeciwko Danske Dagblades Forening, w którym TSUE stwierdził, że przechowywanie w pamięci komputera zawierającego jedynie 11 słów wycinka utworu podlegającego ochronie oraz na wydrukowaniu tego wycinka, może stanowić częściowe zwielokrotnianie utworu w rozumieniu przepisów o prawie autorskim.

Jeżeli nie wiesz, czy Twoje działania będą zgodne z prawem, napisz do nas! 🙂

Ochrona baz danych 

Zgodnie z art. 2 ust. 1 pkt 1 ustawy o ochronie baz danych, baza danych to „zbiór danych lub jakichkolwiek innych materiałów i elementów zgromadzonych według określonej systematyki lub metody, indywidualnie dostępnych w jakikolwiek sposób, w tym środkami elektronicznymi, wymagający istotnego, co do jakości lub ilości, nakładu inwestycyjnego w celu sporządzenia, weryfikacji lub prezentacji jego zawartości”.  

Jeżeli scrapowane dane zostały zgromadzone na platformie gromadzącej je w sposób aktywny (poprzez ich poszukiwanie i włączenie do kolekcji, np. w formie encyklopedii), z dużym prawdopodobieństwem właściciel strony będzie w stanie wykazać spełnienie wymoguponiesienia istotnego nakładu inwestycyjnego.

Natomiast jeśli baza powstała w sposób bierny (stronę internetową zbudowali użytkownicy samodzielnie gromadzący informacje z sieci) – jej kwalifikacja jako baza danych podlegająca ochronie budzi istotne wątpliwości (choć nie można jej wykluczyć).  

Istotne z punktu widzenia web scrapingu (choć raczej niekomercyjnego) wyjątki od zasady ochrony bazy danych wprowadza także art. 8 ust. 1 ustawy o ochronie baz danych, zgodnie z którym wolno korzystać z istotnej co do jakości lub ilości części rozpowszechnionych baz danych: 

  1. w charakterze ilustracji, w celach dydaktycznych lub badawczych (ze wskazaniem źródła), jeżeli takie korzystanie może zostać uzasadnione niekomercyjnym celem wykorzystania pobranych danych;
  2. do celów postepowań sądowych lub administracyjnych; 
  3. dla dobra osób niepełnosprawnych będących beneficjentami w rozumieniu przepisów o prawie autorskim i prawach pokrewnych, na zasadach określonych w tej ustawie – czyli w celu umożliwienia osobom niepełnosprawnym dostępu do twórczości.  

Powyższy zakres odstępstw od generalnego zakazu korzystania z cudzych baz danych potencjalnie może zostać rozszerzony na mocy nowej unijnej dyrektywy prawnoautorskiej. Projekt ustawy implementującej ww. dyrektywę przewiduje, że bazy danych będą mogły być wykorzystywane m.in. także w celu eksploracji tekstów i danych, chyba że uprawniony do nich podmiot zastrzegł inaczej i uczynił to w odpowiedni (zgodny z przepisami) sposób.  

Przepisy o świadczeniu usług drogą elektroniczną i regulaminy stron internetowych a web scraping

Korzystanie ze stron internetowych (m.in. poprzez pobieranie zgromadzonych w nich danych) wiąże się z zawarciem z jej właścicielem umowy o świadczenie usług drogą elektroniczną, której szczegółowe warunki będą określać regulaminy stron internetowych. Dana strona może także wprost zakazywać działań takich jak web scraping.

Taki regulamin wiąże nas nawet wówczas, gdy nie potwierdzimy wyraźnie jego akceptacji (art. 8 ust. 1 Ustawy o świadczeniu usług drogą elektroniczną).  

Powyższe sprawia, że naruszenie regulaminu będzie stanowiło nienależyte wykonanie zobowiązania po stronie podmiotu scrapującego, które może uprawniać właściciela strony do zablokowania dostępu do niej oraz wystąpienia z roszczeniami odszkodowawczymi (co jednak wymagałoby wykazania poniesienia przez niego szkody na skutek web scrapingu).  

CIEKAWOSTKA: Jak web scraperzy starają się obejść zabezpieczenia i uniknąć problemów? Najczęściej poprzez stosowanie VPN-ów, ustawianie zmiennych odstępów pomiędzy wysłanymi zapytaniami, ustawienie adresu ostatnio ustawionej strony na neutralną, np. google.com (tak, by symulować naturalny ruch z wyszukiwarki).  Z pomocą przychodzą także boty – ich działanie imituje zapytanie wysyłane w internecie przez rzeczywistych użytkowników.

Jak z web scrapingiem radzą sobie administratorzy?

Ustawiają pułapki (honeypoty), tworzą czarne listy adresów IP, spam listy, captche, aby – niezależnie od prawnych aspektów scrapowania – wyeliminować potencjalnie negatywnie wpływający na dostępność i funkcjonalność usług lub produktów web scraping w ramach należących do nich stron internetowych. 

Nieuczciwa konkurencja wobec właścicieli stron internetowych

Zgodnie z art. 3 ust. 1 Ustawy o zwalczaniu nieuczciwej konkurencji, czynem nieuczciwej konkurencji jest „działanie sprzeczne z prawem lub dobrymi obyczajami, jeżeli zagraża lub narusza interes innego przedsiębiorcy lub klienta”. Aby zatem doszło do popełnienia takiego czynu, konieczne jest łączne wystąpienie następujących przesłanek:  1) sprzeczności danego działania z prawem lub dobrymi obyczajami oraz 2) naruszenia interesu innego przedsiębiorcy lub klienta.  

Przede wszystkim: żaden przepis nie zabrania wprost scrapingu stron internetowych. Jak jednak sygnalizowaliśmy, scrapowanie danych, a następnie ich udostępnianie może zostać uznane za nieuprawnioną ingerencję w prawa właściciela platformy jako producenta bazy danych, co w konsekwencji prowadziłoby do przyjęcia niezgodności przedsięwzięcia z przepisami.

Z naruszeniem interesu innego przedsiębiorcy lub klienta możemy spotkać się m.in. w następujących sytuacjach: 

  1. scrapowanie danych ze strony, która wprost zabrania tego w swoim regulaminie (co wskazywałoby, że właściciel tej strony postrzega web scraping jako działanie na swoją szkodę); 
  2. scrapowanie w sposób obciążający stronę utrudniając lub uniemożliwiając jej prawidłowe działanie (np. obciążenie serwera); 
  3. wykorzystywania danych do stworzenia alternatywy dla usług oferowanych przez właściciela strony (konkurenta), a w konsekwencji „podebranie” mu użytkowników.  

W swojej bazie danych mam informacje pochodzące z web scrapingu, w którym pomagały mi boty – co teraz?

Ocena prawnego ryzyka związanego z korzystaniem z zescrapowanych danych zależy przede wszystkim od celu, w jakim zamierzamy z nich korzystać. 

Jeżeli chcesz wykorzystywać pobrane dane wyłącznie w ramach swoich potrzeb i nie zostały zebrane z naruszeniem prawa – ich dalsze przechowywanie czy analizowanie nie rodzi prawnego ryzyka. Kluczowe znaczenie ma tutaj brak komercyjnego wykorzystania danych zescrapowanych z sieci. Jeśli dotąd strona, którą scrapowałeś/aś Cię nie zablokowała – prawdopodobnie już nic na tym tle się nie wydarzy.

Jeśli jednak dane mają zostać wykorzystane w ramach platformy biznesowej, trzeba zachować szczególną ostrożność w kontekście omówionych wcześniej przepisów. 

Jednym z najpopularniejszych sposobów wykorzystania zescrapowanych danych w internecie jest cold mailing, czyli przesyłanie maili niebędących informacją handlową (której przesyłanie wymaga uzyskania zgody na gruncie Ustawy o świadczeniu usług drogą elektroniczną oraz Prawa telekomunikacyjnego) do osób, z którymi przedsiębiorca nie miał dotychczas żadnych relacji biznesowych. 

W praktyce często spotykany jest dwuetapowy cold mailingW etapie pierwszym przedsiębiorca „na miękko” zwraca się do potencjalnego kontrahenta, zachęcając go do wyrażenia zgody lub wykazania zainteresowania ofertą handlową. W kroku drugim do adresata, który wyraził zainteresowanie, może zostać przesłana oferta handlowa. 

Chcesz wiedzieć więcej na temat mailingu i legalnego newslettera? Przeczytaj nasz kompleksowy poradnik: https://creativa.legal/legalny-newsletter-krok-po-kroku/

Na zakończenie 

Choć ryzyko jest nieodłącznym elementem biznesu, warto je minimalizować. Narzędzia umożliwiające scraping danych z internetu są coraz bardziej popularne i łatwo dostępne (na co wskazują chociażby ich reklamy), a dane pochodzące z web scrapingu mogą otworzyć nowe możliwości rozwoju Twojej działalności.  Zachęcamy jednak do weryfikacji sposobu ich działania, aby nie narazić się na „bana” lub odpowiedzialność odszkodowawczą. 

Mam nadzieję, że ten artykuł ułatwi Ci przeprowadzenie kompleksowej oceny planowanego przedsięwzięcia. Jeśli jeszcze masz pytania lub szukasz profesjonalnego wsparcia, zachęcamy do kontaktu z naszą Kancelarią. 

Zdjęcie dodane przez ThisIsEngineering.

Picture of Arkadiusz Szczudło

Arkadiusz Szczudło

Jestem adwokatem, Partnerem Zarządzającym w kancelarii Creativa Legal, mentorem i twórcą internetowym. Specjalizuję się w prawie nowych technologii oraz prawnym wsparciu biznesu – w tym w szczególności e-commerce i biznesu online. Jestem ekspertem w zakresie prawnych aspektów technologii blockchain. Poznaj autora.

Newsletter, który pomoże Ci się rozwijać!

Dołącz do społeczności właścicieli, kadry zarządzającej i managerskiej w firmach takich jak Twoja!

Zaufało nam już ponad 7000 osób :)

Raz w miesiącu otrzymasz od nas wiadomość edukacyjną w ramach Twojej branży, case study prawne i biznesowe, czy masę innych wartościowych informacji. 

Po zapisaniu się odbierz od nas maila z potwierdzeniem. W razie problemów, napisz do nas. Sprawdź folder spam/oferty.

Aktywując przycisk pod formularzem, akceptujesz nasz Regulamin (w zakresie dotyczącym Newslettera) oraz wyrażasz zgodę na otrzymywanie treści edukacyjnych, informacji o produktach i usługach kancelarii Creativa Legal Korol Szczudło adwokaci sp.p., np. o nowych artykułach, kursach on-line, czy zniżkach. Zapoznaj się z naszą Polityką prywatności.