Web scraping danych z internetu – czy jest legalny?

Web scraping i jego rosnąca popularność sprawia, że coraz więcej firm zastanawia się nad włączeniem do swojego biznesu nowych źródeł danych. Jakie są zalety web scrapingu, czy scraping danych jest legalny i zgodny z ochroną danych osobowych? O tym jak zgodnie z prawem wdrożyć web scraping w swojej firmie dowiesz się z naszego artykułu.

Spis treści

Podsumowanie na start 

Nie masz czasu na przeczytanie całego artykułu? Zapoznaj się z podsumowaniem na start! 

  1. Web scraping nie jest wprost regulowany prawnie. Nie ma także przepisu, który by wprost zabraniał jego stosowania.
  2. Pozyskiwanie danych osobowych za pomocą web scrapingu to rodzaj ich przetwarzania – wymaga posiadania podstawy prawnej i – co do zasady – spełnienia obowiązków informacyjnych oraz zapewnienia możliwości dochodzenia uprawnień przez osoby, których dane są pobierane.
  3. Web scraping może wiązać się z kopiowaniem strony, podstron i elementów objętych autorskimi prawami majątkowymi i osobistymi (grafiki, teksty). 
  4. Scrapowanie danych z platform aktywnie je gromadzących (własnym nakładem inwestycyjnym) może naruszać prawa producentów tych baz danych. Dobrą praktyką jest co najmniej niezakłócanie ich prawidłowego funkcjonowania. 
  5. Regulamin strony internetowej może mieć moc wiążącą nawet, gdy nie został przez Ciebie wprost zaakceptowany.  
  6. Jeśli przeprowadzasz web scraping danych ze stron internetowych, które wprost zabraniają tego w opisie warunków korzystania – Twoje konto bądź połączenia z Twojego IP mogą zostać zablokowane.  

Przeczytaj także: Jak zrobić MVP i PoC zgodnie z prawem?

Chcesz zabezpieczyć się przed scrapingiem? Pobieraniem danych z Twojej strony internetowej? Umów się na bezpłatną 15 minutową konsultację. Kliknij tutaj >

Odsłuchaj także dodatkowych materiałów w tym temacie

Ten odcinek znajdziesz także na Spotify, Apple Podcast lub w Twojej innej ulubionej aplikacji.

Web scraping – o co chodzi? 

Web scraping to technika ekstrakcji danych służąca do pozyskiwania informacji, polegająca m.in. na automatycznym pobieraniu danych z internetu przy wykorzystaniu dedykowanych narzędzi IT. 

W ten sposób w krótkim czasie możliwe jest zebranie dużej ilości danych z różnych stron internetowych, a następnie ich eksport, zestawienie z innymi plikami i dalsze wykorzystanie w biznesie. 

Istnieje wiele narzędzi do web scrapingu. Często w tym celu wykorzystuje się boty imitujące aktywność rzeczywistych użytkowników.  Różnego rodzaju skrypty mogą zbierać  określone dane z witryn internetowych, a poprzez integrację z API w naszym interfejsie mogą pojawić się duże ilości danych z różnych stron. Kod dedykowanego oprogramowania może w tym zakresie oferować różne funkcjonalności, w zależności od potrzeb. 

Efekty rosnącej popularności scrapingu, w szczególności w branży e-commerce możemy zaobserwować np. korzystając z porównywarek cen biletów lotniczych lub noclegów w hotelach. Dane pozyskane w ten sposób stanowią ważne aktywa dla przedsiębiorców – pozwalają na analizę oferty czy polityk cenowych konkurentów. 

Co na to RODO? 

Ochrona danych osobowych i kwestie prywatności to pierwsze co przychodzi na myśl, w kwestii legalności web scrapingu. Jak odpowiedzieć w takim razie na pytanie, czy data scraping jest legalny?

Zgodnie z art. 4 pkt 1 RODO, takimi danymi są „wszelkie informacje o zidentyfikowanej lub możliwej do zidentyfikowania osobie fizycznej („osobie, której dane dotyczą”); możliwa do zidentyfikowania osoba fizyczna to osoba, którą można bezpośrednio lub pośrednio zidentyfikować, w szczególności na podstawie identyfikatora takiego jak imię i nazwisko, numer identyfikacyjny, dane o lokalizacji, identyfikator internetowy lub jeden bądź kilka szczególnych czynników określających fizyczną, fizjologiczną, genetyczną, psychiczną, ekonomiczną, kulturową lub społeczną tożsamość osoby fizycznej”.  

Zasada jest prosta. Jeżeli w grę wchodzą dane osobowe, przetwarzający je przedsiębiorca musi mieć podstawę prawną.

Przetwarzaniem danych osobowych jest także ich pobieranie za pomocą scrapingu ze strony internetowej.

W przypadku scrapingu danych takimi podstawami mogą być: zgoda osób, których te dane dotyczą (art. 6 ust. 1 lit. a) RODO) lub prawnie uzasadniony interes przedsiębiorcy (art. 6 ust. 1 lit. f) RODO).

Pozyskanie zgód w praktyce byłoby jednak karkołomnym procesem. Z kolei opierając się na prawnie uzasadnionym interesie trzeba pamiętać o tym, że istnieje on tak długo, jak długo interes ten nie prowadzi do naruszenia praw osoby, której dane dotyczą, a jej dane są przetwarzane w sposób, którego racjonalnie mogła się spodziewać w danym kontekście. 

Z przetwarzaniem danych osobowych wiążą się także obowiązki informacyjne (art. 13 i art. 14 RODO) oraz obowiązki związane z zapewnieniem możliwości wykonania przez osoby, których dane dotyczą ich uprawnień, takich złożenie sprzeciwu wobec przetwarzania ich danych w celach marketingowych czy też zażądanie usunięcia danych.  

Uwaga: istnieje możliwość ograniczenia obowiązków informacyjnych, jeżeli będziesz w stanie wykazać, że ich wykonanie wymagałoby niewspółmiernie dużego wysiłku (art. 14 ust. 5 lit. b) RODO).  

Jeżeli scrapowane mają być konkretne dane, duże zbiory danych osobowych, szczególnie danych „wrażliwych”, konieczne będzie także przeprowadzenie oceny skutków przetwarzania danych, dla osób, których dane dotyczą (art. 35 RODO). Ocena powinna uwzględniać w szczególności analizę ryzyka i konsekwencji naruszenia ochrony („wycieku”) danych dla osób, których te dane dotyczą.  

Tym samym, choć web scraping  może być wykorzystywany  do pozyskiwania informacji z różnych stron internetowych, to w ramach zbierania danych – warto monitorować i przestrzegać zasad dotyczących RODO.

Scrapowanie danych, a prawo autorskie

Web scraping niekiedy wiąże się z kopiowaniem elementów mogących stanowić przedmiot autorskich praw majątkowych, takich jak zdjęcia, grafiki lub teksty.  

Zgodnie z art. 1 ust. 1 Ustawy o prawie autorskim, utworem może być wyłącznie „przejaw działalności twórczej o indywidualnym charakterze, ustalony w jakiejkolwiek postaci, niezależnie od wartości, przeznaczenia i sposobu wyrażenia”.

Utworami z pewnością nie będą dane dostępne w internecie takie jak cena towaru, informacja o produktach czy liczba ofert. Nie będą to także najpewniej opinie o danym produkcie. Możemy natomiast mieć z nimi do czynienia w przypadku nazw produktów czy tytułów ofert, które mogą zawierać treści o charakterze twórczym, do których zastosowanie znajdą prawa autorskie.  

W tym kontekście jako ciekawostkę możemy przytoczyć wyrok Trybunału Sprawiedliwości Unii Europejskiej (dalej: „TSUE”) z 16 lipca 2009 r., C-5/08 w sprawie Infopaq International A/S przeciwko Danske Dagblades Forening, w którym TSUE stwierdził, że przechowywanie w pamięci komputera zawierającego jedynie 11 słów wycinka utworu podlegającego ochronie oraz na wydrukowaniu tego wycinka, może stanowić częściowe zwielokrotnianie utworu w rozumieniu przepisów o prawie autorskim.

Jeżeli nie wiesz, czy Twoje działania będą zgodne z prawem, napisz do nas! 🙂

Chcesz wykorzystać web scraping? Co z ochroną baz danych?

Zgodnie z art. 2 ust. 1 pkt 1 ustawy o ochronie baz danych, baza danych to „zbiór danych lub jakichkolwiek innych materiałów i elementów zgromadzonych według określonej systematyki lub metody, indywidualnie dostępnych w jakikolwiek sposób, w tym środkami elektronicznymi, wymagający istotnego, co do jakości lub ilości, nakładu inwestycyjnego w celu sporządzenia, weryfikacji lub prezentacji jego zawartości”.  

Jeżeli scrapowane dane zostały zgromadzone na platformie gromadzącej je w sposób aktywny (poprzez ich poszukiwanie i włączenie do kolekcji, np. w formie encyklopedii), z dużym prawdopodobieństwem właściciel strony będzie w stanie wykazać spełnienie wymogu poniesienia istotnego nakładu inwestycyjnego.

Natomiast jeśli baza powstała w sposób bierny (stronę internetową zbudowali użytkownicy samodzielnie gromadzący informacje z sieci) – jej kwalifikacja jako baza danych podlegająca ochronie budzi istotne wątpliwości (choć nie można jej wykluczyć).  

Istotne z punktu widzenia  web scrapingu (choć raczej niekomercyjnego) wyjątki od zasady ochrony bazy danych wprowadza także art. 8 ust. 1 ustawy o ochronie baz danych, zgodnie z którym wolno korzystać z istotnej co do jakości lub ilości części rozpowszechnionych baz danych: 

  1. do własnego użytku osobistego, ale tylko z zawartości nieelektronicznej bazy danych,
  2. w charakterze ilustracji, w celach dydaktycznych lub badawczych (ze wskazaniem źródła), jeżeli takie korzystanie może zostać uzasadnione niekomercyjnym celem wykorzystania pobranych danych;
  3. do celów postępowań sądowych lub administracyjnych; 
  4. dla dobra osób niepełnosprawnych będących beneficjentami w rozumieniu przepisów o prawie autorskim i prawach pokrewnych, na zasadach określonych w tej ustawie – czyli w celu umożliwienia osobom niepełnosprawnym dostępu do twórczości.  

Text and Data Mining (TDM) – związek z web scrapingiem

Pod koniec 2024 r. w Polsce miała miejsce nowelizacja ustawy o prawie autorskim (w ramach wdrożenia prawnoautorskich dyrektyw unijnych). Wprowadzono kluczowe zmiany, które dotyczą np. pozyskiwania informacji ze stron internetowych w zakresie TDM.

Czym jest Text and Data Mining? Służy on służy analizie tekstów i danych w postaci cyfrowej, umożliwiając zautomatyzowane wygenerowanie wzorców, czy też korelacji. 

Jakie są różnice TDM w stosunku do web scrapingu? Web scraping skupia się na pozyskaniu konkretnych informacji ze strony internetowej. TDM służy analizie dużych zbiorów danych – w celu wykrycia wspomnianych już zależności i wzorców.

Zgodnie z art. 262 ust. 1 pkt 1 i 2 ustawy o prawie autorskim, instytucje dziedzictwa kulturowego oraz instytucje naukowe mogą zwielokrotniać utwory w celu eksploracji tekstów i danych do celów badań naukowych, jeżeli czynności te nie są dokonywane w celu osiągnięcia bezpośredniej lub pośredniej korzyści majątkowej. Takie utwory mogą być przechowywane do celów badań naukowych.

Kolejno, zgodnie z art. 26wolno zwielokrotniać rozpowszechniony utwory w celu eksploracji tekstów i danych, chyba że uprawniony zastrzegł inaczej.

W sektorze komercyjnym, znaczenie ma przede wszystkim art. 26ustawy, który umożliwia wykorzystanie informacji znajdujących się w internecie dla celów TDM. Nie ograniczono w tym zakresie podmiotów uprawnionych, tak jak w art. 262 ustawy. Eksploracja danych jest jednak możliwa wyłącznie, gdy uprawniony nie zastrzegł inaczej. 

Pomimo różnic, mechanizm działania TDM i web scrapingu wykazuje wiele podobieństw. W obu przypadkach dochodzi do przeszukiwania stron internetowych oraz pozyskania danych w konkretnym, biznesowym celu. 

Na gruncie nowych przepisów, przy zachowaniu określonych warunków, można wyjść z założenia, że możliwy będzie  web scraping z zasobów internetu, tak długo, jak uprawniony do scrapowanych danych – nie zastrzegł inaczej oraz spełnione są inne warunki opisane w artykule (np. dot. RODO).

Chcesz wiedzieć, czy Twój scraping, bądź TDM będzie zgodny z prawem lub ryzykowny dla Twojego biznesu? Umów się na bezpłatną 15 minutową konsultację. Kliknij tutaj >

Przepisy o świadczeniu usług drogą elektroniczną i regulaminy stron internetowych a legalność web scrapingu

Korzystanie ze stron internetowych (m.in. poprzez pobieranie zgromadzonych w nich danych) wiąże się z zawarciem z jej właścicielem umowy o świadczenie usług drogą elektroniczną, której szczegółowe warunki będą określać regulaminy stron internetowych. Dana strona może także wprost zakazywać działań takich jak web scraping.

Taki regulamin wiąże nas nawet wówczas, gdy nie potwierdzimy wyraźnie jego akceptacji (art. 8 ust. 1 Ustawy o świadczeniu usług drogą elektroniczną).  

Powyższe sprawia, że naruszenie regulaminu będzie stanowiło nienależyte wykonanie zobowiązania po stronie podmiotu scrapującego, które może uprawniać właściciela strony do zablokowania dostępu do niej oraz wystąpienia z roszczeniami odszkodowawczymi (co jednak wymagałoby wykazania poniesienia przez niego szkody na skutek web scrapingu).  

CIEKAWOSTKA: Jak web scraperzy starają się obejść zabezpieczenia i uniknąć problemów? Najczęściej poprzez stosowanie VPN-ów, ustawianie zmiennych odstępów pomiędzy wysłanymi zapytaniami, ustawienie adresu ostatnio ustawionej strony na neutralną, np. google.com (tak, by symulować naturalny ruch z wyszukiwarki).  Z pomocą przychodzą także boty – ich działanie imituje zapytanie wysyłane w internecie przez rzeczywistych użytkowników.

Jak z web scrapingiem radzą sobie administratorzy? 

Ustawiają pułapki (honeypoty), tworzą czarne listy adresów IP, spam listy, captche, aby – niezależnie od prawnych aspektów scrapowania – wyeliminować potencjalnie negatywnie wpływający na dostępność i funkcjonalność usług lub produktów web scraping w ramach należących do nich stron internetowych. 

Nieuczciwa konkurencja wobec właścicieli stron internetowych

Zgodnie z art. 3 ust. 1 Ustawy o zwalczaniu nieuczciwej konkurencji, czynem nieuczciwej konkurencji jest „działanie sprzeczne z prawem lub dobrymi obyczajami, jeżeli zagraża lub narusza interes innego przedsiębiorcy lub klienta”. 

Żeby zatem doszło do popełnienia takiego czynu, konieczne jest łączne wystąpienie następujących przesłanek: 

  1. sprzeczności danego działania z prawem lub dobrymi obyczajami oraz 
  2. naruszenia interesu innego przedsiębiorcy lub klienta.  

Przede wszystkim: żaden przepis nie zabrania wprost scrapingu stron internetowych. Jak jednak sygnalizowaliśmy, scrapowanie danych, a następnie ich udostępnianie może zostać uznane za nieuprawnioną ingerencję w prawa właściciela platformy jako producenta bazy danych, co w konsekwencji prowadziłoby do przyjęcia niezgodności przedsięwzięcia z przepisami.

Z naruszeniem interesu innego przedsiębiorcy lub klienta możemy spotkać się m.in. w następujących sytuacjach: 

  1. scrapowanie danych ze strony, która wprost zabrania tego w swoim regulaminie (co wskazywałoby, że właściciel tej strony postrzega web scraping jako działanie na swoją szkodę); 
  2. scrapowanie w sposób obciążający stronę utrudniając lub uniemożliwiając jej prawidłowe działanie (np. obciążenie serwera); 
  3. wykorzystywania danych do stworzenia alternatywy dla usług oferowanych przez właściciela strony (konkurenta), a w konsekwencji „podebranie” mu użytkowników.  

W swojej bazie danych mam informacje pochodzące z web scrapingu, w którym pomagały mi boty – co teraz?

Ocena prawnego ryzyka związanego z korzystaniem z zescrapowanych danych zależy przede wszystkim od celu, w jakim zamierzamy z nich korzystać. 

Jeżeli chcesz wykorzystywać pobrane dane wyłącznie w ramach swoich potrzeb i nie zostały zebrane z naruszeniem prawa – ich dalsze przechowywanie czy analizowanie nie rodzi prawnego ryzyka. Kluczowe znaczenie ma tutaj brak komercyjnego wykorzystania danych zescrapowanych z sieci. Jeśli dotąd strona, którą scrapowałeś/aś Cię nie zablokowała – prawdopodobnie już nic na tym tle się nie wydarzy.

Jeśli jednak dane mają zostać wykorzystane w ramach platformy biznesowej, trzeba zachować szczególną ostrożność w kontekście omówionych wcześniej przepisów. 

Jednym z najpopularniejszych sposobów wykorzystania zescrapowanych danych w internecie jest cold mailing, czyli przesyłanie maili marketingowych lub handlowych (której przesyłanie wymaga uzyskania zgody na gruncie nowej ustawy Prawo komunikacji elektronicznej – o czym koniecznie należy pamiętać, ponieważ przesłanie takiego maila bez zgody grozi wysoką karą!) do osób, z którymi przedsiębiorca nie miał dotychczas żadnych relacji biznesowych. 

Chcesz wiedzieć więcej na temat mailingu i legalnego newslettera? Przeczytaj nasz kompleksowy poradnik: https://creativa.legal/legalny-newsletter-krok-po-kroku/

Zalety i wady web scrapingu

Kluczowymi zaletami w przypadku web scrapingu jest dostęp do informacji oraz zautomatyzowany proces ekstrakcji danych. Web scraping jest techniką, która pozwala na szybkie i dokładne zbieranie danych z witryn internetowych oraz umożliwiającą regularne aktualizacje danych. Umożliwia również monitorowanie zmian danych z sieci.

Web scraping jako technika wyodrębniania danych ma też swoje wady. Są to przede wszystkim ograniczenia prawne ale również kwestie jakości danych. Podnosi się również, że web scraping może nie być etycznie akceptowalny. Trzeba zawsze pamiętać, że legalność web scrapingu zależy od wielu czynników. 

Podsumowanie: web scraping – jak go legalnie wykorzystać? 

Choć ryzyko jest nieodłącznym elementem biznesu, warto je minimalizować. Narzędzia umożliwiające scraping danych z internetu są coraz bardziej popularne i łatwo dostępne (na co wskazują chociażby ich reklamy), a dane pozyskane wykorzystując web scraping mogą otworzyć nowe możliwości rozwoju Twojej działalności.  Zachęcamy jednak do weryfikacji sposobu ich działania, aby nie narazić się na „bana” lub odpowiedzialność odszkodowawczą. 

Mam nadzieję, że ten artykuł ułatwi Ci przeprowadzenie kompleksowej oceny planowanego przedsięwzięcia. Jeśli jeszcze masz pytania lub szukasz profesjonalnego wsparcia, zachęcamy do kontaktu z naszą kancelarią. 

Zdjęcie dodane przez ThisIsEngineering.

Picture of Arkadiusz Szczudło

Arkadiusz Szczudło

Jestem adwokatem i CEO w kancelarii Creativa Legal, mentorem i twórcą internetowym. Specjalizuję się w bezproblemowej obsłudze prawnej klientów z sektora technologicznego m.in. startupy, SaaS, spółki technologiczne, agencje marketingowe, czy e-commerce B2C/B2B. Jako prawnik, jak i przedsiębiorca, koncentruję się na wyznaczonym celu, starając się przewidzieć potencjalne zagrożenia w jego osiągnięciu. To z kolei sprawia, że trudno jest mnie zaskoczyć – a co za tym idzie – moich klientów. Poznaj autora.

Newsletter, który pomoże Ci się rozwijać!

Dołącz do społeczności właścicieli, kadry zarządzającej i managerskiej w firmach takich jak Twoja!

Zaufało nam już ponad 7000 osób :)

Raz w miesiącu otrzymasz od nas wiadomość edukacyjną w ramach Twojej branży, case study prawne i biznesowe, czy masę innych wartościowych informacji. 

Po zapisaniu się odbierz od nas maila z potwierdzeniem. W razie problemów, napisz do nas. Sprawdź folder spam/oferty.

Aktywując przycisk pod formularzem, akceptujesz nasz Regulamin (w zakresie dotyczącym Newslettera) oraz wyrażasz zgodę na otrzymywanie treści edukacyjnych, informacji o produktach i usługach kancelarii Creativa Legal Korol Szczudło adwokaci sp.p., np. o nowych artykułach, kursach on-line, czy zniżkach. Zapoznaj się z naszą Polityką prywatności.