L’addestramento dei modelli di AI richiede grandi quantità di dati, spesso reperiti tramite webscraping. Questo solleva criticità in tema di diritto d’autore e protezione dei dati personali, specialmente se i contenuti non sono adeguatamente protetti. Il Garante ha suggerito misure tecniche e giuridiche per ridurre il rischio di scraping, come limitazioni nei ToS, CAPTCHA, file robots.txt, monitoraggio IP e offuscamento HTML. Tali misure non eliminano del tutto il fenomeno, ma rendono più difficile l’accesso automatico ai dati aiutando i gestori dei siti web ad adottare strategie preventive per tutelare i propri contenuti.
Addestramento dei modelli di intelligenza artificiale e webscraping
Com’è noto, per procedere all’addestramento dei modelli di intelligenza artificiale sono necessarie importanti quantità di dati. I grandi operatori che sviluppano tali modelli reperiscono tali dati mediante dataset pubblici, che sono messi a disposizione da vari enti, i quali però, raccolgono informazioni fino ad una certa data specifica. Per aggiornare il modello, si utilizza una tecnica particolare, cd. webscraping, mediante la quale si raccolgono in tempo reale informazioni sui siti internet presenti online, trasformandole in dati che poi sono utilizzati per addestrare i modelli.
La normativa sul diritto d’autore contiene una precisa previsione in tal senso, introdotta con la modifica della direttiva UE sul copyright nel 2019, che viene comunemente denominata “text and data mining” la quale consente tale pratica a meno che l’autore non abbia espressamente vietato la possibilità di svolgerla sui contenuti presenti sul suo sito internet.
Anche dal punto di vista della protezione dei dati personali, chi sviluppa modelli di intelligenza artificiale tende a utilizzare quale base giuridica per il trattamento di webscraping il legittimo interesse, il quale si basa su un meccanismo di opposizione ex post a detto eventuale trattamento.
Tale quadro normativo, unito alla prassi sopra descritta, richiede che le imprese e tutti i gestori di siti internet in generale adottino specifiche precauzioni qualora non vogliano che i dati di cui sono titolari vengano utilizzati per tali attività.
Le indicazioni del Garante per la protezione dei dati personali
Sul tema è intervenuto il Garante per la protezione dei dati personali che, senza soffermarsi sulla valutazione della legittimità o meno dell’attività di webscraping, ha fornito le seguenti specifiche indicazioni ai gestori di piattaforme online e di siti web sulle cautele da adottare per mitigare gli effetti del webscraping, tutelando in tal modo anche i dati personali che possono eventualmente essere pubblicati sui siti internet.
Creare aree riservate accessibili solo previa registrazione facendo attenzione a non imporre oneri aggiuntivi agli utenti (anche in ossequio al principio di minimizzazione).
Inserire nei Termini di Servizio (ToS) del sito o piattaforma il divieto espresso di usare tecniche di webscraping. Una soluzione prettamente giuridica, idonea per una tutela ex post che può sicuramente fungere da deterrente.
Monitorare il traffico di rete, eventualmente limitando il numero di richieste per IP in un dato intervallo, abbassando così il tasso di successo del webscraping.
Usare il file “robots.txt” è una delle pratiche più diffuse. È un file di testo che va inserito nella directory radice del sito per comunicare ai crawler quali pagine o parti del sito non indicizzare. È uno standard riconosciuto dai principali motori di ricerca che istruiscono i loro bot a rispettarlo. Non è vincolante legalmente ma è una forma di “galateo” del web. Non impedisce accessi se il crawler decide di ignorarlo, ma è un primo livello di difesa molto semplice da implementare. Oltretutto alcuni bot sono espressamente identificati per la finalità di scraping ai fini di addestramento di modelli di intelligenza artificiale (come Google-Extended e GPTbopt).
CAPTCHAs e challenge-response tests permettono di distinguere bot da umani, richiedendo azioni complesse difficili da automatizzare (es. identificare oggetti in immagini). Vanno bilanciate con l’usabilità per gli utenti.
Incorporare le informazioni in contenuti multimediali (come immagini, video, ecc.). Seppur tale tecnica potrebbe essere utile in quanto non espone del testo facilmente reperibile dai bot di scraping, potrebbe comportare delle problematiche sia per gli utenti che vogliono compiere azioni legittime, sia per il rispetto dei requisiti di accessibilità del sito.
Il monitoraggio dei log e l’analisi della navigazione consentono di individuare anomalie statistiche riconducibili a bot. È un efficace controllo ex post e deve essere combinato con azioni successive (es. blocco di indirizzi IP).
Modifiche alla struttura delle pagine HTML possono rendere più difficile il webscraping (es. usare tag non semantici, annidare i tag, etc.). Queste tecniche “offuscano” il contenuto delle pagine e possono ridurre l’efficacia dei bot, ma bisogna usarle con accortezza in quanto possono impattare anche l’usabilità per utenti umani e l’indicizzazione dei motori di ricerca.
Conclusioni
L’Autorità Garante chiarisce che le tecniche suggerite potrebbero non eliminare del tutto l’attività di webscraping, ma comunque si tratta di accorgimenti che da una parte rendono manifesta la volontà del gestore del sito web o della piattaforma di voler escludere tale attività e dall’altra aggiungono delle “barriere tecniche” alla stessa, rendendola così più difficoltosa e assicurando un maggior controllo sulla diffusione dei dati e delle informazioni che sono presenti sui siti web.
A cura di Massimiliano Nicotra
