I robots ai tempi dell’IA

di Francesca Menta

I file robots.txt, che regolano l’accesso dei bot ai siti web, sono tornati al centro del dibattito con l’ascesa dell’IA. Aziende come OpenAI usano crawler per raccogliere dati, spingendo siti come il New York Times a bloccare bot non autorizzati per proteggere i propri contenuti. Tuttavia, non tutti i bot rispettano queste regole.

Avete presente i file robots.txt?

Sono quei file di testo – per dirla facile facile – che i siti web usano per dire ai vari crawler, ovvero i software che girano per il web raccogliendo dati, cosa possono o non possono fare.

Una sorta di “linea guida” per i bot, insomma, che stabiliscono quali pagine possono essere indicizzate e quali no.

Perfetto.

Ora, però, con l’esplosione dell’Intelligenza Artificiale, questi file stanno tornando al centro del dibattito. Perché molte aziende di IA – come OpenAI – utilizzano crawler per raccogliere enormi quantità di dati dal web, pescando un po’ ovunque per addestrare i loro modelli.
E spesso, diciamolo, senza dare nulla in cambio ai proprietari dei siti.

Il risultato? Molti siti, tra cui giganti come il New York Times o la BBC pur essendo stati sempre molto permissivi, anche per ragioni di “pubblicità”, hanno cominciato a bloccare questi bot (tipo GPTBot) attraverso il file robots.txt.

La motivazione è semplice: proteggersi da quello che vedono come uno sfruttamento illecito dei propri contenuti. Insomma, non vogliono che i loro dati siano usati senza consenso. E, soprattutto, senza compenso.

Fin qui, tutto abbastanza lineare.

Il problema è che non tutti i bot rispettano queste regole. Se i crawler di Google, ad esempio, seguono il protocollo, altri – come l’Internet Archive – hanno dichiarato apertamente di ignorarlo.

Questo rende la vita complicata per i proprietari dei siti: bloccare i bot significa proteggere i propri dati, sì, ma potrebbe anche ridurre la visibilità nei motori di ricerca o escluderli dai nuovi ecosistemi dell’IA.

23 febbraio 2024

Fonte: TheVerge