I robots ai tempi dell’IA

23 febbraio 2024

Avete presente i file robots.txt?

Sono quei file di testo – per dirla facile facile – che i siti web usano per dire ai vari crawler, ovvero i software che girano per il web raccogliendo dati, cosa possono o non possono fare.

Una sorta di “linea guida” per i bot, insomma, che stabiliscono quali pagine possono essere indicizzate e quali no.

Perfetto.

 

Ora, però, con l’esplosione dell’Intelligenza Artificiale, questi file stanno tornando al centro del dibattito.  Perché molte aziende di IA – come OpenAI – utilizzano crawler per raccogliere enormi quantità di dati dal web, pescando un po’ ovunque per addestrare i loro modelli.
E spesso, diciamolo, senza dare nulla in cambio ai proprietari dei siti.

 

Il risultato? Molti siti, tra cui giganti come il New York Times o la BBC pur essendo stati sempre molto permissivi, anche per ragioni di “pubblicità”, hanno cominciato a bloccare questi bot (tipo GPTBot) attraverso il file robots.txt.

La motivazione è semplice: proteggersi da quello che vedono come uno sfruttamento illecito dei propri contenuti. Insomma, non vogliono che i loro dati siano usati senza consenso. E, soprattutto, senza compenso.

 

Fin qui, tutto abbastanza lineare.

 

Il problema è che non tutti i bot rispettano queste regole. Se i crawler di Google, ad esempio, seguono il protocollo, altri – come l’Internet Archive – hanno dichiarato apertamente di ignorarlo.

Questo rende la vita complicata per i proprietari dei siti: bloccare i bot significa proteggere i propri dati, sì, ma potrebbe anche ridurre la visibilità nei motori di ricerca o escluderli dai nuovi ecosistemi dell’IA.

Fonte: TheVerge

TAG:

Continua a seguirci
Slow News ti arriva anche via email, da leggere quando e come vuoi...
Iscriviti gratis e scegli quali newsletter vuoi ricevere!
Altri articoli Tecnologia