Incidenti e Violazioni

Perplexity AI e il crawling stealth: come eludere le direttive dei siti web

Dario Fadda 5 Agosto 2025

Secondo un’indagine condotta da Cloudflare, Perplexity sembra utilizzare tecniche di crawling non dichiarate per aggirare le preferenze dei siti web, ignorando deliberatamente file robots.txt e mascherando la propria identità attraverso user agent e IP non ufficiali.

Il crawling nascosto e l’evasione delle restrizioni

Cloudflare ha testato il comportamento di Perplexity creando domini appositamente configurati per bloccare qualsiasi attività di crawling. Nonostante l’esplicito divieto nel file robots.txt e regole WAF mirate a bloccare i crawler ufficiali di Perplexity (PerplexityBot e Perplexity-User), l’azienda è riuscita comunque a recuperare informazioni dai siti protetti.

Analizzando il traffico, è emerso che Perplexity alterna il suo user agent ufficiale con uno generico che imita Google Chrome su macOS:

Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36

Questo crawler non dichiarato utilizza anche indirizzi IP non elencati nella documentazione ufficiale di Perplexity, ruotando tra diverse reti (ASN) per evitare blocchi. Cloudflare ha osservato milioni di richieste giornaliere provenienti da queste fonti nascoste, con un pattern riconoscibile tramite machine learning e analisi del traffico.

Mancato rispetto degli standard e delle best practice

Mentre crawler ben intenzionati, come quelli di OpenAI, rispettano scrupolosamente le direttive robots.txt e interrompono l’accesso se bloccati, Perplexity ha dimostrato un approccio diverso. Quando il crawler nascosto viene bloccato, l’azienda tenta di ricostruire le informazioni attingendo da altre fonti, ma con risultati meno accurati.

Un esempio emblematico è il mancato fetch del file robots.txt da parte dei crawler non dichiarati, violando così le linee guida RFC 9309, che definiscono le norme per un crawling etico.

Come proteggersi da queste pratiche

Cloudflare ha già integrato firme per identificare il crawler stealth di Perplexity nelle sue regole gestite, bloccandone automaticamente l’accesso. Gli utenti possono inoltre configurare regole personalizzate per sfidare le richieste sospette, garantendo l’accesso solo a utenti legittimi.

Per i gestori di siti web che vogliono un controllo più granulare, è possibile utilizzare il Web Bot Auth, uno standard emergente per l’autenticazione dei bot, già adottato da OpenAI per ChatGPT Agent.

Il futuro del crawling e la standardizzazione

Cloudflare sta collaborando con esperti tecnici e organizzazioni come l’IETF per estendere le funzionalità di robots.txt, introducendo vocabolari più avanzati per regolamentare l’accesso dei bot AI. Con oltre due milioni di siti che già bloccano il training AI tramite le funzionalità di Cloudflare, è chiaro che il tema del rispetto delle preferenze dei publisher è diventato centrale.

L’episodio di Perplexity dimostra che, in un’era dominata dall’IA, la trasparenza e il rispetto delle regole devono essere prioritari per evitare pratiche opache che minano la fiducia nell’ecosistema digitale.

Esempio di IOC (Indicatore di Compromissione)

  • User Agent sospetto: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36
  • ASN non dichiarati: Richieste provenienti da reti non ufficiali (es. non presenti nella lista pubblica di Perplexity).

Configurazione consigliata per bloccare il crawler stealth

if ($http_user_agent ~* "Chrome\/124\.0\.0\.0.*Macintosh") {
    return 403;
}

Mentre il panorama dei bot continua a evolversi, strumenti proattivi e collaborazioni settoriali saranno fondamentali per mantenere un Internet equo e sicuro, sicuramente tra le libertà di Internet ci sono anche comportamenti di questo genere, solo che in questo caso sono atti ad arricchire ancora di più pochi grandi gruppi aziendali.

💬 Unisciti alla discussione!


Se vuoi commentare su Perplexity AI e il crawling stealth: come eludere le direttive dei siti web, utilizza la discussione sul Forum.
Condividi esempi, IOCs o tecniche di detection efficaci nel nostro 👉 forum community