FLoC di Google è un’idea terribile Di Bennett Cyphers – 3 marzo 2021
Google’s FLoC Is a Terrible Idea
Il cookie di terze parti sta morendo e Google sta cercando di crearne un sostituto.
Nessuno dovrebbe piangere la morte del cookie come lo conosciamo. Per più di due decenni, il cookie di terze parti è stato il fulcro di un sistema oscuro, squallido e multimiliardario di sorveglianza pubblicitaria sul Web; l’eliminazione graduale dei cookie di tracciamento e di altri identificatori persistenti di terze parti è attesa da tempo. Tuttavia, mentre i fondamenti dell’industria pubblicitaria stanno cambiando, i suoi maggiori attori sono determinati a restare in piedi.
Google sta guidando la carica per sostituire i cookie di terze parti con un nuovo gruppo di tecnologie «pensate» per indirizzare gli annunci sul Web. E alcune delle sue proposte mostrano che non ha imparato le giuste lezioni dal contraccolpo in atto sul modello del business della sorveglianza. Questo post si concentrerà su una di queste proposte, Federated Learning of Cohorts (FLoC), che è forse la più ambiziosa e potenzialmente la più dannosa.
FLoC vuole essere un nuovo metodo per che il tuo browser esegua la profilazione che i tracker di terze parti erano soliti fare da soli: in questo caso, riducendo la tua attività di navigazione recente ad una etichetta comportamentale per poi condividerla con siti web e inserzionisti. La tecnologia eviterà i rischi per la privacy dei cookie di terze parti, ma ne creerà di nuovi nel processo. Può anche esacerbare molti dei peggiori problemi non legati privacy degli annunci comportamentali, tra cui la discriminazione e il targeting predatorio.
L’assist di Google per i sostenitori della privacy è che un mondo con FLoC (e altri elementi della “sandbox della privacy”) sarà migliore del mondo che abbiamo oggi, dove i data broker e i giganti della tecnologia pubblicitaria tracciano e profilano impunemente. Ma quella cornice si basa sulla falsa premessa che si debba scegliere tra “vecchio tracciamento” e “nuovo tracciamento”. Non è o l’uno o l’altro. Invece di reinventare la ruota del tracciamento, dovremmo immaginare un mondo migliore senza la miriade di problemi degli annunci mirati.
Siamo a un bivio. Dietro di noi c’è l’era dei cookie di terze parti, forse il più grande errore del Web. Davanti a noi ci sono due possibili «scenari di» futuro.
In uno, gli utenti possono decidere quali informazioni condividere con ogni sito con cui scelgono di interagire. Nessuno deve preoccuparsi che la propria navigazione passata venga utilizzata contro di lui o sfruttata per manipolarlo quando aprirà una nuova scheda.
Nell’altro, il comportamento di ogni utente lo segue di sito in sito come una etichetta, invisibile all’apparenza ma ricca di significato per chi sa «dove guardare». La loro cronologia recente, distillata in pochi bit, è “democratizzata” e condivisa con decine di attori anonimi che concorrono al contenuto di ogni pagina web. Gli utenti iniziano ogni interazione con una confessione: ecco cosa ho combinato questa settimana, per favore trattami di conseguenza.
Utenti e sostenitori devono rifiutare FLoC e altri tentativi fuorvianti di reinventare il targeting comportamentale. Imploriamo Google di abbandonare FLoC e reindirizzare i suoi sforzi verso la creazione di un Web veramente a misura di utente.
Cos’è FLoC?
Nel 2019, Google ha presentato Privacy Sandbox , la sua visione per il futuro della privacy sul Web. Al centro del progetto c’è una gamma di protocolli senza cookie progettati per soddisfare la miriade di applicazioni concrete che i cookie di terze parti attualmente forniscono agli inserzionisti. Google ha portato le sue proposte al W3C, l’ente di definizione degli standard per il Web, dove sono state discusse principalmente all’interno del Web Advertising Business Group, un organismo composto principalmente da fornitori di tecnologia pubblicitaria. Nei mesi successivi, Google e altri inserzionisti hanno proposto decine di norme tecniche con nomi a tema “uccelli”: PIGIN, TURTLEDOVE, SPARROW, SWAN, SPURFOWL, PELICAN, PARROT… l’elenco potrebbe continuare. Sul serio. Ciascuna delle proposte “uccello” è progettata per svolgere nell’ecosistema della pubblicità mirata una delle funzioni che è attualmente svolta dai cookie.
FLoC è progettato per aiutare gli inserzionisti a eseguire il targeting comportamentale senza cookie di terze parti. Un browser con FLoC abilitato raccoglie informazioni sulle abitudini di navigazione dell’utente, quindi le utilizza per assegnare l’utente a una “coorte” o gruppo. Gli utenti con abitudini di navigazione simili, per una qualsiasi definizione di “simile”, verrebbero raggruppati nella stessa coorte. Il browser di ogni utente condividerà un ID «identificatore» di coorte, indicante a quale gruppo appartiene, con siti web e inserzionisti. Secondo la proposta, almeno qualche migliaio di utenti dovrebbero appartenere a ciascuna coorte (anche se non è una garanzia).
Se sembra oscuro, pensaci in questo modo: il tuo identificatore FLoC sarà come un breve riassunto della tua attività recente sul Web.
Una dimostrazione di esempio di Google ha impiegato i domini dei siti visitati da ciascun utente come base per raggruppare le persone. Ha quindi utilizzato un algoritmo chiamato SimHash per creare i gruppi. SimHash può essere calcolato localmente sulla macchina di ogni utente, quindi non è necessario un server centrale per raccogliere dati comportamentali. Tuttavia, un amministratore centrale potrebbe avere un ruolo nell’applicazione di garanzie sulla privacy. Per evitare che qualsiasi coorte sia troppo piccola (cioè troppo identificativa), Google propone che un soggetto centrale possa contare il numero di utenti assegnati a ciascuna coorte. Se alcune risultassero troppo piccole, potrebbero essere combinate con altre coorti simili fino a raggiungere un numero sufficiente di utenti in ciascuna di esse.
Stando alla proposta, la maggior parte delle specifiche sono ancora da definire. La bozza delle specifiche afferma che l’identificatore di coorte di un utente sarà disponibile tramite Javascript, ma non è chiaro se ci saranno restrizioni su chi può accedervi o se l’ID sarà condiviso in altri modi. FLoC potrebbe eseguire il raggruppamento in base agli URL o al contenuto della pagina invece che ai domini; potrebbe anche utilizzare un sistema basato sull’apprendimento federato (come suggerisce il nome FLoC) per generare i gruppi in alternativa a SimHash. Inoltre, non è chiaro esattamente quante possibili coorti ci saranno. L’esperimento di Google ha utilizzato identificatori di coorte a 8 bit, il che significa che c’erano solo 256 coorti possibili. In pratica quel numero potrebbe essere molto più alto; la documentazione suggerisce un identificatore di coorte a 16 bit composto da 4 caratteri esadecimali. Più coorti sono previste, più specifiche risulteranno; identificatori di coorte più lunghi significa che gli inserzionisti impareranno di più sugli interessi di ogni utente e saranno facilitati nel fingerprinting.
Un elemento che è specificato è la durata. Le coorti FLoC verranno ricalcolate su base settimanale, ogni volta utilizzando i dati della navigazione della settimana precedente. Ciò rende le coorti FLoC meno utili come identificatori a lungo termine, ma li rende anche misurazioni più efficaci di come gli utenti si comportano nel tempo.
Nuovi problemi di privacy
FLoC fa parte di un insieme inteso a portare gli annunci mirati in un futuro che preservi la privacy. Ma il suo concetto base prevede la condivisione di nuove informazioni con gli inserzionisti. Non sorprende che questo crei anche nuovi rischi per la privacy.
Fingerprinting
Il primo problema è il fingerprinting. Il fingerprinting del browser è la pratica di raccogliere molte informazioni discrete dal browser di un utente per creare un identificatore univoco e stabile per quel browser. Il progetto Cover Your Tracks di EFF dimostra come funziona il processo: in breve, più il tuo browser appare o si comporta in modo diverso da quello degli altri, più facile è il fingerprinting.
Google ha promesso che la stragrande maggioranza delle coorti FLoC comprenderà migliaia di utenti ciascuna, quindi un identificatore di coorte da solo non dovrebbe distinguerti da alcune migliaia di altre persone come te. Tuttavia, ciò offre ancora al fingerprinting un enorme vantaggio. Se un tracker inizia dalla tua coorte FLoC, deve solo distinguere il tuo browser da poche migliaia di altri (piuttosto che da alcune centinaia di milioni). In termini di teoria dell’informazione, le coorti FLoC conterranno diversi bit di entropia, fino a 8 bit, nella prova dimostrativa di Google. Questa informazione è ancora più potente dato che è improbabile che sia correlata con altre informazioni che il browser espone. Ciò renderà molto più facile per i tracker mettere insieme un fingerprinting unico per gli utenti FLoC.
Google ha riconosciuto questa come una sfida, ma si è impegnata a risolverla come parte del più ampio piano “Privacy Budget” che porta avanti per affrontare il fingerprinting nel lungo termine. Risolvere il fingerprinting è un obiettivo ammirevole e la sua proposta è una strada promettente da perseguire. Ma secondo le FAQ, quel piano è “una proposta in una fase iniziale e non ha ancora un’implementazione del browser”. Nel frattempo, Google inizierà a testare FLoC già questo mese .
Il fingerprinting è notoriamente difficile da fermare. Browser come Safari e Tor si sono impegnati in lunghe battaglie contro i tracker, sacrificando ampie parti dei propri set di funzionalità al fine di ridurre le superfici di attacco al fingerprinting. La mitigazione del fingerprinting generalmente implica l’eliminazione o la limitazione di elementi di entropia non necessarii, che è ciò che «invece» è FLoC. Google non dovrebbe creare nuovi rischi relativi al fingerprinting fino a quando non avrà capito come affrontare quelli esistenti.
Esposizione cross-context
Il secondo problema è meno semplice dal spiegare: la tecnologia condividerà nuovi dati personali con i tracker che possono già identificare gli utenti. Affinché FLoC sia utile agli inserzionisti, la coorte di un utente rivelerà necessariamente informazioni sul proprio comportamento.
La pagina Github del progetto affronta questo problema in anticipo:
Come descritto sopra, le coorti FLoC non dovrebbero da sole funzionare come identificatori. Tuttavia, qualsiasi azienda in grado di identificare un utente in altri modi, ad esempio offrendo servizi tramite “Accedi con Google” ai siti su Internet, sarà in grado di collegare le informazioni apprese da FLoC al profilo dell’utente.
Due categorie di informazioni possono essere esposte in questo modo:
1.Informazioni specifiche sulla cronologia di navigazione. I tracker possono essere in grado di decodificare l’algoritmo di assegnazione ad una coorte per determinare che qualsiasi utente che appartiene a quella coorte specifica probabilmente o sicuramente ha visitato siti specifici.
2. Informazioni generali su dati demografici o interessi. Gli osservatori possono apprendere che, in generale, è molto probabile che membri di una specifica coorte appartengano ad uno specifico tipo di persona. Ad esempio, una particolare coorte può sovrarappresentare gli utenti giovani, le donne e i neri; un’altra coorte, gli elettori repubblicani di mezza età; una terza, i giovani LGBTQ+.
Questo significa che ogni sito che visiti avrà una buona idea di che tipo di persona sei già al primo contatto, senza dover fare il lavoro di tracciarti attraverso il web. Inoltre, poiché la tua coorte FLoC si aggiornerà nel tempo, i siti che possono identificarti in altri modi saranno anche in grado di monitorare come cambia la tua navigazione. Ricorda, una coorte FLoC non è niente di più e niente di meno che un riassunto della tua recente attività di navigazione.
Dovresti avere il diritto di presentare diversi aspetti della tua identità in diversi contesti. Se visiti un sito per informazioni mediche, potresti affidargli informazioni sulla tua salute, ma non c’è motivo per cui debba conoscere qual è la tua collocazione politica. Allo stesso modo, se visiti un negozio online, «questo» non dovrebbe aver bisogno di sapere se recentemente hai letto di trattamenti per la depressione. FLoC erode questa separazione di contesti e presenta invece lo stesso riassunto comportamentale a tutti coloro con cui interagisci.
Oltre la privacy
FLoC è progettato per prevenire una minaccia molto specifica: il tipo di profilazione individuale che attualmente è consentita dagli identificatori cross-context. L’obiettivo di FLoC e di altre proposte è evitare che i tracker possano accedere a informazioni specifiche riconducibili a persone specifiche. Come abbiamo mostrato, FLoC può effettivamente aiutare i tracker in molti contesti. Ma anche se Google è in grado di rafforzare il suo progetto e prevenire questi rischi, i danni della pubblicità mirata non si limitano alle violazioni della privacy. L’obiettivo principale di FLoC è in contrasto con altre libertà civili.
Il potere di puntare è il potere di discriminare. Per definizione, gli annunci mirati consentono agli inserzionisti di raggiungere alcuni tipi di persone escludendone altri. Un sistema di targeting può essere utilizzato per decidere chi può vedere annunci di lavoro o offerte di prestito con la stessa facilità con cui pubblicizza scarpe.
Negli anni, il meccanismo della pubblicità mirata è stato spesso utilizzato per lo sfruttamento, la discriminazione e il nocumento. La possibilità di indirizzare gli annunci alle persone in base all’etnia, alla religione, al sesso, all’età o alle capacità consente annunci discriminatori per lavoro, alloggio e credito. Il targeting basato sulla storia del credito, o sulle caratteristiche sistematicamente associate ad esso, consente annunci predatori per prestiti ad alto interesse. Il targeting basato su dati demografici, posizione e affiliazione politica aiuta chi diffonde disinformazione politica e la disaffezione degli elettori. Tutti i tipi di targeting comportamentale aumentano il rischio di truffe credibili.
Google, Facebook e molte altre piattaforme pubblicitarie cercano già di frenare determinati usi delle proprie piattaforme di targeting. Google, ad esempio, limita la capacità degli inserzionisti di indirizzare gli annunci a persone in “categorie di interessi sensibili”. Tuttavia, questi sforzi spesso falliscono; attori determinati possono solitamente trovare soluzioni alternative alle restrizioni a livello di piattaforma su determinati tipi di targeting o determinati tipi di annunci.
Anche con un potere assoluto su quali informazioni possono essere utilizzate per indirizzare chi, le piattaforme sono troppo spesso incapaci di impedire l’abuso della loro tecnologia. Ma FLoC utilizzerà un algoritmo non supervisionato per creare i suoi raggruppamenti. Ciò significa che nessuno avrà il controllo diretto sul modo in cui le persone sono raggruppate. Idealmente (per gli inserzionisti), FLoC creerà gruppi che hanno comportamenti e interessi significativi in comune. Ma il comportamento online è collegato a tutte le caratteristiche sensibili: dati demografici come sesso, etnia, età e reddito; Tratti della personalità “big 5”; anche la salute mentale . È molto probabile che FLoC raggrupperà anche gli utenti lungo alcuni di questi assi. I raggruppamenti di FLoC possono anche riflettere direttamente le visite a siti Web relativi ad abuso di sostanze, difficoltà finanziarie o supporto per i sopravvissuti a traumi.
Google ha proposto di poter monitorare gli output del sistema per verificare eventuali correlazioni con le sue categorie sensibili. Se rileva che una particolare coorte è troppo strettamente correlata a un particolare gruppo protetto, il server amministrativo può scegliere nuovi parametri per l’algoritmo e dire ai browser degli utenti di raggrupparsi di nuovo.
Questa soluzione suona sia orwelliana che sisifea. Per monitorare il modo in cui i gruppi di FLoC sono correlati alle categorie sensibili, Google dovrà eseguire controlli massicci utilizzando dati su razza, sesso, religione, età, salute e situazione finanziaria degli utenti. Ogni volta che trova una coorte che si correla troppo fortemente lungo uno qualsiasi di questi assi, dovrà riconfigurare l’intero algoritmo e riprovare, sperando che nella nuova iterazione non siano implicate altre “categorie sensibili”. Questa è una variante molto più complessa del problema che sta già tentando, spesso senza riuscirci, di risolvere.
In un mondo con FLoC, potrebbe essere più difficile indirizzare gli utenti direttamente in base all’età, al sesso o al reddito. Ma non sarà impossibile. I tracker con accesso a informazioni ausiliarie sugli utenti saranno in grado di apprendere cosa “significano” i raggruppamenti FLoC e che tipo di persone contengono, attraverso l’osservazione e la sperimentazione. Coloro che sono determinati a farlo saranno comunque in grado di discriminare. Inoltre, questo tipo di comportamento sarà più difficile da controllare per le piattaforme di quanto non lo sia già. Gli inserzionisti con cattive intenzioni avranno una negazione plausibile: dopo tutto, non prendono direttamente di mira le categorie protette, ma raggiungono le persone in base al comportamento. E l’intero sistema sarà più opaco per utenti e regolatori.
Google, per favore non farlo
Abbiamo scritto di FLoC e dell’altro gruppo iniziale di proposte quando sono state introdotte per la prima volta, definendo FLoC “l’opposto della tecnologia per la tutela della privacy”. Speravamo che il processo di standardizzazione avrebbe fatto luce sui difetti fondamentali di FLoC, inducendo Google a riconsiderare la possibilità di portarlo avanti. In effetti, diversi problemi sulla pagina ufficiale Github sollevano le stesse esatte preoccupazioni che abbiamo evidenziato qui. Tuttavia, Google ha continuato a sviluppare il sistema, lasciandone i fondamentali quasi invariati. Ha iniziato a proporre FLoC agli inserzionisti, vantandosi che FLoC è un sostituto “efficace al 95%” del targeting basato sui cookie. E a partire da Chrome 89, rilasciato il 2 marzo, sta distribuendo la tecnologia per una prima prova . Una piccola parte degli utenti di Chrome, probabilmente milioni di persone, sarà (o è stata) assegnata a testare la nuova tecnologia.
Non fate errori, se Google porterà a termine il suo piano per introdurre FLoC in Chrome, probabilmente darà ai soggetti coinvolti delle “opzioni”. Il sistema sarà probabilmente opt-in per gli inserzionisti che ne beneficeranno e opt-out per gli utenti che rischiano di essere danneggiati. Google lo pubblicizzerà sicuramente come un passo avanti per la “trasparenza e il controllo all’utente”, sapendo benissimo che la stragrande maggioranza dei suoi utenti non capirà come funziona FLoC e che pochissimi faranno di tutto per disattivarlo. Si darà una pacca sulla spalla per aver inaugurato una nuova era privata sul Web, libera dal malvagio cookie di terze parti, la «stessa» tecnologia che Google ha contribuito ad estendere ben oltre la sua durata di conservazione, guadagnando miliardi di dollari nel processo .
Non deve essere così. Le parti più importanti della sandbox per la privacy, come l’eliminazione di identificatori di terze parti e la lotta fingerprinting, cambieranno davvero il Web in meglio. Google può scegliere di smantellare la vecchia impalcatura per la sorveglianza senza sostituirla con qualcosa di nuovo e unicamente dannoso.
Rifiutiamo decisamente il futuro di FLoC. Questo non è il mondo che vogliamo, né quello che gli utenti meritano. Google ha bisogno di imparare le giuste lezioni dall’era del monitoraggio di terze parti e progettare il suo browser in modo che lavori per gli utenti, non per gli inserzionisti.