PrivacyNightmare : Différence entre versions

De La Quadrature du Net
(few examples)
Ligne 13 : Ligne 13 :
=Studies on re-identification=
=Studies on re-identification=
=== ... ===
"Le plus haut taux de pertinence a été relevé pour les origines ethniques et le sexe. Ainsi les afro-américains et les caucasiens des Etats-Unis ont été correctement classifiés dans 95% des cas, tandis que 93% des distinctions entre les hommes et les femmes ont été décelées correctement. Dans 82% des cas, l’algorithme est parvenu à classifier les Musulmans et les Chrétiens. Pour ce qui est de l’orientation sexuelle, elle a été plus facile à déceler chez les hommes (88%) que chez les femmes (75%)." [ source]
===ArsTechnica - [ 'Anonymized' data really isn’t—and here’s why not] (08 September 2009)===
===ArsTechnica - [ 'Anonymized' data really isn’t—and here’s why not] (08 September 2009)===
Ligne 218 : Ligne 221 :
== Publicité en ligne ==
== Publicité en ligne ==
<!-- -->
<!-- -->
== Prédiction de l'humeur de personnes ==
Facemood "Cette dernière essayait de prédire l'humeur des utilisateurs de Facebook en se basant sur leurs statuts."
== Prédiction des dépenses futures ==
Application qui donne une prédiction des futures dépenses d'une personne, graphiques à l'appui
[[Category:Data Protection]]
[[Category:Data Protection]]

Version du 19 avril 2013 à 12:40


Studies on re-identification


"Le plus haut taux de pertinence a été relevé pour les origines ethniques et le sexe. Ainsi les afro-américains et les caucasiens des Etats-Unis ont été correctement classifiés dans 95% des cas, tandis que 93% des distinctions entre les hommes et les femmes ont été décelées correctement. Dans 82% des cas, l’algorithme est parvenu à classifier les Musulmans et les Chrétiens. Pour ce qui est de l’orientation sexuelle, elle a été plus facile à déceler chez les hommes (88%) que chez les femmes (75%)." source

ArsTechnica - 'Anonymized' data really isn’t—and here’s why not (08 September 2009)

87 percent of all Americans could be uniquely identified using only three bits of information: ZIP code, birthdate, and sex. [...]

almost all information can be "personal" when combined with enough other relevant bits of data.[...]

That's the claim advanced by Ohm in his lengthy new paper on "the surprising failure of anonymization." As increasing amounts of information on all of us are collected and disseminated online, scrubbing data just isn't enough to keep our individual "databases of ruin" out of the hands of the police, political enemies, nosy neighbors, friends, and spies. [...]

Examples of the anonymization failures aren't hard to find.

When AOL researchers released a massive dataset of search queries, they first "anonymized" the data by scrubbing user IDs and IP addresses. [...] Despite scrubbing the obviously identifiable information from the data, computer scientists were able to identify individual users [...]

The problem was that user IDs were scrubbed but were replaced with a number that uniquely identified each user. This seemed like a good idea at the time, since it allowed researchers using the data to see the complete list of a person's search queries, but it also created problems; those complete lists of search queries were so thorough that individuals could be tracked down simply based on what they had searched for. As Ohm notes, this illustrates a central reality of data collection: "data can either be useful or perfectly anonymous but never both." [...]

Such results are obviously problematic in a world where Google retains data for years, "anonymizing" it after a certain amount of time but showing reticence to fully delete it. "Reidentification science disrupts the privacy policy landscape by undermining the faith that we have placed in anonymization," Ohm writes. "This is no small faith, for technologists rely on it to justify sharing data indiscriminately and storing data perpetually, all while promising their users (and the world) that they are protecting privacy. Advances in reidentification expose these promises as too often illusory." [...]

"For almost every person on earth, there is at least one fact about them stored in a computer database that an adversary could use to blackmail, discriminate against, harass, or steal the identity of him or her. I mean more than mere embarrassment or inconvenience; I mean legally cognizable harm. Perhaps it is a fact about past conduct, health, or family shame. For almost every one of us, then, we can assume a hypothetical 'database of ruin,' the one containing this fact but until now splintered across dozens of databases on computers around the world, and thus disconnected from our identity. Reidentification has formed the database of ruin and given access to it to our worst enemies." [...]

Nature - Unique in the Crowd: The privacy bounds of human mobility (25 March 2013)

Apple recently updated its privacy policy to allow sharing the spatio-temporal location of their users with “partners and licensees” [('Apple and our partners and licensees may collect, use, and share precise location data, including the real-time geographic location of your Apple computer or device. This location data is collected anonymously in a form that does not personally identify you') ...] [I]t is estimated that a third of the 25B copies of applications available on Apple's App StoreSM access a user's geographic location and that the geo-location of ~50% of all iOS and Android traffic is available to ad networks. All these are fuelling the ubiquity of simply anonymized mobility datasets and are giving room to privacy concerns.

A simply anonymized dataset does not contain name, home address, phone number or other obvious identifier. Yet, if individual's patterns are unique enough, outside information can be used to link the data back to an individual. [...]

We study fifteen months of human mobility data for one and a half million individuals and find that human mobility traces are highly unique. In fact, in a dataset where the location of an individual is specified hourly, and with a spatial resolution equal to that given by the carrier's antennas, four spatio-temporal points are enough to uniquely identify 95% of the individuals. [...]

University of Cambridge - Digital records could expose intimate details and personality traits of millions (11 March 2013)

Research shows that intimate personal attributes can be predicted with high levels of accuracy from ‘traces’ left by seemingly innocuous digital behaviour, in this case Facebook Likes.

In the study, researchers describe Facebook Likes as a “generic class” of digital record - similar to web search queries and browsing histories - and suggest that such techniques could be used to extract sensitive information for almost anyone regularly online.

Researchers at Cambridge’s Psychometrics Centre, in collaboration with Microsoft Research Cambridge, analysed a dataset of over 58,000 US Facebook users, who volunteered their Likes, demographic profiles and psychometric testing results through the myPersonality application.

Users opted in to provide data and gave consent to have profile information recorded for analysis. Facebook Likes were fed into algorithms and corroborated with information from profiles and personality tests.

Researchers created statistical models able to predict personal details using Facebook Likes alone. Models proved 88% accurate for determining male sexuality, 95% accurate distinguishing African-American from Caucasian American and 85% accurate differentiating Republican from Democrat. Christians and Muslims were correctly classified in 82% of cases, and good prediction accuracy was achieved for relationship status and substance abuse – between 65 and 73%. [...]

The researchers also tested for personality traits including intelligence, emotional stability, openness and extraversion. While such latent traits are far more difficult to gauge, the accuracy of the analysis was striking. Study of the openness trait – the spectrum of those who dislike change to those who welcome it – revealed that observation of Likes alone is roughly as informative as using an individual’s actual personality test score.

Some Likes had a strong but seemingly incongruous or random link with a personal attribute, such as Curly Fries with high IQ, or That Spider is More Scared Than U Are with non-smokers.

When taken as a whole, researchers believe that the varying estimations of personal attributes and personality traits gleaned from Facebook Like analysis alone can form surprisingly accurate personal portraits of potentially millions of users worldwide. [...]

“Similar predictions could be made from all manner of digital data, with this kind of secondary ‘inference’ made with remarkable accuracy - statistically predicting sensitive information people might not want revealed. Given the variety of digital traces people leave behind, it’s becoming increasingly difficult for individuals to control." [...]

L'Expansion - Dis-moi ce que tu aimes sur Facebook, je te dirais qui tu es (13 Mars 2013)

Une étude publiée par des chercheurs de l'Université de Cambridge dévoile la facilité avec laquelle il est possible de retirer de grandes quantités d'informations à partir de l'analyse des mentions "J'aime" sur le réseau social. [...]

Leur travail a consisté à analyser les mentions "J'aime" de 58.000 internautes américains afin de mettre au point un algorithme capable de déterminer, avec plus ou moins de réussite, l'âge, le sexe, les croyances, l'orientation sexuelle, l'intelligence et même la consommation éventuelle de drogue des sujets d'étude. "Nous avons sélectionné des traits et des attributs qui révèlent à quel point est précis, et potentiellement intrusif, un tel modèle prédictif", écrivent-ils.

Les chercheurs ont par exemple réussi à deviner avec plus de 93% de réussite l'origine et le sexe des interrogés. D'après eux, cela signifie que "les types de comportements en ligne, à travers les 'Like', diffèrent de façon significative entre ces groupes, permettant une classification quasi parfaite". Parmi les autres thèmes analysés, l'étude a dévoilé l'orientation sexuelle avec 88% de réussite chez les hommes et 75% chez les femmes. Elle va même jusqu'à deviner si les internautes sont en couple ou pas avec 67% de chances. Et les pourcentages de réussites concernant l'alcool (70%), le tabac (73%) et même les drogues (65%) sont eux aussi respectables.[...]

Blague à part, ces résultats ont malgré tout de quoi inquiéter à l'heure où la protection des données personnelles devient un véritable problème de société et angoisse la plupart des internautes mal informés face aux dangers. [...]

Wired - Liking curly fries on Facebook reveals your high IQ (12 March 2013)

What you Like on Facebook could reveal your race, age, IQ, sexuality and other personal data, even if you've set that information to "private". [...] The research shows that although you might choose not to share particular information about yourself it could still be inferred from traces left on social media, such as the TV shows you watch or the music you listen to or the spiders that are afraid of you. [...]

The data industry

CNIL - Voyage au cœur des smartphones et des applications mobiles avec la CNIL et Inria (09 avril 2013)

Depuis un an, la CNIL et Inria travaillent ensemble pour analyser les données enregistrées, stockées et diffusées par les smartphones.[...]

[Constats :]

  • des accès réseaux nombreux et quasi permanents sans une information claire des utilisateurs
  • 9 applications sur 10 accèdent à internet, ce qui ne se justifie pas toujours (jeux)
  • quelques applications sont à l'origine des accès à la grande majorité des données, avec une intensité qui semble dépasser le seul besoin des fonctions de ces applications
  • certaines applications accèdent à des données sans lien direct avec une action de l'utilisateur ou un service offert par *l'application (récupération de l'identifiant unique, du nom de l'appareil, de la localisation).

Presqu'un tiers des applications utilisées par nos volontaires ont accédé à la géolocalisation. Il s'agit donc de la donnée la plus intensément consommée : près de 41 000 événements de géolocalisation pour 6 personnes en 90 jours, soit une moyenne de 76 événements par volontaire par 24 heures. Que ce soit de façon délibérée, par facilité ou en raison d'une erreur de développement, cela conduit à une permanence des accès à la localisation par une pléiade d'applications. [...]

Les développeurs captent massivement des données leur permettant de tracer les utilisateurs. De nombreuses applications récupèrent ainsi l'identifiant unique du téléphone (UDID). Cet identifiant intégré dès l'achat à l'appareil par Apple ne peut pas être modifié par l'utilisateur. 87 applications sur les 189 utilisées ont accédé à l'UDID, soit presque 50% et 33 l'ont transmis en clair, plusieurs fois durant l'expérimentation. A titre d'exemple, l'application d'un quotidien a accédé 1989 fois à l'identifiant unique du téléphone et l'a transmis 614 fois à l'éditeur de l'application. [...]

S'il est déjà très difficile d'effacer les traqueurs sur son ordinateur, rien n'est aujourd'hui possible concernant ceux présents à l'intérieur des applications mobiles. [...]

L'Informaticien - Smartphone : ces applis qui accèdent à nos données personnelles (09 avril 2013)

La CNIL et l'Inria s'intéressent donc aujourd'hui à la protection des données personnelles, sur mobile. [...] Au total, voici le bilan chiffré de cette première expérience : 9 Go de données récoltées, 189 appli utilisées, 7 millions d’évènements à analyser, 41 000 évènements de géolocalisation, soit 76 par jour et par volontaire. [...] Toutes ces données sont récoltées non seulement par les éditeurs d’applications que les utilisateurs ont choisi, mais en plus, ce qui est plus grave, par des acteurs tiers « par l’intermédiaire d’outils d’analyse, de développement ou de monétisation présents dans les applications. » [...]

ZDNet - Data brokers : aux Etats-Unis, votre vie privée est en vente (12 avril 2013)

Acxiom, qui a dégagé un revenu de 1,15 milliard de dollars en 2012, posséderait en moyenne 1 500 données sur 700 millions d’individus dans le monde. D'après Jed Mole, directeur marketing d'Acxiom Europe interrogé par nos soins : "L'entreprise a collecté 600 données par foyer sur 6 millions de foyers français". Cette performance lui a valu d’être nominé pour le « Big Brother Awards » en 2005. Actuellement, la « Federal Trade Commission » investigue sur la manière dont l’entreprise collecte ses données.[...]

A première vue rien d’inquiétant, tant qu’il s’agit d’informations rudimentaires telles que votre nom, adresse, numéro de téléphone ou encore votre formation et occupation professionnelle. Vous avez déjà sûrement mis à disposition ces données librement sur votre profil Linkedin ou ailleurs. Mais le bât blesse quand il commence à s’agir de données plus intimes telles que votre goût pour les romances à l’eau de rose, vos pratiques de sports extrêmes ou de votre divorce ravageur. Enfin, la situation devient franchement inquiétante lorsqu’Acxiom ou Bluekai vient s’insinuer dans vos comptes en banque ou dossiers médicaux.

MemeBurn - How much are you worth to Facebook? (4 April 2013)

The argument that hundreds of millions of people give away their personal data on social networks with absolutely no interest in the commercial value of that information does not make sense. It is simply the case that they don’t have the slightest idea. [...] According to Spiekerman: “Even if privacy is an inalienable human right it would be good if people were enabled to manage their personal data as private property.” It’s not only about “monetizing”. The earth is, happily, not that flat. But materializing privacy might help us to overcome the huge issues we have when it comes to the privacy of internet users, and finally social networks and marketing will profit from more knowledge and more trust in the use of personal data.

RadioFreeEurope/RadioLiberty - Interview: 'It's Pretty Much Impossible' To Protect Online Privacy (8 April 2013)

From online companies tracking users' digital footprints to the trend for more and more data to be stored on cloud servers, Internet privacy seems like a thing of the past -- if it ever existed at all. RFE/RL correspondent Deana Kjuka recently spoke about these issues with online security analyst Bruce Schneier, author of the book "Liars and Outliers: Enabling the Trust Society Needs to Survive." [...] "If [you use] Gmail, [then] Google has all of your e-mail. If your files are in Dropbox, if you are using Google Docs, [or] if your calendar is iCal, then Apple has your calendar. So it just makes it harder for us to protect our privacy because our data isn't in our hands anymore." "I don't know about the future, but my guess is that, yes. The big risks are not going to be the illegal risks. They are going to be the legal risks. It's going to be governments. It's going to be corporations. It's going to be those in power using the Internet to stay in power."

CourrierInternational - Google reconnaît des atteintes à la protection des données (13 mars 2013)

“Google reconnaît que ses voitures fureteuses ont violé la protection des données", titre [The New York Times] ce 13 mars. Le groupe américain a reconnu hier avoir violé des règles de protection des données personnelles au cours de son projet de géolocalisation Street View : ses voitures ont collecté des mots de passe, des courriels et d'autres données personnelles. Google a passé un accord amiable avec trente-huit Etats, dans lequel il s'engage à mieux encadrer ses propres employés sur la protection des données. Il paiera aussi une amende "minuscule" de 7 millions de dollars, rapporte le quotidien.

LesEchos - La ruée vers l'or des données personnelles (7 mars 2013)

Nos données personnelles sont la matière première sur laquelle des géants tels Google, Amazon, Apple ou Facebook contruisent leur modèle et assurent leur richesse. Quand Big Brother rime avec big business. [...] Mais Facebook, comme ses concurrents, teste en permanence les limites. Quid des shadow profiles, par exemple, qui résultent des commentaires et photos postés par les « amis » et les amis d'amis, en principe non exploités ? Quid du marquage des images et des logiciels de reconnaissance faciale de plus en plus puissants ? Google avec Picasa, Apple avec iPhoto et Facebook avec Instagram sont prêts à en tirer profit. La tentative récente de Facebook de changer les CGU d'Instagram pour récupérer la propriété commerciale des photos postées -il a vite reculé devant le tollé et la fuite de quelques millions d'abonnés -a montré la sensibilité du public à la question. [...]

01Net - Données privées : Facebook s’intéresse de près à vos habitudes d’achat (1er mars 2013)

Vous confiez déjà beaucoup d’informations sur votre vie personnelle à Facebook. Mais visiblement, ça ne suffit pas au réseau social numéro un. Il lorgne maintenant vos cartes de fidélité et vos achats off line. [...] But de ces accords de partenariat ? Croiser les données sociales avec celles de vos cartes de fidélité, et donc accéder à vos tickets de caisse. Un annonceur pourra non seulement pouvoir cibler sur critères socio-démographiques, sur des affinités, mais aussi sur les derniers achats réalisés. [...] L'EFF (Electronic Frontier Foundation) avait souligné les dangers de ce rapprochement entre Facebook et Datalogix en septembre dernier, lorsque la nouvelle avait filtrée. L'EFF appelait alors les consommateurs peu désireux de se voir ciblés par Facebook à rendre leurs cartes de fidélité. [...]

SydneyMorningHerald - Facebook 'erodes any idea of privacy' (8 April 2013)

Facebook Home for Android phones has been dubbed by technologists as the death of privacy and the start of a new wave of invasive tracking and advertising. [...] Prominent tech blogger Om Malik wrote that Home “erodes any idea of privacy”. “If you install this, then it is very likely that Facebook is going to be able to track your every move, and every little action,” said Mailk. “This opens the possibility up for further gross erosions of privacy on unsuspecting users, all in the name of profits, under the guise of social connectivity,” he said. [...]

Computerworld - Judge awards class action status in privacy lawsuit vs. comScore (4 April 2013)

A federal court in Chicago this week granted class action status to a lawsuit accusing comScore, one of the Internet's largest user tracking firms, of secretly collecting and selling Social Security numbers, credit card numbers, passwords and other personal data collected from consumer systems. [...] To collect data, comScore's software modifies computer firewall settings, redirects Internet traffic, and can be upgraded and controlled remotely, the complaint alleged. The suit challenged comScore's assertions that it filtered out personal information from data sold to third parties, and of intercepting data it had no business to access. [...]

GigaOm - Why the collision of big data and privacy will require a new realpolitik (25 March 2013)

People’s movements are highly predictable, researchers say, making it easy to identify most individuals from supposedly anonymized location datasets. As these datasets have valid uses, this is yet another reason why we need better regulation. [...] One of the explicit purposes of Unique in the Crowd was to raise awareness. As the authors put it: “these findings represent fundamental constraints to an individual’s privacy and have important implications for the design of frameworks and institutions dedicated to protect the privacy of individuals.” [...]

WorldCrunch - European Academics Launch Petition To Protect Personal Data From "Huge Lobby" (13 March 2013)

This week, more than 90 leading academics across Europe launched a petition to support the European Commission’s draft data protection regulation, reports the EU Observer. The online petition, entitled Data Protection in Europe, says “huge lobby groups are trying to massively influence the regulatory bodies.” The goal of the site is to make sure the European Commission’s law is in line with the latest technologies and that the protection of personal data is guaranteed. [...]

Data breach

Wired - Cloud Computing Snafu Shares Private Data Between Users (4 February 2013)

A low-cost competitor to giants such as RackSpace and Amazon, DigitalOcean sells cheap computing power to web developers who want to get their sites up and running for as little as $5 per month. But it turns out that some of those customers — those who were buying the $40 per month or $80 per month plans, for example — aren’t necessarily getting their data wiped when they cancel their service. And some of that data is viewable to other customers. Kenneth White stumbled across several gigabytes of someone else’s data when he was noodling around on DigitalOcean’s service last week. White, who is chief of biomedical informatics with Social and Scientific Systems, found e-mail addresses, web links, website code and even strings that look like usernames and passwords — things like 1234qwe and 1234567passwd. [...]

ITespresso - AdopteUnMec adopte un profil bas (17 avril 2013)

Des milliers de profils privés du site de rencontres étaient disponibles en consultation via une recherche Google. La société éditrice se devait d’intervenir rapidement, une fois l’alerte donnée. [...] Au départ, le simple fait d’effectuer une recherche dans le moteur en tapant « site : », on accédait à plusieurs milliers de profils privés. [...] Mais ce n’est pas suffisant : il restait des traces dans le cache de Google et Google Images [...]===ITespresso - AdopteUnMec adopte un profil bas (17 avril 2013)===

Des milliers de profils privés du site de rencontres étaient disponibles en consultation via une recherche Google. La société éditrice se devait d’intervenir rapidement, une fois l’alerte donnée. [...] Au départ, le simple fait d’effectuer une recherche dans le moteur en tapant « site : », on accédait à plusieurs milliers de profils privés. [...] Mais ce n’est pas suffisant : il restait des traces dans le cache de Google et Google Images [...]

Wikipedia - Data breach: Major incidents

Wikipedia Fr - Piratage du PlayStation Network

Surveillance state

PCINpact - Skype pris en flagrant délit d'espionnage des conversations en Chine (8 mars 2013)

La relation entre Skype et le gouvernement chinois vient de subir un éclairage violent. Un étudiant de l’université du Nouveau-Mexique a en effet révélé que la version modifiée du client VoIP disposait de mécanismes de détection pour trouver des mots clés faisant partie d’une importante liste. [...] Mais comment le système fonctionne-t-il au juste ? Comme l’a expliqué Jeffrey Knockel à Bloomberg, la surveillance se fait sur la partie texte de Skype, non sur la partie téléphonique. Les conversations sont surveillées et l’envoi d’un message contenant au moins l’un des mots de la liste noir provoque immédiatement l’émission d’un signal. L’ensemble de la conversation est alors enregistré et envoyé à des serveurs distants. Le nom du compte, l’heure et la date sont également dans le lot, ainsi qu’une indication spécifiant si le message a été envoyé ou reçu par l’utilisateur. [...]

TribuneDeGenève - Protection des données: Washington espionne vos messages et vos documents (7 mars 2013)

Les Etats-Unis ont mis en place un système de surveillance du Net qui espionne aussi les données que les Suisses mettent en ligne. Inquiet, Jean Christpohe Schwaab (PS/VD) a interpellé mercredi le Conseil fédéral. [...] «Non seulement cette loi viole le principe de protection des données, mais elle constitue une perte de souveraineté pour notre pays», déplore Jean Christophe Schwaab. Pour qui Washington étend tout bonnement sa territorialité via les données sur internet. [...]


Mediapart - Internet, nouveau «miroir sans tain»

EuropaQuotidiano - Facebook, i Big Data e la fine della privacy

Le Monde - Vie privée : des amendements de lobbyistes américains dans le projet de loi européen

PCINpact - Europe et données personnelles : le billot des lobbies sur la place publique

Politis - Vie privée, rien ne va plus !

Challenges - "Google connaît plus de choses sur vous que votre propre famille !" - Interview JZ

Euobserver - Academics line up to defend EU data protection law

"Plus de 60% des films vus sur Netflix le sont à partir de l’algorithme de recommandation." source


"Le nouvel algorithme Linkedin vous dit qui embaucher"

Les algorithmes : l’avenir effrayant du recrutement [Article généraliste]

Recrutement chez Google

Publicité en ligne

Prédiction de l'humeur de personnes

Facemood "Cette dernière essayait de prédire l'humeur des utilisateurs de Facebook en se basant sur leurs statuts."

Prédiction des dépenses futures

Application qui donne une prédiction des futures dépenses d'une personne, graphiques à l'appui