mardi 5 septembre 2017

"Les métadonnées sont extrêmement révélatrices de la vie des individus"


Les attentats de 2015 et 2016 ont mis en avant le rôle possible du traitement de données pour prévenir crimes et attaques. Entretien avec Florent Masseglia, chercheur en data mining à l'Inria. 

Sciences et Avenir : Depuis les attentats de 2015, l'analyse massive de données pour prévenir les crimes et identifier des comportements suspects est à l'honneur dans les discours. Après le 13 novembre, l'enquête s'est un temps orientée vers un "commando-bis", des données de connexions mobiles ayant révélé que deux téléphones suivaient exactement les déplacements des terroristes. Il s'est avéré qu'il s'agissait d'un couple sans aucun rapport avec le drame. Quels enseignements tirer de cette mésaventure ? 
Florent Masseglia : Ce genre de travail produira toujours des faux positifs, des fausses corrélations. Et encore, dans le cas que vous évoquez, on ne cherchait pas à faire de prédiction. On était dans l'analyse explicative, après-coup. Il était d'ailleurs légitime de s'intéresser à ces deux téléphones qui ont émis à chaque fois à proximité des lieux et au moment des diverses attaques. Or il s'agissait d'un hasard total. En même temps, vu la quantité de gens dans les zones concernées, un samedi soir, en ville, tomber sur un tel faux positif n'est pas si étonnant. Mais imaginez une analyse de données ayant cette fois pour but de prévenir quelque chose, qui se déroulerait en temps réel et dans l'urgence : ce serait encore pire ! 

Est-ce aberrant de vouloir repérer en amont, en traitant des données avec des algorithmes, des comportements " atypiques " ou " suspects " ? 
Ce qui est aberrant, c'est de vouloir collecter des données en masse et de l'argumenter de cette manière. Extraire des données des comportements " atypiques " implique de faire des groupes. A partir du moment où plein de gens font la même chose, on va considérer qu'ils ne sont pas atypiques car on part du principe que les terroristes, eux, sont en nombre restreint. On va donc s'intéresser aux comportements qui ne rentrent pas dans les groupes de comportements majoritaires. Or, il y en a énormément ! Une fois qu'ont été identifiés des centaines de milliers de comportements minoritaires, on en fait quoi ? 

Deuxièmement, il a été dit, pour rassurer, que les " boîtes noires " prévues par la loi sur le renseignement de juillet mai 2015 [article 851-3 du code de la sécurité intérieure, ndlr] pour être placées sur les réseaux des opérateurs de télécommunications ne collecteraient que des métadonnées (heure, date, expéditeur, émetteur, durée). Sous-entendu : c'est moins grave que de collecter les données, c'est-à-dire le contenu des communications. Sauf que repérer que vous avez envoyé un e-mail pendant vos congés à un cancérologue donne déjà quelques informations… Les métadonnées sont extrêmement révélatrices sur la vie des individus. 

La SNCF projette de détecter des comportements suspects avec des caméras de surveillance dans les gares. En quoi, concrètement, cela consisterait ? 
Dans ce cas précis, la SNCF ne fait pas vraiment de prédiction mais envisage une réaction plus rapide que n'en serait capable l'homme à un événement qui aura été reconnu. Il est par exemple prévu que les caméras reconnaissent qu'un individu remonte une foule à contresens. Ou qu'une personne revient toujours au même endroit régulièrement. 

Il se trouve que les machines sont beaucoup plus efficaces que les humains pour un tel travail. Elles peuvent décrire des milliers d'images, reconnaître des visages… Il n'y a qu'à voir ce dont sont capables Facebook ou Google. Mais les logiciels sont de plus en plus performants sur des tâches très précises. Il suffit de donner à la machine les bons paramètres. 

Ce que la SNCF envisage de faire avec ses caméras peut s'appliquer aux comportements bancaires : si un algorithme repère qu'une carte passe d'un distributeur de billets à l'autre en peu de temps, c'est un bon indicateur qu'elle a été volée. Ce genre de chose est tout à fait réaliste. 

Par contre, ce qui n'existe pas, c'est le logiciel qui invente lui-même ses critères de suspicion. Il lui faut des paramètres prédéfinis et des milliers d'exemples qui lui permettront de reconnaître des situations similaires. En clair : si on n'a pas dit à la machine qu'elle doit repérer que deux personnes se retrouvent régulièrement en un même lieu d'un hall de gare, elle ne le fera jamais toute seule. C'est un fantasme. 

Est-ce que la notion même de prédiction de crime tient debout ? 
Ce qui s'en rapproche le plus aujourd'hui, c'est le fameux logiciel américain PredPol. Il croise des informations sur des crimes passés, des lieux et procède à une modélisation. C'est exactement la méthode utilisée pour les prévisions météo. Généralement, on passe les données dans plusieurs modèles différents et on retient les résultats identiques d'un modèle à l'autre. 

En l'occurrence, on ignore si PredPol utilise plusieurs modèles, vu qu'il n'existe aucun audit valable de leur technologie et de leurs résultats, et qu'on ne sait pas très bien comme cela fonctionne. En tout cas, sur le principe, se servir d'un tel outil pour orienter les patrouilles de police, pourquoi pas ? Toutes les autres approches relèvent de la réaction rapide, pas de la prédiction.