SolutionsDeFiltrageVueTechnique : Différence entre versions

De La Quadrature du Net
Aller à la navigationAller à la recherche
m (Autres ressources : ajout lien)
 
(138 révisions intermédiaires par 5 utilisateurs non affichées)
Ligne 1 : Ligne 1 :
[ici un nota bene sur le fait que filtrer des DNS, des IP, ou des URL ce n'est pas identifier des contenus par leur empreinte à la volée ou filtrer des protocoles]
+
[nota bene : filtrer des DNS, des IP, ou des URL ce n'est pas identifier des contenus par leur empreinte à la volée ou filtrer des protocoles P2P. Ce document ne s'intéresse pas à ces deux dernières techniques, pas plus qu'aux solutions de filtrage qui seraient déployées dans ''les boxes'' fournies par les FAI à l'abonné. ces solutions feront l'objet d'un développement séparé.]
  
Cinq solutions sont envisageables.
 
  
'''Le filtrage par DNS''' : peu coûteux par rapport aux autres
 
solutions, mais très facilement contournable et susceptible
 
d'engendrer d'importants dommages collatéraux. Avec cette solution, ce
 
n'est pas en le contenu illégal qui est filtré, mais l'intégralité du
 
domaine internet qui l'héberge (par exemple pcinpact.com). Concrètement,
 
l'intégralité d'un site de pages personnelles pourrait disparaître de
 
la vue des internautes français pour une image non retirée dans les
 
délais imposés par l'administration française (la ministre de la
 
famille parle de 24h00 de délai). La Chine évite désormais ce système
 
qui n'est pas assez granulaire, peu efficace et met trop en évidence
 
la censure pratiquée dans ce pays.
 
  
'''Filtrage par IP''' : simple mais contournable et avec d'importants dommages collatéraux; il s'agit de maintenir une liste d'adresses IP ou de blocs
 
d'adresses IP pour lesquels les routeurs des opérateurs appliquant ce
 
filtrage ne vont pas transmettre les paquets, mais simplement les
 
ignorer. Ainsi, tout échange de données passant par un routeur
 
appliquant ce filtrage est impossible. Cette solution se contourne par
 
des proxy extérieurs (proxy web anonymisants ou non, tunnels,
 
etc.). Elle bloque tout accès à un serveur ou un groupe de serveurs,
 
et ne permet pas de traiter séparément des contenus différents ou des
 
sites web différents sur une même machine. Cependant, elle a l'avantage
 
de pouvoir aisément être appliquée à ''une partie'' des connexions, par
 
exemple uniquement les connexions provenant des internautes
 
particuliers, ou provenant des équipements en libre-accès, sans
 
affecter les connexions provenant d'internautes plus privilégiés
 
(par exemple les services de police).
 
  
'''Le filtrage par URL via BGP shunt''' : plus efficace mais plus
+
== Les solutions disponibles ==
coûteux, et susceptible également d'importants dommages
 
collatéraux. En pratique, suite à des enquêtes ou sur signalement
 
d'internautes, les services de police enverront aux FAI des listes
 
d'URL (lien pointant vers un contenu) à bloquer. Lorsqu'un abonné
 
demande à accéder à un site dont l'adresse IP correspond à celui de
 
l'URL listée, sa requête est redirigée vers un serveur filtrant les
 
demandes d'accès, pour n'autoriser l'accès qu'aux contenus non
 
listés. Le problème est que le trafic ainsi dérivé vers les serveurs
 
de filtrage doit pouvoir être absorbé et que les risques pour le
 
réseau sont très importants. Un exemple concret est ce qui s'est
 
produit lorsque le Pakistan a ordonné le blocage de l'accès aux
 
caricatures de Mahomet hébergés sur le service YouTube. Un opérateur
 
appliquant l'ordonnance a envoyé un message technique mal paramétré à
 
ses équipements qui ont propagé la demande au réseau d'opérateurs hors
 
juridiction pakistanaise. L'accès à YouTube a alors été interdit
 
pendant plusieurs heures dans plusieurs pays du monde. Cet événement a
 
mis en évidence les risques de tels procédés pour la sécurité
 
nationale, comme l'ont relevé des spécialistes réseau.
 
  
''It would be feasible for a small group of people to grab a range of BGP speaking routers which have been violated and owned (i.e. someone as broken into them) to advertise BGP prefixes from all over the Internet. The result would not take out the Internet - but it would cause massive disruption. Massive disruption of the telecommunications system exacerbates a crisis - which is what you want if you want your terrorist attack to have a more impactions. In other words, the press coverage of this BGP prefix leak is shining light on an attack vector which can cause some serious havoc during a period where people will need the Internet the most.'' [YouTube Black Hole - What’s the real
+
===='''Le filtrage hybride''' ====
point? http://www.getit.org/wordpress/?p=82]
 
  
'''Le filtrage par URL via proxies transparents obligatoires''' : même
+
===== Résumé =====
approche que précédemment (blocage de liens vers des contenus et non
 
de sites) mais toutes les requêtes des internautes français passent
 
par des machines filtrantes car il n'y a pas de tri préalable sur les
 
adresses IP. La société Noos utilisait il y a quelques années une telle
 
solution. Elle a été abandonnée car elle posait des problèmes de
 
surblocage et impliquait un coût croissant au fil de l'extension du
 
réseau de l'opérateur. Le coût de mise en place d'une telle solution
 
serait désormais exhorbitant pour les fournisseurs d'accès. Elle reste
 
contournable facilement via l'utilisation de proxy anomymisants, qu'ils
 
soient installés sur les clients ou proposés par des serveurs étrangers,
 
qui eux ne peuvent être interdits car proposant une fonctionnalité
 
générique. Ce filtrage par proxy anonymisant est le modèle choisi par le
 
FAI national Tunisien.
 
  
'''Le filtrage par paquets RST''' : les URL des sites web visités sont
+
Au travers d'enquêtes ou sur signalement d'internautes, les services de police maintiennent une liste noire d'URL que les FAI utilisent pour que l'accès aux ressources associées à ces URL ne soit plus possible pour leurs abonnés.
analysées en regard d'une liste de mots-clés et d'une liste noire
+
 
d'URL, et les routeurs par lequels transite la connexion envoient au
+
Concrètement, à partir de la liste noire, les FAI récupèrent la listes d'adresse IP correspondant aux noms de domaines où sont hébergés les ressources à bloquer. Puis, ils envoient une commande à leurs routeurs via le protocole BGP pour les reconfigurer afin que toute demande d'accès à une des ''IP suspectes'' soit routée vers la plateforme de filtrage.
client et au serveur un paquet RST, qui a comme conséquence naturelle
+
 
la clôture de la connexion TCP. La connexion est close dès qu'elle est
+
Ainsi, lorsqu'un abonné demande à accéder à une ressource hébergée sur un site dont l'adresse IP a été associé à celui d'une URL fichée par la police, la requête est redirigée par les routeurs vers la plateforme de filtrage, qui bloque la communication uniquement si la ressource correspondante est dans la liste noire.
établie et reconnue, aucun contenu ne peut être échangé. Cela
+
 
nécessite que tout le trafic à contrôler passe par des
+
Pour une image représentant l'architecture  : http://www.laquadrature.net/files/netclean.png
infrastructures réseau maîtrisées par les autorités de contrôle. C'est
+
 
[une des techniques en chine
+
Ce filtrage est appelé filtrage hybride car il combine plusieurs techniques de filtrage pour répondre aux problèmes de surblocage du filtrage IP et DNS, tout en évitant les coût de déploiement des autres techniques de filtrage par URL (serveurs mandataires généralisés ou filtrage par injection de paquets RST).
http://www.lightbluetouchpaper.org/2006/06/27/ignoring-the-great-firewall-of-china/].
+
 
Cela peut être contourné en ignorant délibérément ces paquets RST sur
+
Il est ainsi possible de ne bloquer qu'une photo d'une page web comme en Chine ou en Arabie Saoudite, mais la plateforme de filtrage ne traitant qu'une partie du trafic, le nombre de serveurs de filtrage nécessaires n'a rien de comparable avec les architectures de filtrage par URL utilisées dans ces pays.
le client *et* sur le serveur, ce qui n'est pas à la portée de la
+
 
plupart des internautes.
+
Le coût global dépend cependant beaucoup du trafic à traiter et de l'architecture des opérateurs, ainsi que des éventuels dommages collatéraux en cas de surcharge, de dysfonctionnement, de détournement ou d'attaque du système, risques qui sont loin d'être théoriques.
 +
 
 +
Les spécialistes réseaux intérrogés sont en fait consternés que cette technique soit envisagée, vu ses failles et les risques qu'elle présente pour le réseau dans son entier. Ils considèrent qu'il serait irresponsable que l'État français encourage l'utilisation d'une telle technique, et engage sa responsabilité lorsqu'elle est utilisée.
 +
 
 +
Cette solution reste contournable facilement par l'internaute filtré, en passant par des serveurs mandataires hébergés à l'étranger, ce qui peut se faire en quelques clics et être ensuite définitivement activé sur l'ordinateur. L'éditeur du site filtré peut aussi prendre des contre-mesures, par exemple, basculer sur le protocole https, rendant ainsi l'url complète indéchiffrable pour la plateforme de filtrage.
 +
 
 +
La mise en place d'un tel système risque en fait de changer les techniques utilisés par pédophiles et les fournisseurs de contenus pédophiles, particulièrement celles utilisées pour se cacher des enquêteurs;
 +
 
 +
Une étude universitaire [Clayton, Cambridge, 2005] suggère que, au Royaume Uni où un tel système a été déployé, les fournisseurs de ces contenus utilisent déjà des techniques de leurres afin d'identifier les ordinateurs des services chargés de remplir la liste noire, pour pouvoir ensuite leur masquer de vrais sites pédophiles.
 +
 
 +
La même étude a montré qu'il était possible pour un abonné anglais d'obtenir anonymement en 24h00 la liste de tous les sites russes filtrés.
 +
 
 +
===== Risques d'engorgements =====
 +
 
 +
Le trafic dérivé vers les serveurs de filtrage doit toujours pouvoir être absorbé. Or il peut très bien concerner des sites à fort trafic n'ayant rien à voir avec le site ciblé, une adresse IP pouvant être partagée.
 +
 
 +
Une étude universitaire [Edelman,Harvard Law School, 2003] soulignait ainsi que ''plus de 87% des noms de domaines actif partagent leurs adresses ip (ie : les serveurs web) avec un ou plusieurs domaines additionnels, et plus des 2/3 des noms de domaines actifs partagent leurs adresses avec 50 domaines additionnels ou plus.''
 +
 
 +
L'estimation du trafic à supporter en fonctionnement normal est donc délicate, d'autant plus que les éditeurs de site pédopornographiques les déplacent d'adresses IP en adresses IP, comme le soulignent les éditeurs des solutions de filtrage. À l'instar des spammers, les éditeurs des sites les plus visés par la police car faisant commerce d'images pédopornographiques ont sans doute déjà intégré cette caractéristique pour déjouer le système, et rendre de plus en plus coûteux les tentatives de filtrage de leurs sites.
 +
 
 +
Le trafic à absorber par la plateforme peut aussi subitement augmenter si l'un des sites hébergés est victime d'une attaque informatique visant à le saturer (attaque dite de déni de service).
 +
 
 +
En plus d'avoir à supporter les attaques ciblant vraiment des sites filtrés ou partageant la même IP qu'un site filtré, le système de filtrage peut aussi  être directement visé, par exemple à titre de représaille par une organisation tenant certains sites filtrés.
 +
 
 +
===== Incompatibilité avec l'architecture technique et contractuelle ===== 
 +
 
 +
Le fait de demander aux opérateurs de modifier en permanence leur configuration de routage n'est pas compatible avec l'utilisation de techniques d'optimisation devenues standard comme l'agrégation de routes. C'est particulièrement vrai en France au regard du nombre d'accords de peering passés par les opérateurs entre eux, et dans lesquels les règles d'agrégation font l'objet d'une clause contractuelle spécifique.
 +
 
 +
Par ailleurs, le fait que les organisations criminelles puissent utiliser une technique connue sous le nom de Fast Flux (http://en.wikipedia.org/wiki/Fast_flux)  - visant à changer très régulièrement l'association nom de domaine-addresse IP - impliquera l'envoi très réguliers de commandes aux routeurs pour reconfigurer les routes, multipliant d'autant les risques des dommages et la complexité des configurations à maintenir.
 +
 
 +
===== Risques liés à l'utilisation du protocole BGP =====
 +
 
 +
L'utilisation de commandes BGP pour redéfinir des routes en fonction de besoin de filtrage de contenus n'est pas une utilisation pour laquelle le protocole BGP, d'utilisation délicate, a été pensée.
 +
 
 +
Pour preuve, lorsque le Pakistan a ordonné le blocage de l'accès à des caricatures de Mahomet hébergés sur le service YouTube, un opérateur pakistanais appliquant l'ordonnance a envoyé une commande BGP à des équipements mal parametrés qui ont propagé la demande aux réseaux d'opérateurs hors juridiction pakistanaise. L'accès à YouTube a alors été interdit pendant plusieurs heures dans plusieurs pays du monde. Cet événement a permis de mettre en évidence des risques pour la sécurité nationale, comme l'ont relevé des spécialistes réseaux.
 +
 
 +
''Un petit groupes de personnes pourrait s'emparer d'une chaîne de routeurs compatible BGP qui auraient été piratés pour envoyer des préfixes BGP à tout l'internet. Le résultat ne ferait pas tomber Internet - mais il pour pourrait causer des pertubations à grande échelle - ce qui est exactement ce que vous rechercher si vous souhaitez que votre attaque terroriste ait plus d'impacts. Autrement dit, la couverture presse sur cette faille du préfixe BGP met en lumière un vecteur d'attaque qui peut causer de sérieux dégats pendant une période où les gens auront le plus besoin d'internet.'' [YouTube Black Hole - What’s the real point? http://www.getit.org/wordpress/?p=82]
 +
 
 +
===== Risques d'exposition de la liste noire =====
 +
 
 +
Une étude universitaire [Clayton, Cambridge, 2005] a montré que, pour des raisons de coût, les solutions de ce type en production au Royaume-Uni (les seules étudiées à ce jour) appliquaient un traitement particulier aux requêtes des utilisateurs, et que ce dernier pouvait être détecté par les utilisateurs finaux. L'étude conclut que ''le système peut être utilisé comme un oracle pour trouver efficacement des sites web illégaux''.
 +
 
 +
En plus de présenter un risque que la liste ainsi obtenue circule en clair sur internet, voire soit vendue, avec une mention expliquant aux utilisateurs français comment contourner le système, cette faille pourrait être exploitée pour faciliter le contournement par les éditeurs de sites filtrés, ou pour maximiser une attaque informatique, puisque rendant l'observation du système, et donc de ses défauts, plus simple.
 +
 
 +
Une des sociétés a annoncé peu après la publication de l'étude que le problème était résolu... peu après, l'auteur de l'étude, un expert en sécurité informatique, faisait une mise à jour de l'étude montrant que rien n'était résolu.
 +
 
 +
===Autres solutions===
 +
 
 +
=====Le filtrage par DNS=====
 +
 
 +
Avec cette solution, ce n'est pas le contenu illégal qui est filtré, mais l'intégralité du domaine internet qui l'héberge (par exemple geocities.com). Concrètement, l'intégralité d'un site hébergeant des millions de pages personnelles pourrait disparaître de la vue des internautes français pour une image non retirée dans les
 +
délais imposés par l'administration française (la ministre de la famille parle de 24h00 de délai).
 +
 
 +
Cette technique peut également entraîner le blocage de sous-domaines (ex : pagesperso.free.fr) en fonction de la façon dont la requête est rédigée et interdire des communications non visées par la requête (par exemple interdire l'envoi et la réception de courriels relatifs au domaine, et non plus seulement l'accès aux pages hébergées).
 +
 
 +
Une étude universitaire [Dornseif, Düsseldorf, 2003] étudiant le cas du filtrage d'un site nazi ordonné par une autorité allemande a montré que tous les ISP étudiés ont fait au moins une erreur de configuration lorsqu'ils ont configuré leurs filtres DNS. Les FAI n'ont pas bloqué le site souhaité (sous-blocage), ont bloqué des sites non visés par la requête ou des communications (surblocage), ou étaient à la fois en sous et sur-blocage
 +
 
 +
Au final, sur 27 fournisseurs d'accès, 45% étaient ainsi en situation de surblocage et de sous-blocage, 55% étaient "uniquement" en situation de surblocage, et 16 FAI sur 27 (59%) bloquaient les emails de plusieurs domaines alors que cela n'était pas demandé. Tous bloquaient l'adresse de l'administrateur du site ciblé qui ne pouvait donc plus communiquer avec cette adresse, y compris avec les services de police ou la justice.
 +
 
 +
L'étude soulignait par ailleurs que ''« le contenu web est très volatile. Les serveurs web sont réorganisés, les domaines ont de nouveaux propriétaires. Ceci a été très clairement démontré dans le contexte des requêtes de blocage du site web www.front14.org : à l'automne 2001 ce site contenait un portail d'extrême droite, mais au printemps 2002 il y avait un catalogue web à la même adresse. Ceci souligne la nécessité d'identifier les pages à bloquer pas seulement par leur emplacement mais par leur contenu actuel. »''
 +
 
 +
Les opérations nécessaires au blocage sont relativement simples, bien que la complexité et la maintenance engendrée, et donc le coût, dépendent là aussi des configurations des opérateurs.
 +
 
 +
L'efficacité de cette solution est quasi-nulle. Il suffit d'une manipulation triviale sur l'ordinateur de l'utilisateur pour définitivement passer outre.
 +
 
 +
=====Le filtrage par IP=====
 +
 
 +
Il s'agit de maintenir une liste d'adresses IP ou de blocs d'adresses IP pour lesquels les routeurs des opérateurs appliquant ce filtrage ne vont pas transmettre les paquets, mais simplement les ignorer. Ainsi, tout échange de données passant par un routeur appliquant ce filtrage est impossible. Cette solution se contourne par des proxy extérieurs (proxy web anonymisants ou non, tunnels, etc.). Elle bloque tout accès à un serveur ou un groupe de serveurs, et ne permet pas de traiter séparément des contenus différents ou des
 +
sites web différents sur une même machine.
 +
 
 +
Une étude univervistaire [Edelman, Harvard, 2003] soulignait ainsi que ''More than 87% of active domain names are found to share their IP addresses (i.e. their web servers) with one or more additional domains, and more than two third of active domain names share their addresses with fifty or more additional domains. While this IP sharing is typically transparent to ordinary users, it causes complications for those who seek to filter the Internet, restrict users' ability to access certain controversial content on the basis of the IP address used to host that content. With so many sites sharing IP addresses, IP-based filtering efforts are bound to produce "overblocking" -- accidental and often unanticipated denial of access to web sites that abide by the stated filtering rules.''
 +
 
 +
=====Le filtrage par URL via serveurs mandataires généralisés=====
 +
 
 +
Toutes les requêtes des internautes français passent par des serveurs de filtrage qui bloquent les communications relatives à une url identifiée. Contrairement à un filtrage hybride, il n'y a pas en effet de "tri" préalable sur l'adresse IP. Cette solution implique une plateforme de filtrage conséquente avec redondance des serveurs car la communication du pays avec le reste du web dépend de la capacité des serveurs
 +
 
 +
Cette solution est le modèle choisi par la Tunisie et l'Arabie Saoudite. Le coût de mise en place d'une telle solution serait exorbitant dans un environnement concurrentiel comme la France où plusieurs opérateurs coexistent.
 +
 
 +
La société Noos utilisait il y a quelques années une telle solution. Elle a été abandonnée car elle posait des problèmes de surblocage et impliquait un coût croissant au fil de l'extension du réseau de l'opérateur. 
 +
 
 +
Cette solution reste contournable facilement via l'utilisation de proxy anomymisants, qu'ils soient installés sur les clients ou proposés par des serveurs étrangers.
 +
 
 +
=====Le filtrage par paquets RST=====
 +
 
 +
Les URL des sites web visités sont analysées en regard d'une liste de mots-clés et d'une liste noire d'URL, et les routeurs par lequels transite la connexion envoient au client et au serveur un paquet RST, qui a comme conséquence naturelle la clôture de la connexion TCP.  
 +
 
 +
La connexion est close dès qu'elle est établie et reconnue comme à filtrer, aucun contenu ne peut être échangé. Cela nécessite que tout le trafic à contrôler passe par des infrastructures réseau maîtrisées par les autorités de contrôle. C'est une des techniques en Chine.
 +
 
 +
Cela peut être contourné en ignorant délibérément ces paquets RST sur le client *et* sur le serveur, ce qui n'est pas à la portée de la plupart des internautes.
 +
 
 +
== Ressources utilisées ==
 +
 
 +
=== Études universistaires ===
 +
 
 +
'''Filtrage par IP'''
 +
 
 +
Edelman, B.: Web Sites Sharing IP Addresses: Prevalence and Significance.Berkman Center for Internet and Society at Harvard Law School, 2003.
 +
 
 +
http://cyber.law.harvard.edu/archived_content/people/edelman/ip-sharing/
 +
 
 +
'''Filtrage par DNS'''
 +
 
 +
Dornseif, M.: Government mandated blocking of foreign Web content.
 +
In: von Knop, J., Haverkamp, W., Jessen, E. (eds.): Security, E-Learning, E-Services: Proceedings
 +
of the 17. DFN-Arbeitstagung Äuber Kommunikationsnetze, Dusseldorf
 +
2003, Lecture Notes in Informatics, ISSN 1617-5468, 617{648.
 +
 
 +
http://md.hudora.de/publications/200306-gi-blocking/200306-gi-blocking.pdf
 +
 
 +
'''Filtrage hybride (Cleanfeed,  WebMinder, NetClean)'''
 +
 
 +
Clayton, Failures in a Hybrid Content Blocking System. University of Cambridge, Computer Laboratory, 2005
 +
 
 +
http://www.cl.cam.ac.uk/~rnc1/cleanfeed.pdf
 +
 
 +
'''Filtrage par RST'''
 +
 
 +
Clayton, Murdoch, Watson : Ignoring the Great Firewall of China. University of Cambridge, Computer Laboratory, 2006
 +
 
 +
http://www.cl.cam.ac.uk/~rnc1/ignoring.pdf
 +
 
 +
=== Autres ressources ===
 +
 
 +
 
 +
'''Vue d'ensemble'''
 +
 
 +
The worst part of censorship is XXXXX : Investigating large-scale Internet content. 23C3, Berlin/Germany, December 29th, 2006
 +
 
 +
http://events.ccc.de/congress/2006/Fahrplan/events/1473.en.html
 +
 
 +
'''Discussions entre acteurs techniques du réseau sur la liste FRnOG'''
 +
 
 +
Charte sur la confiance en ligne" vers une division de l'inter-net ?
 +
 
 +
http://www.mail-archive.com/frnog@frnog.org/msg02883.html
 +
 
 +
Filtrage via BGP shunt : quelle faisabilité ?
 +
 
 +
http://www.mail-archive.com/frnog@frnog.org/msg02939.html
 +
 
 +
Ping: il n'y a plus personne ? (à propos du YouTube blackhole)
 +
 
 +
http://www.mail-archive.com/frnog@frnog.org/msg02441.html
 +
 
 +
 
 +
''NB : toute information sur la solution norvégienne est bienvenue''
 +
 
 +
cf : http://www.zataz.com/news/6842/kripos.html
 +
 
 +
Voir aussi [[SolutionsDeFiltrageVueJuridique]] et [[PlanNote]]
 +
[[Category:Filtrage]]

Version actuelle datée du 16 février 2010 à 16:26

[nota bene : filtrer des DNS, des IP, ou des URL ce n'est pas identifier des contenus par leur empreinte à la volée ou filtrer des protocoles P2P. Ce document ne s'intéresse pas à ces deux dernières techniques, pas plus qu'aux solutions de filtrage qui seraient déployées dans les boxes fournies par les FAI à l'abonné. ces solutions feront l'objet d'un développement séparé.]



Les solutions disponibles[modifier]

Le filtrage hybride[modifier]

Résumé[modifier]

Au travers d'enquêtes ou sur signalement d'internautes, les services de police maintiennent une liste noire d'URL que les FAI utilisent pour que l'accès aux ressources associées à ces URL ne soit plus possible pour leurs abonnés.

Concrètement, à partir de la liste noire, les FAI récupèrent la listes d'adresse IP correspondant aux noms de domaines où sont hébergés les ressources à bloquer. Puis, ils envoient une commande à leurs routeurs via le protocole BGP pour les reconfigurer afin que toute demande d'accès à une des IP suspectes soit routée vers la plateforme de filtrage.

Ainsi, lorsqu'un abonné demande à accéder à une ressource hébergée sur un site dont l'adresse IP a été associé à celui d'une URL fichée par la police, la requête est redirigée par les routeurs vers la plateforme de filtrage, qui bloque la communication uniquement si la ressource correspondante est dans la liste noire.

Pour une image représentant l'architecture : netclean.png

Ce filtrage est appelé filtrage hybride car il combine plusieurs techniques de filtrage pour répondre aux problèmes de surblocage du filtrage IP et DNS, tout en évitant les coût de déploiement des autres techniques de filtrage par URL (serveurs mandataires généralisés ou filtrage par injection de paquets RST).

Il est ainsi possible de ne bloquer qu'une photo d'une page web comme en Chine ou en Arabie Saoudite, mais la plateforme de filtrage ne traitant qu'une partie du trafic, le nombre de serveurs de filtrage nécessaires n'a rien de comparable avec les architectures de filtrage par URL utilisées dans ces pays.

Le coût global dépend cependant beaucoup du trafic à traiter et de l'architecture des opérateurs, ainsi que des éventuels dommages collatéraux en cas de surcharge, de dysfonctionnement, de détournement ou d'attaque du système, risques qui sont loin d'être théoriques.

Les spécialistes réseaux intérrogés sont en fait consternés que cette technique soit envisagée, vu ses failles et les risques qu'elle présente pour le réseau dans son entier. Ils considèrent qu'il serait irresponsable que l'État français encourage l'utilisation d'une telle technique, et engage sa responsabilité lorsqu'elle est utilisée.

Cette solution reste contournable facilement par l'internaute filtré, en passant par des serveurs mandataires hébergés à l'étranger, ce qui peut se faire en quelques clics et être ensuite définitivement activé sur l'ordinateur. L'éditeur du site filtré peut aussi prendre des contre-mesures, par exemple, basculer sur le protocole https, rendant ainsi l'url complète indéchiffrable pour la plateforme de filtrage.

La mise en place d'un tel système risque en fait de changer les techniques utilisés par pédophiles et les fournisseurs de contenus pédophiles, particulièrement celles utilisées pour se cacher des enquêteurs;

Une étude universitaire [Clayton, Cambridge, 2005] suggère que, au Royaume Uni où un tel système a été déployé, les fournisseurs de ces contenus utilisent déjà des techniques de leurres afin d'identifier les ordinateurs des services chargés de remplir la liste noire, pour pouvoir ensuite leur masquer de vrais sites pédophiles.

La même étude a montré qu'il était possible pour un abonné anglais d'obtenir anonymement en 24h00 la liste de tous les sites russes filtrés.

Risques d'engorgements[modifier]

Le trafic dérivé vers les serveurs de filtrage doit toujours pouvoir être absorbé. Or il peut très bien concerner des sites à fort trafic n'ayant rien à voir avec le site ciblé, une adresse IP pouvant être partagée.

Une étude universitaire [Edelman,Harvard Law School, 2003] soulignait ainsi que plus de 87% des noms de domaines actif partagent leurs adresses ip (ie : les serveurs web) avec un ou plusieurs domaines additionnels, et plus des 2/3 des noms de domaines actifs partagent leurs adresses avec 50 domaines additionnels ou plus.

L'estimation du trafic à supporter en fonctionnement normal est donc délicate, d'autant plus que les éditeurs de site pédopornographiques les déplacent d'adresses IP en adresses IP, comme le soulignent les éditeurs des solutions de filtrage. À l'instar des spammers, les éditeurs des sites les plus visés par la police car faisant commerce d'images pédopornographiques ont sans doute déjà intégré cette caractéristique pour déjouer le système, et rendre de plus en plus coûteux les tentatives de filtrage de leurs sites.

Le trafic à absorber par la plateforme peut aussi subitement augmenter si l'un des sites hébergés est victime d'une attaque informatique visant à le saturer (attaque dite de déni de service).

En plus d'avoir à supporter les attaques ciblant vraiment des sites filtrés ou partageant la même IP qu'un site filtré, le système de filtrage peut aussi être directement visé, par exemple à titre de représaille par une organisation tenant certains sites filtrés.

Incompatibilité avec l'architecture technique et contractuelle[modifier]

Le fait de demander aux opérateurs de modifier en permanence leur configuration de routage n'est pas compatible avec l'utilisation de techniques d'optimisation devenues standard comme l'agrégation de routes. C'est particulièrement vrai en France au regard du nombre d'accords de peering passés par les opérateurs entre eux, et dans lesquels les règles d'agrégation font l'objet d'une clause contractuelle spécifique.

Par ailleurs, le fait que les organisations criminelles puissent utiliser une technique connue sous le nom de Fast Flux (http://en.wikipedia.org/wiki/Fast_flux) - visant à changer très régulièrement l'association nom de domaine-addresse IP - impliquera l'envoi très réguliers de commandes aux routeurs pour reconfigurer les routes, multipliant d'autant les risques des dommages et la complexité des configurations à maintenir.

Risques liés à l'utilisation du protocole BGP[modifier]

L'utilisation de commandes BGP pour redéfinir des routes en fonction de besoin de filtrage de contenus n'est pas une utilisation pour laquelle le protocole BGP, d'utilisation délicate, a été pensée.

Pour preuve, lorsque le Pakistan a ordonné le blocage de l'accès à des caricatures de Mahomet hébergés sur le service YouTube, un opérateur pakistanais appliquant l'ordonnance a envoyé une commande BGP à des équipements mal parametrés qui ont propagé la demande aux réseaux d'opérateurs hors juridiction pakistanaise. L'accès à YouTube a alors été interdit pendant plusieurs heures dans plusieurs pays du monde. Cet événement a permis de mettre en évidence des risques pour la sécurité nationale, comme l'ont relevé des spécialistes réseaux.

Un petit groupes de personnes pourrait s'emparer d'une chaîne de routeurs compatible BGP qui auraient été piratés pour envoyer des préfixes BGP à tout l'internet. Le résultat ne ferait pas tomber Internet - mais il pour pourrait causer des pertubations à grande échelle - ce qui est exactement ce que vous rechercher si vous souhaitez que votre attaque terroriste ait plus d'impacts. Autrement dit, la couverture presse sur cette faille du préfixe BGP met en lumière un vecteur d'attaque qui peut causer de sérieux dégats pendant une période où les gens auront le plus besoin d'internet. [YouTube Black Hole - What’s the real point? http://www.getit.org/wordpress/?p=82]

Risques d'exposition de la liste noire[modifier]

Une étude universitaire [Clayton, Cambridge, 2005] a montré que, pour des raisons de coût, les solutions de ce type en production au Royaume-Uni (les seules étudiées à ce jour) appliquaient un traitement particulier aux requêtes des utilisateurs, et que ce dernier pouvait être détecté par les utilisateurs finaux. L'étude conclut que le système peut être utilisé comme un oracle pour trouver efficacement des sites web illégaux.

En plus de présenter un risque que la liste ainsi obtenue circule en clair sur internet, voire soit vendue, avec une mention expliquant aux utilisateurs français comment contourner le système, cette faille pourrait être exploitée pour faciliter le contournement par les éditeurs de sites filtrés, ou pour maximiser une attaque informatique, puisque rendant l'observation du système, et donc de ses défauts, plus simple.

Une des sociétés a annoncé peu après la publication de l'étude que le problème était résolu... peu après, l'auteur de l'étude, un expert en sécurité informatique, faisait une mise à jour de l'étude montrant que rien n'était résolu.

Autres solutions[modifier]

Le filtrage par DNS[modifier]

Avec cette solution, ce n'est pas le contenu illégal qui est filtré, mais l'intégralité du domaine internet qui l'héberge (par exemple geocities.com). Concrètement, l'intégralité d'un site hébergeant des millions de pages personnelles pourrait disparaître de la vue des internautes français pour une image non retirée dans les délais imposés par l'administration française (la ministre de la famille parle de 24h00 de délai).

Cette technique peut également entraîner le blocage de sous-domaines (ex : pagesperso.free.fr) en fonction de la façon dont la requête est rédigée et interdire des communications non visées par la requête (par exemple interdire l'envoi et la réception de courriels relatifs au domaine, et non plus seulement l'accès aux pages hébergées).

Une étude universitaire [Dornseif, Düsseldorf, 2003] étudiant le cas du filtrage d'un site nazi ordonné par une autorité allemande a montré que tous les ISP étudiés ont fait au moins une erreur de configuration lorsqu'ils ont configuré leurs filtres DNS. Les FAI n'ont pas bloqué le site souhaité (sous-blocage), ont bloqué des sites non visés par la requête ou des communications (surblocage), ou étaient à la fois en sous et sur-blocage

Au final, sur 27 fournisseurs d'accès, 45% étaient ainsi en situation de surblocage et de sous-blocage, 55% étaient "uniquement" en situation de surblocage, et 16 FAI sur 27 (59%) bloquaient les emails de plusieurs domaines alors que cela n'était pas demandé. Tous bloquaient l'adresse de l'administrateur du site ciblé qui ne pouvait donc plus communiquer avec cette adresse, y compris avec les services de police ou la justice.

L'étude soulignait par ailleurs que « le contenu web est très volatile. Les serveurs web sont réorganisés, les domaines ont de nouveaux propriétaires. Ceci a été très clairement démontré dans le contexte des requêtes de blocage du site web www.front14.org : à l'automne 2001 ce site contenait un portail d'extrême droite, mais au printemps 2002 il y avait un catalogue web à la même adresse. Ceci souligne la nécessité d'identifier les pages à bloquer pas seulement par leur emplacement mais par leur contenu actuel. »

Les opérations nécessaires au blocage sont relativement simples, bien que la complexité et la maintenance engendrée, et donc le coût, dépendent là aussi des configurations des opérateurs.

L'efficacité de cette solution est quasi-nulle. Il suffit d'une manipulation triviale sur l'ordinateur de l'utilisateur pour définitivement passer outre.

Le filtrage par IP[modifier]

Il s'agit de maintenir une liste d'adresses IP ou de blocs d'adresses IP pour lesquels les routeurs des opérateurs appliquant ce filtrage ne vont pas transmettre les paquets, mais simplement les ignorer. Ainsi, tout échange de données passant par un routeur appliquant ce filtrage est impossible. Cette solution se contourne par des proxy extérieurs (proxy web anonymisants ou non, tunnels, etc.). Elle bloque tout accès à un serveur ou un groupe de serveurs, et ne permet pas de traiter séparément des contenus différents ou des sites web différents sur une même machine.

Une étude univervistaire [Edelman, Harvard, 2003] soulignait ainsi que More than 87% of active domain names are found to share their IP addresses (i.e. their web servers) with one or more additional domains, and more than two third of active domain names share their addresses with fifty or more additional domains. While this IP sharing is typically transparent to ordinary users, it causes complications for those who seek to filter the Internet, restrict users' ability to access certain controversial content on the basis of the IP address used to host that content. With so many sites sharing IP addresses, IP-based filtering efforts are bound to produce "overblocking" -- accidental and often unanticipated denial of access to web sites that abide by the stated filtering rules.

Le filtrage par URL via serveurs mandataires généralisés[modifier]

Toutes les requêtes des internautes français passent par des serveurs de filtrage qui bloquent les communications relatives à une url identifiée. Contrairement à un filtrage hybride, il n'y a pas en effet de "tri" préalable sur l'adresse IP. Cette solution implique une plateforme de filtrage conséquente avec redondance des serveurs car la communication du pays avec le reste du web dépend de la capacité des serveurs

Cette solution est le modèle choisi par la Tunisie et l'Arabie Saoudite. Le coût de mise en place d'une telle solution serait exorbitant dans un environnement concurrentiel comme la France où plusieurs opérateurs coexistent.

La société Noos utilisait il y a quelques années une telle solution. Elle a été abandonnée car elle posait des problèmes de surblocage et impliquait un coût croissant au fil de l'extension du réseau de l'opérateur.

Cette solution reste contournable facilement via l'utilisation de proxy anomymisants, qu'ils soient installés sur les clients ou proposés par des serveurs étrangers.

Le filtrage par paquets RST[modifier]

Les URL des sites web visités sont analysées en regard d'une liste de mots-clés et d'une liste noire d'URL, et les routeurs par lequels transite la connexion envoient au client et au serveur un paquet RST, qui a comme conséquence naturelle la clôture de la connexion TCP.

La connexion est close dès qu'elle est établie et reconnue comme à filtrer, aucun contenu ne peut être échangé. Cela nécessite que tout le trafic à contrôler passe par des infrastructures réseau maîtrisées par les autorités de contrôle. C'est une des techniques en Chine.

Cela peut être contourné en ignorant délibérément ces paquets RST sur le client *et* sur le serveur, ce qui n'est pas à la portée de la plupart des internautes.

Ressources utilisées[modifier]

Études universistaires[modifier]

Filtrage par IP

Edelman, B.: Web Sites Sharing IP Addresses: Prevalence and Significance.Berkman Center for Internet and Society at Harvard Law School, 2003.

http://cyber.law.harvard.edu/archived_content/people/edelman/ip-sharing/

Filtrage par DNS

Dornseif, M.: Government mandated blocking of foreign Web content. In: von Knop, J., Haverkamp, W., Jessen, E. (eds.): Security, E-Learning, E-Services: Proceedings of the 17. DFN-Arbeitstagung Äuber Kommunikationsnetze, Dusseldorf 2003, Lecture Notes in Informatics, ISSN 1617-5468, 617{648.

http://md.hudora.de/publications/200306-gi-blocking/200306-gi-blocking.pdf

Filtrage hybride (Cleanfeed, WebMinder, NetClean)

Clayton, Failures in a Hybrid Content Blocking System. University of Cambridge, Computer Laboratory, 2005

http://www.cl.cam.ac.uk/~rnc1/cleanfeed.pdf

Filtrage par RST

Clayton, Murdoch, Watson : Ignoring the Great Firewall of China. University of Cambridge, Computer Laboratory, 2006

http://www.cl.cam.ac.uk/~rnc1/ignoring.pdf

Autres ressources[modifier]

Vue d'ensemble

The worst part of censorship is XXXXX : Investigating large-scale Internet content. 23C3, Berlin/Germany, December 29th, 2006

http://events.ccc.de/congress/2006/Fahrplan/events/1473.en.html

Discussions entre acteurs techniques du réseau sur la liste FRnOG

Charte sur la confiance en ligne" vers une division de l'inter-net ?

http://www.mail-archive.com/frnog@frnog.org/msg02883.html

Filtrage via BGP shunt : quelle faisabilité ?

http://www.mail-archive.com/frnog@frnog.org/msg02939.html

Ping: il n'y a plus personne ? (à propos du YouTube blackhole)

http://www.mail-archive.com/frnog@frnog.org/msg02441.html


NB : toute information sur la solution norvégienne est bienvenue

cf : http://www.zataz.com/news/6842/kripos.html

Voir aussi SolutionsDeFiltrageVueJuridique et PlanNote