Définition: Cellules confidentielles

Catégorie:

Les cellules d'un tableau qui ne sont pas publiables en raison du risque de divulgation statistique sont appelées cellules confidentielles. Par définition, il existe trois sortes de données confidentielles susceptibles d'être divulguées. En conséquence, les cellules confidentielles sont les suivantes:
- Nombres réduits. Une cellule d'un tableau est confidentielle si moins de m entités contribuent au total de cette cellule. La valeur de m est appelée "seuil" et est généralement déterminée par l'autorité statistique selon le degré souhaité de protection de la confidentialité: m est au moins égal à 3, mais, dans certains cas, le seuil peut être de m=5. Dans le cas d'un seuil de m=3, une cellule est confidentielle si le chiffre contenu dans la cellule représente les données d'une seule unité ou si le chiffre constitue la somme de deux entités et si l'un des déclarants peut divulguer le chiffre afférent à l'autre déclarant en soustrayant son propre chiffre du total. On parle dans ce cas de "règle de seuil".
- Prédominance ou cas de prédominance. (a) Règle de prédominance, règle de concentration, règle (n,k): une cellule est considérée comme confidentielle si les n unités les plus importantes interviennent pour plus de k% dans le total de la cellule. Les valeurs de n et de k sont données par l'autorité statistique et peuvent varier considérablement. Ainsi, on peut avoir n=2 et k=85, ce qui signifie qu'une cellule est définie comme confidentielle si les deux unités les plus importantes interviennent pour plus de 85% dans le total de la cellule. (b) Règle de l'ambiguïté avant/après publication, règle p/q: il est supposé que, sur la base des informations librement disponibles, la contribution d'une entité au total de la cellule peut être estimée avec une marge de p pour cent (p=erreur avant publication); après la publication des statistiques, la valeur peut être estimée avec une marge de q pour cent (q=erreur après publication). Dans la règle p/q, le ratio p/q représente le gain d'information réalisé par la publication et, dans la règle d'ambiguïté avant/après publication, l'écart p-q. Si le gain d'information est inacceptable, la cellule est déclarée confidentielle. P et q sont donnés par l'autorité statistique, et il en va donc de même de la définition du niveau acceptable du gain d'information.
- Confidentialité secondaire/dérivation: même si toutes les cellules confidentielles contenant des nombres réduits ou des cas de prédominance sont protégées par des méthodes de protection contre la violation du secret (=protection primaire), une violation pourrait être possible si les cellules confidentielles étaient recalculées comme représentant l'écart entre un total et la somme des cellules correspondant à ce total. Cette opération consistant à recalculer les cellules primaires protégées est appelée "dérivation". Il peut y avoir dérivation (a) dans un tableau à deux ou plusieurs dimensions quand les totaux marginaux sont donnés dans les lignes, les colonnes ou un ensemble de lignes ou de colonnes; (b) entre des tableaux et des sous-tableaux s'il y a trois dimensions ou davantage, par exemple entre des niveaux géographiques ou entre des niveaux d'agrégation (ensemble de l'économie, secteur); (c) entre différents tableaux du même niveau d'agrégation ou du même niveau géographique, contenant des types d'informations différents.
Note: collectivement, les nombres réduits et les cas de prédominance sont couverts par la confidentialité primaire.
Source:
Manual on disclosure control methods, Eurostat 1996, pp. 8 et 9, et Eurostat.
Créé:
Mis à jour: