Les questions sensibles et procédures des réponses aléatoires

 

 

Respecter l’anonymat

Jean-Claude Régnier

Maître de conférences en Sciences de l’Éducation

Université Lumière de Lyon 2

 Texte de l'article au format PDF

Résumé de l’article:

Les instruments de raisonnement humain fournis par la statistique et le calcul des probabilités peuvent parfois nous rendre de grand service dans des travaux d’investigation lorsque ceux-ci reposent sur des données recueillies au moyen de questions adressées directement à des personnes dont il importe absolument de préserver l’anonymat.

Par quels dispositifs est-il possible d’accéder à des informations inscrites dans le jardin secret des individus?

Comment peut-on procéder pour respecter ce secret?

L’article qui suit se propose de reprendre les démarches de Warner (1965) traitant de cette question et de les mettre en œuvre dans le domaine d’ investigations en Sciences de l’Éducation.

 

 

 

Nombre de problématiques abordées dans le cadre des Sciences de l’Éducation peuvent ou pourraient s’appuyer sur des données appartenant au jardin secret des individus concernés par les investigations. Nous pouvons aussi penser que la multiplication des sondages, les propos qu’ils induisent dans les médias, la corrélation plus ou moins implicite qui est établie avec l’informatique et sa puissance de stockage et de traitement d’informations privées mettent ces individus dans un état de méfiance préjudiciable quant à la fiabilité des données requises.

Le législateur a lui-même établi des garde-fous au travers d’une législation fondée sur les deux thèmes “informatique” et “ liberté”.

Ainsi est-il pertinent d’imaginer des dispositifs permettant de recueillir des informations en préservant de manière absolue l’anonymat des personnes interrogées et de leur associer des traitements statistiques adéquats.

Identifions quelques thèmes où cet anonymat est un préalable absolu:

- la fraude aux examens universitaires,

- l’usage de “drogue” lors de la préparation d’examens universitaires,

- la pratique du vol de documents, de livres dans les centres de documentation,

- le “piratage” informatique,

- la mise au point de logiciels “virus” et les stratégies élaborées pour leur propagation,

- l’effet des campagnes d’information relatives à la question du SIDA

Tous ces thèmes peuvent donner lieu à des problématiques inscrites dans le cadre des Sciences de l’Éducation. Or force est de constater qu’elles impliquent la prise en compte de données intimes aux individus et requérant la préservation du secret.

A titre d’exemple pour exposer la procédure choisie, nous opterons pour une étude du comportement de fraude lors d’examens universitaires.

Un enseignant ayant eu l’écho de quelques rumeurs sur des pratiques de copiages lors d’examens universitaires pourra avoir envie d’évaluer la part de réalité de ce fait. Il pourra s’intéresser à l’occurrence de ces pratiques, aux stratégies employées, aux représentations qui lui sont associées et surtout à la motivation qui détermine le recours à la fraude ainsi qu’à la prise de conscience des divers risques encourus.

Pour la clarté de cet exposé, nous nous réduirons à la question:

La question initiale appelle alors deux modalités de réponse:

Nous excluons ici l’hypothèse d’un comportement de mensonge systématique. Nous proposons le protocole suivant:

" Je souhaite recueillir une information relative à la fraude aux examens universitaires pour infirmer ou confirmer des rumeurs à ce propos.

Avez-vous fraudé au moins une fois aux examens de l’année universitaire précédente?

Toutefois pour préserver le secret total de votre réponse, je vous propose la démarche suivante:

Voici une urne contenant 20 boules numérotées de 1 à 20.

Dans l’isoloir, vous tirez une boule, vous prenez connaissance de son numéro et vous la remettez dans l’urne.

Si le numéro tiré est inférieur ou égal à 5, je vous demande de répondre par OUI (c’est vrai) ou NON ( c’est faux)à l’assertion

A1 = " j’ai fraudé au moins une fois "

Si le numéro tiré est supérieur ou égal à 6, je vous demande de répondre par OUI (c’est vrai) ou NON ( c’est faux)à l’assertion

A2 = " je n’ai jamais fraudé "

Mentionnez votre réponse sur le petit carton mis à votre disposition et mettez ce carton dans la seconde urne.

 

La constitution de l’échantillon des étudiants à interroger soulève un problème concret de faisabilité:

on peut procéder à un tirage aléatoire de plus d’une centaine d’étudiants parmi ceux de l’ université concernée à partir des numéros d’inscription et les inviter par courrier à venir répondre à l’enquête à la manière des consultations électorales.

Par cette démarche, nous recueillons un ensemble de n bulletins portant les réponses OUI ou NON sans savoir si elles se rapportent à A1 ou à A2. Le secret du chacun est donc respecté. C’est alors que le recours à un raisonnement probabiliste va nous aider à obtenir une estimation de la proportion des étudiants ayant fraudé au moins une fois. Cette fois nous devons introduire un peu plus de formalisme mathématique en espérant ne pas induire un découragement chez le lecteur non initié.

notation

information

état

p

proportion réelle des étudiants ayant fraudé au moins une fois dans la population

inconnue

q

probabilité d’être invité à répondre à A1

connue

1 - q

probabilité d’être invité à répondre à A2

connue

r

probabilité que l’étudiant interrogé ait répondu OUI à l’une ou l’autre des assertions A1 ou A2

inconnue

notation

événement

probabilité

A1

répondre à l’assertion A1

P(A1)= q

A2

répondre à l’assertion A2

P(A2)= 1- q

"OUI"

répondre OUI à A1 ou A2

P("OUI")= r

("OUI"/A1)

répondre OUI sachant qu’il s’agit de répondre à A1

P("OUI"/A1) = p

("OUI"/A2)

répondre OUI sachant qu’il s’agit de répondre à A2

P("OUI"/A2) = 1- p

L’événement "OUI" est réalisé par les éventualités qui elles-mêmes réalisent soit l’événement "OUI" et A1 soit l’événement "OUI" et A2.

"OUI" = ("OUI" et A1) ou ("OUI" et A2)

Ainsi en terme de probabilités:

P("OUI") = P("OUI" et A1) + P ("OUI" et A2)

Le recours à la notion de "probabilité conditionnelle" nous permet d’obtenir les relations suivantes:

P("OUI" et A1) = P("OUI" /A1) P(A1)

P("OUI" et A2) = P("OUI" /A2) P(A2)

P("OUI") = P("OUI" /A1) P(A1) + P("OUI" /A2) P(A2)

P("OUI") =

En transformant cette relation nous extrayons une formule fournissant la valeur qui nous préoccupe à savoir celle de p

Si maintenant nous tenons la variable "répondre à l’assertion" comme une variable aléatoire, nous avons alors à faire à une variable de Bernoulli puisqu’il n’y a que deux modalités "OUI" et "NON".

événements

"OUI"

"NON"

probabilité

r

1- r

En interrogeant les n étudiants de l’échantillon, nous pouvons définir la variable aléatoire X qui décrit le nombre de "oui" émis parmi les n réponses.

X est une variable binomiale de paramètres n et r :

Nous connaissons:

Nous pouvons définir la variable aléatoire Y caractérisant la proportion de réponses "oui" dans l’échantillon.

Ceci nous conduit à procéder à une estimation ponctuelle de la valeur r par utilisation d’une variable aléatoire : la statistique dont les caractéristiques sont E()=r et V()=

A partir de cette relation, nous pouvons construire un estimateur de la valeur p inconnue.

Nous connaissons là encore:

De cette relation, nous parvenons à une expression en fonction de p ,

Dans notre exemple, nous supposons que notre échantillon est de n = 150 individus extraits aléatoirement d’une population dont l’effectif total N est inconnu. Le dépouillement a fourni les résultats suivants: 84 "oui" ont été dénombrés dans l’urne

.

notation

événement

probabilité

A1

répondre à l’assertion A1

P(A1)=

A2

répondre à l’assertion A2

P(A2)=

"OUI"

répondre OUI à A1 ou A2

estimation ponctuelle

P("OUI")=

Ceci nous donne donc une estimation ponctuelle de la proportion des étudiants ayant fraudé au moins une fois au sein de la population entière.

estimation de p = = = 0,38

Ainsi il y aurait 38% d’étudiants ayant fraudé au moins une fois

En raison de l’effectif important de l’échantillon, nous pouvons approcher la variable

Z= = par la variable de Laplace-Gauss N(0;1).

La variance V() est inconnue mais nous pouvons l’estimer par sa valeur maximale correspondant à la valeur p = 0,5.

V()= + = + = 0,00666 et s () = 0,0816

Enfin nous pouvons obtenir l’intervalle de confiance à 95% suivant:

(0,38) - 1,96s ()<p < (0,38) + 1,96 s ()

c’est à dire:0,2199< p < 0,5400

Ainsi peut on s’attendre avec une confiance de 95% à une proportion p d’étudiants ayant fraudé au moins une fois comprise entre 22% et 54%. Notons que la variance V() inconnue peut aussi être estimée par la valeur correspondant à la valeur p = 0,38 issue de l’estimation ponctuelle.

V()= + = + » 0,00657

s () = 0,0810

Ce qui nous permet d’ obtenir l’intervalle de confiance à 95% suivant:

(0,38) - 1,96s ()<p < (0,38) + 1,96 s ()

c’est à dire: 0.2211< p < 0.5388

Un autre problème se pose quant au choix de la valeur du paramètre q

Comment l’individu interrogé réagit-il selon la valeur du paramètre q ?

Existe-t-il un seuil en-deça ou au-delà duquel le choix aléatoire de la modalité sur laquelle il doit se prononcer lui semble “truqué” c’est à dire qu’il lui paraît possible de voir son secret trahi ?

Pour éclairer le sens de cette question, il convient d’analyser la situation sous deux contraintes antagonistes:

- d’une part plus la probabilité de tirer A1 est proche de 0 (ou de 1), plus l’enquêteur recueille de réponses concentrées sur A2( ou sur A1)

- d’autre part plus la probabilité est proche de 1/2, plus le secret de l’enquêté est préservé puisque A1 et A2 auraient les mêmes chances d’être tirées.

La situation q = 0,5 ne peut être mise en œuvre puisque dans ce cas

P("OUI") =

Cette probabilité serait indépendante de la proportion p que nous cherchons à estimer et la variance de l’estimateur p serait alors infinie. De ce fait aucune estimation ne pourrait être réalisée.

La situation q = 0 ne peut être mise en œuvre puisque dans ce cas cela revient ne soumettre que la formulation A2

La situation q = 1 ne peut être mise en œuvre puisque dans ce cas cela revient ne soumettre que la formulation A1

Ainsi il nous faut choisir une valeur de q sur l’ensemble ]0 ; 0,5[ U ]0,5 ; 1 [ Mais alors quels critères pouvons-nous retenir?

Nous pourrions choisir une valeur qui minimise autant que possible la variance de l’estimateur de q.tout en laissant l’impression que la dissymétrie dans le tirage entre A1 et A2 n’est pas trop déséquilibrée.

Analysons la variation de la variance de l’estimateur de π en fonction de cette probabilité q de tirage de A1.

Nous fournissons en annexe la courbe représentative de la fonction u ainsi qu’un tableau des valeurs de u(q) selon diverses valeurs de q. Quel choix peut être raisonnablement fait pour q du point de vue de l’étudiant interrogé ?

Le seul moyen de parvenir à une estimation de cette valeur nous semble être de procéder à un sondage préalable mettant en évidence les réactions des individus interrogés face à la probabilité de répondre à A1 plutôt qu’à A2.

Le problème peut se réduire en principe à estimer ce paramètre dans l’intervalle ]0 ; 0,5 [ si nous admettons qu’il revient au même de répondre non à A1 et oui à A2, oui à A1 et non à A2. Ce qui n’est peut-être qu’une hypothèse pratique.

Nous proposons l’expérience préalable suivante:

“ Je souhaite recueillir une information relative à la fraude aux examens universitaires pour infirmer ou confirmer des rumeurs à ce propos.

Avez-vous fraudé au moins une fois aux examens de l’année universitaire précédente?

Toutefois pour préserver le secret total de votre réponse, je vous propose la démarche suivante:

Voici dix urnes contenant 100 boules portant chacune soit la marque (A1) soit la marque (A2).

Chaque urne est constituée d’une proportion différente de boules de deux types.

Il s’agira de tirer une boule au hasard pour apporter une réponse à la modalité figurant sur cette boule.

Regardez bien la composition de chaque urne avant d’en choisir une.

Après quoi vous seriez amené à procéder comme suit:

Dans l’isoloir, vous tirez une boule, vous prenez connaissance de son numéro et vous la remettez dans l’urne.

Si la boule tirée porte la mention A1, je vous demande de répondre par OUI (c’est vrai) ou NON ( c’est faux)à l’assertion

A1 = “ j’ai fraudé au moins une fois

Si la boule tirée porte la mention A2, je vous demande de répondre par OUI (c’est vrai) ou NON ( c’est faux)à l’assertion

A2 = “ je n’ai jamais fraudé

Mentionnez votre réponse sur le petit carton mis à votre disposition et mettez ce carton dans la seconde urne.

 

Il pourrait être intéressant de recueillir avec le premier choix de l’urne, un second sous la contrainte:

quelle urne contenant la plus petite quantité de boules portant la mention A1 accepteriez-vous de choisir?

Il est possible que la taille de l’urne joue un rôle dans l’impression laissée quant aux chances de réaliser un tirage le plus équitable possible entre A1 et A2.

Ainsi en proposant des urnes de 20 boules nous ne recueillerions peut-être pas les mêmes proportions choisies par le fait que rien n’assure qu’intuitivement pour un certain nombre de personnes non averties, il revient au même d’avoir 8 boules (A1) sur 20 que 40 boules (A1) sur 100!

Nous proposons de réaliser prochainement cette expérience dont nous communiquerons les résultats dans un prochain article.

Dorénavant, il appartient alors au lecteur d’exploiter cette information dans la conduite de quelques investigations soucieuses de respecter le secret absolu de l’individu interrogé.

Nous nous en tiendrons là dans l’exploitation de ce dispositif de recueil de données.

Nous espérons tout à la fois ne pas avoir rebuté le lecteur par le recours à une instrumentation mathématique et lui avoir fourni une matière à réflexion en ce qui concerne l’utilité de raisonnements statistiques et probabilistes.

Nous visons aussi dans cet article une illustration de la statistique et des probabilités comme non pas des outils d’inquisition mais comme des outils soucieux du respect de l’intégrité, de l’intimité, du secret des sujets qui détiennent l’information indispensable aux délicates problématiques abordées.

 

 

Annexe 1

Tableaux donnant variation de la variance de l’estimateur de q en fonction de cette probabilité q de tirage de A1.

valeur de q

u(q)

valeur de q

u(q)

valeur de q

u(q)

0

0

0,17

0,32392103

0,34

2,19140625

0,005

0,00507601

0,175

0,34171598

0,345

2,35145682

0,01

0,0103082

0,18

0,36035156

0,35

2,52777778

0,015

0,01570305

0,185

0,37988158

0,355

2,72265161

0,02

0,02126736

0,19

0,4003642

0,36

2,93877551

0,025

0,02700831

0,195

0,4218624

0,365

3,17935528

0,03

0,03293345

0,2

0,44444444

0,37

3,44822485

0,035

0,03905076

0,205

0,46818443

0,375

3,75

0,04

0,04536862

0,21

0,4931629

0,38

4,09027778

0,045

0,05189591

0,215

0,51946753

0,385

4,47589792

0,05

0,05864198

0,22

0,54719388

0,39

4,91528926

0,055

0,06561672

0,225

0,57644628

0,395

5,41893424

0,06

0,07283058

0,23

0,60733882

0,4

6

0,065

0,08029462

0,235

0,63999644

0,405

6,67520776

0,07

0,08802055

0,24

0,67455621

0,41

7,46604938

0,075

0,09602076

0,245

0,71116878

0,415

8,40051903

0,08

0,10430839

0,25

0,75

0,42

9,515625

0,085

0,11289737

0,255

0,79123282

0,425

10,8611111

0,09

0,1218025

0,26

0,83506944

0,43

12,505102

0,095

0,13103948

0,265

0,88173382

0,435

14,5428994

0,1

0,140625

0,27

0,93147448

0,44

17,1111111

0,105

0,15057683

0,275

0,9845679

0,445

20,411157

0,11

0,16091387

0,28

1,04132231

0,45

24,75

0,115

0,17165627

0,285

1,10208221

0,455

30,6141975

0,12

0,18282548

0,29

1,16723356

0,46

38,8125

0,125

0,19444444

0,295

1,23720999

0,465

50,7704082

0,13

0,20653762

0,3

1,3125

0,47

69,1944444

0,135

0,21913117

0,305

1,39365549

0,475

99,75

0,14

0,23225309

0,31

1,48130194

0,48

156

0,145

0,24593335

0,315

1,57615047

0,485

277,527778

0,15

0,26020408

0,32

1,67901235

0,49

624,75

0,155

0,27509977

0,325

1,79081633

0,495

2499,75

0,16

0,29065744

0,33

1,91262976

0,49999

625000000

0,165

0,30691691

0,335

2,04568411

0,49999999

6,25E+14

Tableaux donnant la variance maximale de l’estimateur de π en fonction de n et de q

échantillon

effectif n=

150

estim(π)

prise en compte pour calculer la variance=

0,5

Effectif total des boules dans l’urne=

20

Boules A1

Boules A2

©

u (q)

w (q,π,n)

0

20

0

0

0,00166667

1

19

0,05

0,05864198

0,00205761

2

18

0,1

0,140625

0,00260417

3

17

0,15

0,26020408

0,00340136

4

16

0,2

0,44444444

0,00462963

5

15

0,25

0,75

0,00666667

6

14

0,3

1,3125

0,01041667

7

13

0,35

2,52777778

0,01851852

8

12

0,4

6

0,04166667

9

11

0,45

24,75

0,16666667

10

10

0,5

#DIV/0!

#DIV/0!

 

 

échantillon

effectif n=

150

estim(π)

prise en compte pour calculer la variance=

0,5

Effectif total des boules dans l’urne=

100

Boules A1

Boules A2

p(X=A1)=q

u (q)

w (q,π,n)

0

100

0

0

0,00166667

1

99

0,01

0,0103082

0,0017353

2

98

0,02

0,02126736

0,00180845

3

97

0,03

0,0329334

0,0018862

4

96

0,04

0,04536862

0,00196912

5

95

0,05

0,0586419

0,0020576

6

94

0,06

0,07283058

0,0021522

7

93

0,07

0,0880205

0,0022534

8

92

0,08

0,10430839

0,00236206

9

91

0,09

0,1218025

0,0024786

10

90

0,1

0,140625

0,00260417

11

89

0,11

0,1609138

0,0027394

12

88

0,12

0,18282548

0,0028855

13

87

0,13

0,2065376

0,0030435

14

86

0,14

0,23225309

0,00321502

15

85

0,15

0,26020408

0,00340136

16

84

0,16

0,2906574

0,0036043

17

83

0,17

0,32392103

0,00382614

18

82

0,18

0,36035156

0,00406901

19

81

0,19

0,4003642

0,0043357

20

80

0,2

0,44444444

0,00462963

21

79

0,21

0,4931629

0,0049544

22

78

0,22

0,54719388

0,00531463

23

77

0,23

0,6073388

0,0057155

24

76

0,24

0,67455621

0,00616371

25

75

0,25

0,75

0,0066666

26

74

0,26

0,83506944

0,0072338

27

73

0,27

0,93147448

0,0078765

28

72

0,28

1,0413223

0,0086088

29

71

0,29

1,16723356

0,00944822

30

70

0,3

1,3125

0,0104166

31

69

0,31

1,48130194

0,01154201

32

68

0,32

1,67901235

0,01286008

33

67

0,33

1,9126297

0,0144175

34

66

0,34

2,19140625

0,01627604

35

65

0,35

2,5277777

0,0185185

36

64

0,36

2,93877551

0,0212585

37

63

0,37

3,4482248

0,0246548

38

62

0,38

4,09027778

0,02893519

39

61

0,39

4,9152892

0,0344352

40

60

0,4

6

0,0416666

41

59

0,41

7,46604938

0,05144033

42

58

0,42

9,515625

0,0651041

43

57

0,43

12,505102

0,08503401

44

56

0,44

17,111111

0,1157407

45

55

0,45

24,75

0,1666666

46

54

0,46

38,8125

0,26041667

47

53

0,47

69,194444

0,4629629

48

52

0,48

156

1,04166667

49

51

0,49

624,75

4,1666666

50

50

0,5

#DIV/0!

#DIV/0!

 

 

Annexe 2

Protocole pour une estimation psychologique de la valeur de la proportion q comme mesure de la probabilité de répondre à la question sensible

 

Nous nous proposons d’éprouver une méthode d’enquête dont la particularité est le respect absolu de l’anonymat.

Voici le protocole que nous vous soumettons:

“ Je souhaiterais recueillir une information relative à la fraude aux examens universitaires pour infirmer ou confirmer des rumeurs à ce propos. Pour cela je vous adresse la question suivante:

Avez-vous fraudé au moins une fois aux examens de l’année universitaire précédente?

Naturellement la réponse “oui” est difficile à avouer pour multiples raisons

C’est pourquoi pour préserver le secret total de votre réponse, je vous propose la démarche suivante:

Voici des urnes contenant un certain nombre de boules.

Chaque boule porte soit la marque (A1) soit la marque (A2).

Chaque urne est constituée d’une proportion différente de boules des deux types.

Il s’agira de tirer une boule au hasard pour apporter une réponse à la modalité figurant sur cette boule.

Tout d’abord, regardez bien la composition de chaque urne avant d’en choisir l’une d’entre elles.

Ce choix étant effectivement réalisé, vous seriez amené à procéder comme suit:

Dans un isoloir, vous tirez une boule au hasard dans l’urne choisie, vous prenez connaissance de son numéro( A1 ou A2) et vous la remettez dans l’urne.

- Si la boule tirée porte la mention A1, je vous demande de répondre par OUI (c’est vrai) ou NON ( c’est faux)à l’assertion

A1 = “ j’ai fraudé au moins une fois

- Si la boule tirée porte la mention A2, je vous demande de répondre par OUI (c’est vrai) ou NON ( c’est faux)à l’assertion

A2 = “ je n’ai jamais fraudé

Mentionnez votre réponse sur le petit carton mis à votre disposition et mettez ce carton dans la seconde urne.

 

Dans cette première phase de l’investigation, je ne cherche à recueillir des informations que sur le choix de l’urne.

Il s’agit donc pour vous de participer à une simulation comme si vous étiez invité réellement à répondre à la question centrale concernant la fraude aux examens. Vous êtes sollicité à déterminer le choix de l’urne de référence compte tenu de la nature de cette question centrale qui met en jeu une réponse difficilement avouable directement à un enquêteur même si ce dernier vous affirme toutes les garanties du secret .

Vous pouvez constater que par la démarche précédente, l’enquêteur ne recueille que des “oui”(vrai) et des “non”(faux):

- sans savoir si ces réponses correspondent à A1 = “ j’ai fraudé au moins une fois ” ou à A2 = “ je n’ai jamais fraudé ”,

- sans savoir qui a fourni une réponse “oui” ou “non”.

Le secret de chacun est ainsi parfaitement préservé.

 

Ce qui vous est alors demandé aujourd’hui:

Choisir une urne parmi celles qui vous sont proposées.

Chaque dessin représente une urne ainsi construite:

Votre réponse:

je choisis l’urne qui contient:

et

Explication de votre choix

J’ai choisi cette urne parce que:

 

 

Faire un second choix d’urne

Je vous demande maintenant de m’indiquer l’urne contenant le moins possible de boules A1 que vous accepteriez de choisir malgré tout .

Votre réponse:

J’accepterais de choisir l’urne qui contient:

et

Explication de votre choix

Finalement j’ai choisi cette urne car: