Avec l’histoire d’un saumon et une bonne dose d’humour, Louise Leitsch (Director Research chez Appinio) a publié il y a quelques mois une tribune qui a fait le buzz dans le petit monde des études marketing. Sur un sujet pourtant à priori pas des plus glamour, celui des analyses statistiques pratiquées dans l’univers du market research. Mais avec un point de vue pour le moins critique sur celles-ci, à proscrire selon elle dans le périmètre de la recherche scientifique universitaire, sauf à vouloir perdre sa réputation ou même son emploi. Elle répond aux questions de Market Research News.
MRNews : Dans votre tribune, vous avez émis des propos qui peuvent sembler sévères sur les analyses statistiques communément utilisées dans le monde des études marketing… La rigueur scientifique y est-elle si déficiente ?
Louise Leitsch (Appinio) : Je dois d’abord préciser que j’aime beaucoup le market research ! Je travaille dans cet univers depuis maintenant 7 ans, après avoir eu des responsabilités dans le domaine de la recherche universitaire, aux Pays-Bas, et plus spécifiquement sur le périmètre de la psychologie sociale. Je ne veux donc surtout pas être médisante vis-à-vis des études marketing. Mais en effet, sans doute de par ma formation et mon parcours, je suis frappée par le fait que ces études sont bien souvent menées de manière peu « scientifique ».
Notre métier a pour nom le « market research », mais, en réalité, la « research » ne me semble que peu présente. Si vous soumettez une problématique à 4 instituts, chacun vous proposera son approche et sa méthodologie, sans bien expliquer le pourquoi. Alors que si vous sollicitez 4 universités différentes sur la façon de mesurer la personnalité des individus, tous les chercheurs s’appuieront sur les mêmes grandes références. Lorsque j’ai commencé à travailler dans les études marketing, j’ai essayé de trouver les livres ou les articles scientifiques qui étayaient telle ou telle pratique. Mais on me répondait le plus souvent qu’ils n’existaient pas, que c’était là des secrets de fabrique… Peut-être que je force un peu le trait, quelques ouvrages y font référence. Si je veux mettre au point un brand tracking par exemple, je peux m’appuyer sur le livre « Better Brand Health », qui compile des dizaines d’années de recherche. Mais oui, en effet, la scientificité de notre univers me semble très optimisable.
Si vous soumettez une problématique à 4 instituts, chacun vous proposera son approche et sa méthodologie, sans bien expliquer le pourquoi. Alors que si vous sollicitez 4 universités différentes sur la façon de mesurer la personnalité des individus, tous les chercheurs s’appuieront sur les mêmes grandes références.
Cette diversité des méthodes peut aussi être vue positivement, comme le signe que la recherche est toujours ouverte…
Oui, en ce sens qu’il est possible d’innover en permanence. Mais si vous achetez des études pour éclairer des décisions importantes pour une entreprise, sur des enjeux de communication ou de R&D par exemple, sans doute préfèreriez-vous avoir l’assurance de vous appuyer sur les méthodes les plus scientifiquement éprouvées… Lorsque vous interrogez les praticiens des études sur ce qu’ils font et pourquoi ils le font, ils répondent le plus souvent qu’ils ont l’habitude de procéder ainsi… Ce qui n’est pas vraiment sécurisant. Au Moyen Âge, n’avait-on pas pris l’habitude de saigner les gens pour les soigner, alors que ça avait plutôt pour effet de les tuer ? Les vrais progrès dans la médecine sont nés du recours à des connaissances scientifiques, comme dans bien d’autres domaines.
Si vous achetez des études pour éclairer des décisions importantes pour une entreprise, sur des enjeux de communication ou de R&D par exemple, sans doute préfèreriez-vous avoir l’assurance de vous appuyer sur les méthodes les plus scientifiquement éprouvées…
Vous pointez du doigt une pratique que vous considérez comme aberrante : celle de mettre des tests de significativité partout, par plusieurs centaines pour la moindre étude. Pourquoi est-ce si condamnable de votre point de vue ? Et que faudrait-il plutôt faire ?
Un test de significativité n’est jamais absolu. Lorsque nous appliquons ce type de test, nous avons cette fameuse valeur p, et nous regardons si celle-ci est inférieure à 0,05, ou même à 0,01. Cette valeur indique non pas une certitude, mais une probabilité, celle qu’il existe un écart entre deux proportions, par exemple sur les intentions d’achat des consommateurs pour deux propositions différentes. L’hypothèse nulle est-elle vraie ? Dans ce cas précis, une hypothèse a bien été formulée, l’entreprise se posant la question de savoir quel produit lancer. Sauf que, le plus souvent, pour l’immense majorité des tests mis en œuvre, il n’y a pas d’hypothèses. On recherche dans la multitude de tableaux tous les écarts qui seraient significatifs, hélas bien souvent en ignorant les autres résultats. Mais on est dans le domaine des probabilités, les écarts peuvent être déclarés « significatifs » sans être réels. Si vous effectuez 100 tests de significativité, vous avez ainsi toutes les chances de vous retrouver face à des « erreurs alpha », et de conclure à des écarts qui n’existent pas.
Par ailleurs, ce n’est pas parce qu’une différence est significative qu’elle fait sens pour prendre une décision, alors que c’était bien la préoccupation des inventeurs à l’origine de ces tests…
Ce n’est pas parce qu’une différence est significative qu’elle fait sens pour prendre une décision, alors que c’était bien la préoccupation des inventeurs à l’origine de ces tests…
Comment sont nés ces fameux tests de significativité ?
Ils ont été conçus par les équipes de la brasserie Guinness à Dublin, au milieu du 18e siècle. L’entreprise avait alors besoin de trouver une méthode efficace pour valider la qualité de sa bière, en ne mesurant celle-ci que sur de petits échantillons, de 50 unités et non de 1000 ou 2000 personnes comme bien souvent aujourd’hui. Et nous étions bien dans le contexte que nous évoquions précédemment : l’idée était de confirmer ou d’infirmer une hypothèse.
Cette notion d’hypothèse est donc la clé manquante qu’il faudrait réintroduire systématiquement dans les projets d’études… N’est-ce pas l’indice d’une connexion insuffisante entre les études et les décideurs dans les entreprises ?
Absolument, et peut-être surtout dans les grandes entreprises où les équipes études peuvent être assez éloignées de celles du marketing. Derrière l’hypothèse, il y a la raison essentielle de l’étude. On veut un meilleur packaging, ou un produit plus convaincant pour cibler les jeunes, ou bien une communication plus favorable à l’image de la marque, peu importe… L’étude est là pour s’assurer que la volonté de l’entreprise a de réelles chances d’aboutir. Dans ce cas, le test de significativité a tout son sens. Il doit ainsi être appliqué sur l’hypothèse, et non sur toutes les variables, dans tous les tableaux de résultats. S’il n’y a pas d’hypothèses, il est préférable de ne pas faire d’études, ou peut-être de se lancer dans d’autres recherches qui permettront de faire avancer la réflexion, notamment des études qualitatives.
Mais, dans une perspective décisionnelle, l’hypothèse se doit d’être précise. Si je mesure l’attrait d’un nouveau packaging, et que le pourcentage d’acheteur potentiel passe de 10 à 13% sur des échantillons de 1000 personnes, l’écart est certes significatif d’un point de vue statistique, avec les limites que nous avons précédemment évoquées. Mais cet écart est-il suffisant pour justifier l’investissement nécessaire à ce changement ? Le test ne le dira pas, et c’est pourtant la vraie question que doit se poser l’entreprise…
Un écart peut être « significatif ». Mais est-il suffisant pour justifier l’investissement nécessaire par exemple à un changement de packaging ? Le test ne le dira pas, et c’est pourtant la vraie question que doit se poser l’entreprise…
Outre cette notion d’hypothèse, quelles sont les alternatives possibles à l’usage de ces tests de significativité ?
Les analyses bayésiennes constituent certainement un mode d’approche plus moderne et pertinent, mais elles ne sont encore que relativement peu utilisées dans le domaine du market research. Elles le sont bien plus dans le monde universitaire, qui se détourne de plus en plus des tests de significativité. Je suis optimiste sur leur emploi à venir dans les études marketing, mais sans doute cela se fera avec le temps.
Vous intervenez dans différents pays. Observez-vous une spécificité française sur ces sujets ?
Ah oui ! Les Français sont les plus obsédés de tous sur les questions de représentativité des échantillons, bien plus que des Britanniques ou des Espagnols par exemple. En Allemagne, cela varie en fonction de l’ancienneté des équipes. Alors qu’on le sait, une représentativité à 100% n’est pas réalisable, ou bien elle est irréaliste d’un point de vue économique. Certains pans de population ne sont pas atteignables, alors qu’ils font partie de la société, je pense à des sans-abris, des réfugiés… Ou encore à des personnes touchées par l’illectronisme. Mais cette représentativité est-elle vraiment nécessaire pour aider les entreprises à prendre des décisions ? Je ne le crois pas, sauf dans des cas très particuliers. Il faut veiller en revanche, si l’on compare les résultats de deux tests, par exemple sur un packaging A et B, à ce que les populations étudiées soient comparables. Cela pose la question de la nature des variables à utiliser pour s’assurer de cette comparabilité. Comme Emilie a eu l’occasion de l’évoquer, nous sommes convaincus chez Appinio de la faible pertinence des données socio-démographiques pour se faire, et de l’intérêt des valeurs psychométriques, sauf cas très particuliers là encore.
Voyez-vous d’autres pratiques « aberrantes » dans les analyses statistiques menées dans le domaine du market research ?
J’avoue être surprise face à l’usage consistant à interroger les gens avec une échelle métrique pour ensuite transposer leurs réponses dans des scores « Top 2 Box ». Alors même que la variable métrique présente plein d’avantages, dont la possibilité de générer des moyennes, des écarts-types, et donc des analyses factorielles. Pourquoi « enquiquiner » les consommateurs avec des échelles métriques pour appauvrir après coup leurs réponses et limiter la puissance des analyses ?
J’avoue être surprise face à l’usage consistant à interroger les gens avec une échelle métrique pour ensuite transposer leurs réponses dans des scores « Top 2 Box » (…). Pourquoi « enquiquiner » les consommateurs avec des échelles métriques pour appauvrir après coup leurs réponses et limiter la puissance des analyses ?
Certaines méthodes ou principes d’analyse ne mériteraient-ils pas d’être plus souvent utilisés ?
Oui, c’est le cas des trade-off et plus largement de l’analyse conjointe, qui est un outil très puissant pour éclairer les décisions à prendre dans une entreprise, en contournant la difficulté que les gens peuvent avoir à répondre avec des échelles classiques. Le trade-off les amène à faire des choix, ce qu’ils font en permanence en tant que consommateurs. C’est donc naturel pour eux de répondre ainsi, bien plus que d’évaluer des propositions, sauf s’ils sont des professeurs ! (rires)
Les arbres de segmentation sont également une méthode que j’apprécie beaucoup, très efficace notamment pour hiérarchiser les causes d’un phénomène. Et elle amène aussi à faire des hypothèses, plutôt que de se reposer sur des critères socio-démographiques assez pauvres.
Auriez-vous un dernier message important à formuler ?
En tant que market researchers, je crois que nous avons une vraie responsabilité. Nous devons faire évoluer les pratiques, et faire reculer l’usage à outrance des tests de significativité. Cela peut nous éviter l’infamie d’être « épinglé » par le blog Data Colada, comme cela a été le cas pour certains universitaires de renom qui ont perdu leur réputation et même parfois leur emploi en s’étant fourvoyés dans un usage dévoyé des tests statistiques. Mais surtout, cela nous aidera à faire le mieux possible notre travail qui est d’éclairer et de sécuriser les décisions dans les organisations et les entreprises.
POUR ACTION
• Echanger avec l’interviewé(e) : @ Louise Leitsch