Le big data et les data sciences enfin pour les «nuls» ? – Interview de Thierry Vallaud (BVA)

6 Mar. 2017

Partager

Si tout le monde ou presque est aujourd’hui convaincu de l’intérêt à porter aux data sciences, un des principaux freins à la démocratisation de leur usage tient à une double complexité : celle du langage propre à cet univers, mais aussi celle des outils devant être utilisés.
Mais ce dernier point est précisément en train de changer nous dit Thierry Vallaud, directeur du département Data Sciences de BVA, qui vient de lancer auprès de ses clients de nouvelles solutions inspirées d’un principe clé : donner le pouvoir aux utilisateurs. Il répond ici aux questions de MRNews

 

MRNews : Lorsque nous vous avions interrogé il y a deux ans, au moment de la création du département BVA Data Sciences, vous aviez partagé votre conviction d’une forte démocratisation à venir des data sciences. Un de vos paris était de contribuer à rendre plus évidente la complémentarité de celles-ci avec les études classiques. Ce pari est-il tenu ?

Thierry Vallaud (BVA) : Oui. Il s’est produit au sein de BVA une réelle maturation des esprits sur ces enjeux. La data science irradie désormais partout au sein de l’institut. L’idée s’est imposée que la distinction entre les données d’études classiques et celles que manipulent et traitent les data scientists n’avait plus sens. Les secondes sont aussi susceptibles que les premières de répondre aux problématiques des annonceurs. On peut réaliser des études avec les données en possession de l’entreprise ; on peut les compléter avec celles obtenues via des questionnaires sur une partie de la base pour l’affecter ensuite à la totalité de celle-ci. On peut également avoir recours à de l’Open Data, ou aller acheter de la donnée lorsqu’elle est disponible sur le marché. La data science est devenue un socle, sans être pour autant une fin en soi : elle est là pour répondre à des problématiques.

Sur 100 projets d’études réalisés par BVA, combien intègrent la composante « data science » ?

De façon directement visible, je situerais l’ordre de grandeur à 10% aujourd’hui. Mais de manière induite, on arrive naturellement à 30 voir 50%. Sur certains projets comme la mise en oeuvre de typologies ou de segmentations stratégiques, il n’est pas imaginable de faire l’impasse sur les bases de données clients des entreprises. Sur tous les sujets en lien avec l’expérience-client, là-encore la data science propose des éclairages extrêmement précieux, très opérationnels.

Il reste néanmoins beaucoup à faire pour démocratiser la data-science. Cela passe par une simplification des discours, même s’il sera toujours nécessaire d’acquérir un minimum de vocabulaire technique. Mais cela suppose également de nouveaux outils. C’est le sens des initiatives que nous venons de prendre.

Vous venez en effet d’annoncer la mise à disposition de vos clients d’une nouvelle solution dans le cadre de votre offre DmrP. Peut-être faut-il commencer par résumer ce qu’est cette offre ?

L’idée de DmrP – Data marketing research Plateform – c’est que les entreprises sont assez cruellement coincées pour analyser des données dès lors que les volumes commencent à être conséquents. Cela tient aux outils dont elles disposent, ou à un déficit sur les connaissances requises. Nous leur disons donc « venez comme vous êtes, avez vos données », en clin d’oeil au discours de Mc Donalds. Nous leur offrons la possibilité de nous « déposer » leurs données, que nous nous chargeons de nettoyer, de croiser et de rendre utilisables. Et ce que nous faisons désormais outre cela, c’est de leur proposer des interfaces simples pour travailler sur ces données même s’ils ne connaissent pas le code, et des langages de type R ou Python.

C’est un changement majeur : plus besoin de maitriser le code pour utiliser les Data Sciences…

Absolument. On sort en effet de cette logique de « tous codeurs » propagée par certains. Cette idée que tout le monde doit apprendre le code est un non sens ! Si un marketeur lit des lignes de code générées en R ou en Python, il y a de grandes chances qu’il parte en courant. On lui offre cette possibilité-là, même si ces connaissances informatiques sont minimales, de manipuler et d’analyser ses données au travers d’interfaces simples, de type WISIWIG sous Windows. Il a la possibilité d’utiliser Hadoop tout en n’étant absolument pas un informaticien ou un spécialiste du big data !

Je précise néanmoins que ce sont des solutions de type hybride : elles sont utilisables sans connaitre les langages de type R ou Python, mais une personne plus initiée peut intégrer des lignes de code si besoin et éditer le programme selon ces langages.

Peut-être est-ce utile de rappeler en quelques mots ce qu’est Hadoop ?

Hadoop est ce qui permet de paralléliser des calculs pour travailler une grosse masse de données. On répartit celles-ci sur plusieurs machines, ce qui donne la possibilité de multiplier le nombre de calculs et de travailler beaucoup plus vite. Mettons-nous à la place d’un utilisateur non spécialiste. Il sait qu’il dispose de beaucoup de données. Mais beaucoup, cela ne signifie pas grand chose… Il ne sait pas définir la puissance de calcul dont il a besoin. C’est donc le logiciel qui va le faire pour lui et auto-adapter le nombre de machines nécessaires, là encore avec des interfaces réellement simples.

A quel type d’entreprises est destinée cette solution ?

On peut résumer les choses en disant que les entreprises se répartissent en deux catégories. Il y a d’un côté celles qui acceptent que leurs données soient hébergées ailleurs que chez elles — pour s’affranchir des problèmes de tuyauterie et de puissance de calcul — mais qui souhaitent néanmoins y accéder à distance. C’est à ce type de besoin que répond notre offre DmrP. Par ailleurs, d’autres entreprises ne veulent en aucun cas que leurs données sortent de chez elles, mais elles voudront bien intégrer des algorithmes développés par d’autres dans leur système interne. Pour celles-ci, nous proposons une autre offre : BVA Insight. Soyons clairs, une SSII n’aurait pas vocation à offrir ces solutions. Nous le faisons parce que nous sommes un institut, notre logique étant d’aider les utilisateurs à s’affranchir de la technologie pour se concentrer sur les analyses et leurs résultats.

Le big data et les data sciences « pour les nuls », cela devient donc une réalité ?

D’une certaine manière, oui. Tout dépend de ce que l’on appelle un « nul ». S’il s’agit simplement d’une personne qui ne sait pas coder, qui n’est ni informaticien ni statisticien de haut vol, alors oui on peut dire cela. Mais en réalité, ces offres sont conçues pour le marketeur qui a une véritable expertise métier. Il connait son métier avec les enjeux et les règles du jeu, ainsi que ses données. Mais il n’a pas le pouvoir sur celles-ci, il est contraint de passer par des tiers. La grande idée consiste à lui redonner la main. Ce qui est extrêmement cohérent avec l’évolution des outils informatiques depuis qu’ils existent : l’histoire va toujours dans le sens d’une reprise en main par les utilisateurs, avec les interfaces qui le permettent. C’est l’expertise métier qui primera, de plus en plus. Et il faut bien moins de temps pour apprendre à se servir d’un outil wisiwig WISIWIG que pour connaitre un marché et ses fondements !


 POUR ACTION 

• Echanger avec les interviewés : @ Thierry Vallaud

Vous avez apprécié cet article ? N’hésitez pas à le partager !

CET ARTICLE VOUS A INTÉRESSÉ ?

Tenez-vous régulièrement informé de notre actualité et de nos prochains articles en vous inscrivant à notre newsletter.