L’utilisabilité des interfaces conversationnelles

Camille Cohignac 6 décembre 2019 ~ 7 minutes

Avril 2016, Mark Zuckerberg inaugure en grande pompe le BotStore Messenger lors de la mythique conférence F8. La plateforme Messenger est désormais ouverte aux éditeurs de bot et c’est parti pour la course à l’échalote. Oui.sncf, assureurs divers et variés, fournisseurs d’énergie, toutes les entreprises veulent le leur, que ce soit sur la plateforme Messenger, ou sur leur propre environnement via le site ou l’application.

De gauche à droite les chatbots de MAAF assurances / Oui.sncf / Butagaz – A chaque entreprise son chatbot

Du support client au remplacement du webform : quelle plus-value pour les chatbots ?

À part deux ou trois ovnis qui traînent, on trouve deux types de chatbots.

Les chatbots « support client », qui tendent à assurer le service avant et après vente, à libérer du temps de traitement humain (et coûteux), et à générer du prospect en masse.
Les chatbots « d’interaction », qui tendent à remplacer les webforms classiques pour la réalisation de tâches et l’accès à des services.

La plus-value économique théorique pour un support client est évidente. Lorsque le robot fonctionne, l’entreprise gagne en temps de traitement humain, et coûteux, et l’utilisateur accède à une réponse immédiate, à n’importe quelle heure du jour et de la nuit. Mais si le bot ne répond pas à la promesse d’une réponse claire et immédiate, l’expérience d’avoir « supprimé » le contact humain en faveur d’un robot qui ne fonctionne pas peut suffire à perdre un client ou un prospect. Et aujourd’hui, ce n’est pas brillant… Ensuite, à savoir si on préfère une bonne vieille barre de recherche dans une FAQ ou un bot pour obtenir la même réponse, c’est une question de goûts et de couleurs ;-)

Quand le chatbot ne répond pas aux attentes − la déception est au rendez-vous !

Cependant, ce qui nous intéresse aujourd’hui concerne la plus-value des chatbots d’interaction, qui viennent remplacer les webforms classiques, ceux qui nous permettent d’interagir avec une interface conversationnelle pour effectuer une tâche bien précise :

Commander un billet de train,
Acheter une fringue,
Commander à dîner,
Réserver un billet d’avion,
Etc.

Un changement de point de vue et d’éléments de langage de l’interface

Les interfaces conversationnelles sont des interfaces linéaires formées par des bubbles chains (chaînes de bulles). Le système et l’utilisateur sont représentés par des « bulles » portant pour chacun des acteurs une couleur différente. Et l’interaction entre l’utilisateur et le système se fait dans une succession de questions réponses qui guident l’utilisateur dans sa tâche à effectuer reproduisant une action et un fonctionnement parfaitement connu des utilisateurs qui est le message texte.

Afin d’effectuer une tâche, le système a besoin de poser des questions à l’utilisateur. Pour y répondre, celui-ci peut soit taper sa réponse, soit sélectionner sa réponse dans une liste. Et recommencer ainsi de suite jusqu’à réalisation de la tâche.

Dans une interface de formulaire plus traditionnelle dite « webform », ou encore dans un tunnel d’achat classique, les éléments de langages sont bien plus poussés. L’interface n’est pas linéaire et l’utilisateur remplit les champs dans l’ordre mais peut annuler, effacer, revenir, modifier, sans recommencer. Les éléments d’interfaces sont clairs et correspondent à une grammaire définie de la même façon que l’utilisateur peut prendre connaissance du format de réponse attendu grâce aux placeholders (paramètres fictifs) et prend clairement connaissance des erreurs commises. Dernier avantage important, l’utilisateur en voyant toutes les questions, perçoit sa progression au moment de la complétion.

Ce qui nous emmène à la question de la charge de travail.

Charge de travail pour l’utilisateur

Dans ses directives sur le conversation design, Google précise que « plus une interface exploite la conversation humaine, moins il faut apprendre aux utilisateurs comment l’utiliser ». C’est vrai, l’interface conversationnelle utilise bien moins d’éléments de langages différents et, par conséquent, l’utilisateur ne cherche pas comment elle fonctionne. Sans compter que le SMS est une partie intégrante de notre quotidien et une modalité de conversation devenue naturelle. Mais, si vous regardez bien autour de vous, lorsque qu’une conversation se complexifie, les personnes ont parfois besoin d’en changer les modalités. Deux personnes qui se disputent par message vont avoir besoin de s’appeler, deux personnes qui discutent au travail sur Slack vont avoir besoin de se déplacer pour échanger.

Sur des sujets plus complexe, l’interface linéaire offre une charge de travail bien plus importante pour l’utilisateur qui doit lire chaque question pour comprendre chaque format de réponse attendu. Pire, l’utilisateur n’est pas capable de trier inconsciemment les informations qu’il lit ou ne lit pas puisque la hiérarchie visuelle est inexistante.

Je me suis amusée à mesurer les temps de complétion pour un scénario bien défini (on s’amuse comme on peut). Par un bot conversationnel, il faut lire chaque petite information. La charge de travail est plus importante, et, par conséquent, réserver un billet est plus long.

A gauche l’appli oui.sncf, 34s pour tout compléter – à droite 1 minute 31 secondes pour tout compléter via le bot sur Messenger

Et ça, c’est quand vous ne devez pas comparer les prix ! Vous rappelez-vous de l’époque des guichets ? Quand vous vouliez acheter un billet de train, et que la personne au guichet tournait l’écran pour vous montrer les différentes horaires et tarifs ? Si oui, alors vous comprenez de quoi je parle.

Sinon, voici un autre exemple très parlant. Fermez les yeux et imaginez que vous êtes au restaurant.

Option 1, le serveur arrive et vous demande. « Que voulez-vous manger ? ». Je ne veux pas m’exprimer à votre place mais si vous n’êtes pas un habitué, il y a de grande chance que votre réponse ressemble à cela : « Qu’avez-vous ? » puis le serveur vous mentionne une liste de plus de dix plats, entrées… et vous faites votre choix parmi cette sélection.
Option 2, le serveur arrive et vous donne une carte de plusieurs pages puis revient quelques minutes après : « que voulez-vous manger ? »

Alors ? Laquelle préférez vous ? C’est là que nous arrivons au fond de la conversation.

Le fond de la conversation

Hé oui ! Tout ça pour ça :) La conclusion de cette histoire c’est que tous les sujets n’appellent pas la conversation.

Lorsque je vais à la mairie pour créer un passeport par exemple, je ne passe pas des heures à épeler chaque petite lettre de chaque spécificité de mon identité. Non, la personne en face de moi me donne un formulaire à remplir. La conversation n’a pas sa place dans ce cas.

Les directives de Facebook à destination des éditeurs de bots pour l’application Messenger sont très claires sur le sujet :

Pour les personnes qui interagissent avec votre bot, lire chaque question et saisir chaque réponse peut s’avérer bien plus fastidieux que de cliquer sur un bouton ou de sélectionner une proposition dans une liste, en particulier lorsqu’il n’existe que deux ou trois options plausibles.

Et c’est aux entreprises de coller des rustines pour pallier cette problématique :

Screenshot – oui.sncf – 18 novembre 2019 – remplacer la bulle par un élément graphique plus développé pour faciliter le travail de la mémoire

Alors je m’interroge… Pourquoi investir autant d’argent dans des bots lorsqu’on peut l’investir pour proposer une expérience extraordinaire d’un formulaire traditionnel ?

Certains l’ont bien compris et ont fait le choix de l’hybride :

L’assureur, spécialisé dans l’habitation, fait le choix d’un formulaire sans bulles mais évoquant la conversation de manière plus sobre.

Même choix pour Lemonade aussi spécialiste de l’assurance habitation, la conversation est évoquée par le ton employé et la présence d’un avatar.

Et vous, quel sera votre choix ?