Quand les gestes du quotidien deviennent le carburant des robots humanoïdes

Credit : Gemini

Je reviens sur le sujet après avoir vu passer une vidéo en ligne qui traitait trop rapidement de ce qu’on appelle aujourd’hui les « arm farms », cette approche de la collecte de données spécialisée pour permettre l’entraînement de l’IA physique. À première vue, filmer quelqu’un qui plie du linge, range une cuisine ou arrose une plante n’a rien d’extraordinaire. Pourtant, ces gestes ordinaires sont en train de devenir une ressource stratégique pour l’industrie robotique. Derrière l’essor des robots humanoïdes, un nouveau marché prend forme autour des données dites « égocentriques », c’est-à-dire des vidéos captées à la première personne, au plus près des mains, des bras et des objets manipulés. Après les fermes à clics et les usines de modération, voici venir les « arm farms », ces chaînes humaines qui produisent les mouvements dont les machines ont besoin pour apprendre.

L’idée est simple. Les grands modèles d’IA ont appris à lire, écrire, reconnaître des images et produire du code en absorbant d’immenses volumes de contenus numériques. Mais pour agir dans le monde physique, cela ne suffit plus. Un robot doit voir comment une main attrape une tasse, comment un bras contourne un obstacle, comment une personne passe d’une tâche à une autre dans un environnement imparfait. C’est précisément ce que recherchent aujourd’hui les acteurs de la robotique, qui misent sur des vidéos tournées depuis le point de vue humain pour alimenter leurs systèmes. Cette logique est désormais observée aussi bien dans des réseaux de travailleurs équipés de caméras que chez des entreprises spécialisées dans la collecte de données pour la « physical AI ».

Et le phénomène n’est plus marginal. Le mois dernier, je vous racontais qu’à Los Angeles, une nouvelle forme de travail à la demande émerge dans l’écosystème de l’intelligence artificielle. Des centaines de personnes portent désormais des caméras fixées sur la tête ou aux poignets pendant qu’elles effectuent des tâches quotidiennes, comme laver la vaisselle, préparer du café ou arroser des plantes. L’objectif est de fournir aux systèmes d’IA des données précises sur les mouvements humains.

DoorDash a annoncé, le 19 mars dernier, le lancement de « Tasks », une nouvelle offre permettant à ses livreurs d’effectuer de courtes missions rémunérées, notamment la capture de tâches du quotidien destinées à aider des systèmes d’IA et de robotique à mieux comprendre le monde physique. L’entreprise précise aussi tester une application autonome dédiée à ce type de collecte. De son côté, le Los Angeles Times rapportait en mars que la jeune pousse Sunain dispose de 25 000 contributeurs dans 30 pays et expédie des caméras portées au poignet pour enregistrer des gestes domestiques naturels.

En septembre, je vous parlais d’Amazon qui préparait ses lunettes de réalité augmentée, que j’ai depuis testées, pour assister ses livreurs. Des lunettes qui affichent des instructions sur le tri des colis ou l’itinéraire des livraisons. Mais en arrière-plan, ces lunettes enregistrent aussi tous les gestes et ces données pourront servir à entraîner les robots humanoïdes qu’Amazon développe pour automatiser ses services.

Cette ruée vers la donnée confirme un changement de perspective dans le secteur. Depuis un an, plusieurs acteurs de l’analyse et du conseil insistent sur le fait que la course aux humanoïdes ne se jouera pas seulement sur les composants ou la puissance de calcul, mais aussi sur la capacité à réunir assez de données concrètes sur les gestes, les contextes et les environnements réels. Bain estime que les robots humanoïdes se rapprochent d’une viabilité économique dans plusieurs secteurs et que les entreprises ont intérêt à tester dès maintenant leurs cas d’usage. Morgan Stanley, de son côté, continue d’anticiper un marché colossal à long terme, pouvant atteindre 5 000 milliards de dollars à l’horizon 2050.

Ce qui rend ces vidéos si précieuses, c’est qu’elles montrent le monde tel qu’il est vraiment. Pas un laboratoire propre, ni une démonstration parfaitement scénarisée, mais une cuisine encombrée, un objet qui glisse, une interruption, un changement d’attention. Pour entraîner un robot à fonctionner dans un hôpital, un restaurant, un entrepôt ou un domicile, ces détails comptent énormément. Les entreprises qui construiront les premières grandes bibliothèques de gestes spécialisés pourraient donc prendre une longueur d’avance, en particulier dans les secteurs où les environnements sont complexes et peu standardisés.

Reste que cette économie naissante soulève déjà des questions de fond. Qui possède ces gestes une fois qu’ils sont transformés en données d’entraînement ? Quelle rémunération pour les travailleurs qui captent ces mouvements ? Et jusqu’où ira cette externalisation d’un travail destiné, au bout du compte, à automatiser une partie des tâches humaines ? Derrière l’image futuriste du robot autonome, on retrouve en réalité une mécanique très familière du numérique : avant l’automatisation, il y a souvent une immense armée humaine invisible.

L’IA physique ne se construit pas seulement dans les laboratoires ou dans les usines de composants. Elle se construit aussi dans les cuisines, les salons et les ateliers, caméra au poignet. Après l’ère des données textuelles et des grandes banques d’images, une nouvelle matière première s’impose : le geste humain. Et dans cette nouvelle chaîne de valeur, ceux qui sauront capter, structurer et industrialiser ces mouvements pourraient bien tenir la clé de la prochaine vague robotique.

******

Du lundi au vendredi, Bruno Guglielminetti vous propose un regard sur l’essentiel de l’actualité numérique avec 120 secondes de Tech.

Ou encore…

Écoutez la plus récente édition de Mon Carnet,
le magazine hebdomadaire de l’actualité numérique.


En savoir plus sur Mon Carnet

Subscribe to get the latest posts sent to your email.

Laisser un commentaire