Des chercheurs annoncent une percée dans l'apprentissage profond distribué
avec un temps d'entraînement 10 fois plus rapides et des empreintes mémoires 4 fois plus petites que les systèmes actuels
Des chercheurs ont annoncé qu’ils ont réalisé une percée dans l’apprentissage profond distribué. À travers une étude, les informaticiens de l'Université Rice et d'Amazon ont montré qu'ils pouvaient réduire le temps et les ressources informatiques nécessaires pour former les ordinateurs à la recherche de produits et à d'autres “problèmes extrêmes de classification” comme la traduction vocale et la réponse à des questions générales. La recherche sera présentée cette semaine à la conférence NeurIPS 2019 à Vancouver.
Les résultats de l'étude incluent des tests effectués en 2018 lorsque le chercheur principal Anshumali Shrivastava et l'auteur principal Tharun Medini, tous deux de Rice, ont visité Amazon Search à Palo Alto en Californie. Lors des tests, Shrivastava, Medini et ses collègues ont montré leur approche consistant à utiliser des “classificateurs moyens fusionnés par hachage” (MACH), qui nécessitaient une fraction des ressources de formation de certains systèmes commerciaux modernes. Les tests ont eu lieu sur un ensemble de millions de données de recherche fournies par Amazon.
Cet ensemble comprenait environ 70 millions de requêtes et plus de 49 millions de produits. « Nos temps d'entraînement sont environ 7 à 10 fois plus rapides, et nos empreintes mémoires sont 2 à 4 fois plus petites que les meilleures performances de base des systèmes d'apprentissage profond distribués à grande échelle précédemment signalés », a déclaré Shrivastava, professeur assistant en informatique à Rice. Cette étude peut être exploitée dans les problèmes de classification extrême connus pour avoir de nombreux résultats possibles ou de nombreux paramètres.
Selon les chercheurs, les modèles d'apprentissage profondeur pour la classification extrême sont si grands qu'ils doivent être formés de manière typique à l’aide d’un superordinateur, un ensemble lié d'unités de traitement graphique où les paramètres sont distribués et fonctionnent en parallèle, souvent pendant plusieurs jours. Cependant, MACH adopte une approche très différente. Shrivastava le décrit par une expérience de pensée qui divise au hasard 100 millions de produits en trois classes, qui prennent la forme de seaux.
« Je mélange, disons, des iPhone avec des chargeurs et des T-shirts dans le même seau », a-t-il expliqué. « C'est une réduction drastique de 100 millions à 3 millions ». Dans cette expérience, les 100 millions de produits sont triés au hasard dans 3 seaux dans deux mondes différents, ce qui signifie que les produits peuvent se retrouver dans des seaux différents dans chaque monde. Un classificateur est formé pour assigner des recherches aux seaux plutôt qu'aux produits qu'ils contiennent, ce qui signifie que le classificateur n'a pas besoin de faire correspondre une recherche qu'à l'une des trois classes de produits.
Dans l’expérience avec la base de données de formation d'Amazon, Shrivastava, Medini et leurs collègues ont divisé au hasard les 49 millions de produits en 10 000 classes, ou seaux, et répété le processus 32 fois. Le nombre de paramètres du modèle est ainsi passé d'environ 100 milliards à 6,4 milliards. De plus, selon Medini, la formation du modèle a pris moins de temps et de mémoire que certains des temps de formation les mieux signalés sur des modèles ayant des paramètres comparables, y compris le modèle de mélange d'experts à faible densité (MdE) de Google.
Toujours selon lui, la caractéristique la plus importante de MACH est qu'il n'exige aucune communication entre les processeurs parallèles. Dans l'expérience de la pensée, c'est ce que représentent les mondes séparés et indépendants. « Ils n'ont même pas besoin de communiquer. En principe, vous pourriez former chacun des 32 sur un GPU, ce que vous ne pourriez jamais faire avec une approche non indépendante », a-t-il expliqué. Par contre, d’après le professeur Shrivastava, en général, la formation a nécessité une communication entre les paramètres.
Cela signifie que tous les processeurs qui fonctionnent en parallèle doivent partager l'information. Il estime que cette communication est un problème qu’il faudra résoudre à l’avenir. « Pour l'avenir, la communication est un énorme problème dans l'apprentissage profond distribué. Google a exprimé des aspirations de formation d'un réseau de paramètres de 1 000 milliards de paramètres, par exemple. Actuellement, MACH ne peut pas être appliqué à des cas d'utilisation avec un petit nombre de classes, mais pour une classification extrême, il atteint le Graal sacré de la communication zéro », a-t-il conclu.
Source : Tech Xplore
Et vous ?
Qu'en pensez-vous ?
Voir aussi
Deep TabNine : un autocompléteur basé sur l'IA et l'apprentissage profond serait comme le Smart Compose de Gmail pour les codeurs
IBM propose une bibliothèque d'apprentissage profond 46 x plus rapide que Google TensorFlow, SNAP disponible en fin d'année
VIA propose le premier processeur x86 avec un coprocesseur pour l'apprentissage profond. Il peut classifier une image en 330 ms
Pourquoi Tesla aurait discrètement racheté DeepScale, une startup spécialisée dans l'apprentissage automatique et l'apprentissage profond qui promet des solutions d'IA optimisées
Partager