Meta lance Segment Anything, un modèle d'IA capable d'identifier et de découper des objets dans des images

**Anthony** · 06/04/2023, 11h58

Meta lance Segment Anything, un modèle d'IA capable d'identifier et de découper des objets dans des images, et publie la base de données de 11 millions d'images utilisée pour entrainer le modèle

Les chercheurs de Meta Platforms ont construit un nouveau modèle d'intelligence artificielle (IA), appelé Segment Anything Model (SAM), qui peut identifier et supprimer des objets de n'importe quelle image en quelques clics de souris. Des invites textuelles ont été testées pour le modèle, mais il n'a pas été publié pour le moment, a ajouté la société.

Selon Meta, SAM a été entraîné sur un ensemble de données, appelé SA-1B V1.0, qui se compose de 11 millions d'images à haute résolution et à confidentialité protégée, qui ont été obtenues sous licence auprès d'une grande société de photographie. Meta affirme qu'il s'agit du plus grand ensemble de données de segmentation à ce jour.

Meta a déclaré avoir rendu cet ensemble de données public afin qu'il puisse être utilisé par d'autres pour la recherche en vision par ordinateur et l'entraînement de modèles de segmentation d'objets à usage général. En attendant, le modèle d'IA est disponible sous une licence ouverte permissive et peut être consulté via un navigateur web.

Dans un billet de blog officiel, l'équipe de recherche Segment Anything explique que les données nécessaires à la formation d'un modèle de segmentation ne sont "pas facilement disponibles" en ligne, contrairement aux images, aux vidéos et aux textes, qui le sont.

Basé sur un modèle de vision transformateur, SAM utilise un encodeur d'image pour cartographier les caractéristiques de l'image et utilise ensuite un ensemble d'encastrements rapides pour produire un masque de segmentation. Le masque segmente l'objet qui doit être supprimé de l'image. L'équipe affirme que SAM peut segmenter un objet en seulement 50 millisecondes après avoir reçu une invite.

Les transformateurs sont des réseaux neuronaux capables de comprendre le lien entre deux données séquentielles, telles que des mots dans une phrase ou des objets dans une image. Le modèle texte-image DALL-E d'OpenAI ou Stability AI de Stable Diffusion sont quelques-uns des modèles d'IA basés sur des transformateurs.

Nom : 32454-sam.jpg
Affichages : 3313
Taille : 62,6 Ko

En outre, les chercheurs de Meta ont déclaré que SAM était utilisé pour annoter les images, puis que les données annotées étaient utilisées pour le mettre à jour. "Nous avons répété ce cycle de nombreuses fois pour améliorer de manière itérative le modèle et l'ensemble de données", a ajouté l'équipe de recherche.

Cependant, l'équipe s'est rendu compte que l'annotation des images n'était pas suffisante pour former un grand ensemble de données. Ils ont donc construit un moteur de données comportant trois processus. Dans le premier processus, le modèle assiste les annotateurs, tandis que dans le deuxième, une combinaison d'annotation automatique et assistée a été utilisée. Dans le troisième processus, le moteur de données a complètement automatisé la création des masques, ce qui lui a permis de s'adapter pour inclure plus de 1,1 milliard de masques de segmentation.

Bien que les images utilisées pour l'ensemble de données soient géographiquement diverses et proviennent de plusieurs pays, les chercheurs reconnaissent que certaines régions géographiques sont encore sous-représentées. En outre, pour s'assurer qu'il n'y a pas de discrimination à l'encontre de certains groupes, les chercheurs l'ont analysé pour détecter d'éventuels biais liés au sexe, à la couleur de la peau et à l'âge.

Introduction à Segment Anything : Vers le premier modèle de base pour la segmentation d'images

La segmentation, c'est-à-dire l'identification des pixels d'une image qui appartiennent à un objet, est une tâche essentielle de la vision par ordinateur et est utilisée dans un large éventail d'applications, de l'analyse de l'imagerie scientifique à la retouche de photos. Mais la création d'un modèle de segmentation précis pour des tâches spécifiques nécessite généralement un travail hautement spécialisé de la part d'experts techniques ayant accès à une infrastructure d'entraînement à l'IA et à de grands volumes de données soigneusement annotées dans le domaine.

Aujourd'hui, nous souhaitons démocratiser la segmentation en présentant le projet Segment Anything : une nouvelle tâche, un nouvel ensemble de données et un nouveau modèle pour la segmentation d'images, comme nous l'expliquons dans notre document de recherche. Nous publions à la fois notre modèle général Segment Anything (SAM) et notre jeu de données Segment Anything 1-Billion mask (SA-1B), le plus grand jeu de données de segmentation jamais réalisé, afin de permettre un large éventail d'applications et d'encourager la poursuite de la recherche sur les modèles de base pour la vision par ordinateur. Nous mettons l'ensemble de données SA-1B à disposition à des fins de recherche et le modèle Segment Anything est disponible sous une licence ouverte permissive (Apache 2.0).

Le projet Segment Anything vise à réduire les besoins en expertise de modélisation spécifique à une tâche, en calcul d'entraînement et en annotation de données personnalisées pour la segmentation d'images. Pour réaliser cette vision, notre objectif était de construire un modèle de base pour la segmentation d'images : un modèle qui s'entraîne sur des données diverses et qui peut s'adapter à des tâches spécifiques, de manière analogue à la façon dont l'entraînement est utilisé dans les modèles de traitement du langage naturel. Cependant, les données de segmentation nécessaires à l'entraînement d'un tel modèle ne sont pas facilement disponibles en ligne ou ailleurs, contrairement aux images, aux vidéos et aux textes, qui sont abondants sur Internet. C'est pourquoi, avec Segment Anything, nous avons entrepris de développer un modèle de segmentation général et rapide et de l'utiliser pour créer un ensemble de données de segmentation d'une ampleur sans précédent.

SAM a appris une notion générale de ce que sont les objets, et il peut générer des masques pour n'importe quel objet dans n'importe quelle image ou vidéo, y compris des objets et des types d'images qu'il n'a pas rencontrés pendant la formation. SAM est suffisamment général pour couvrir un large éventail de cas d'utilisation et peut être utilisé d'emblée sur de nouveaux "domaines" d'images - qu'il s'agisse de photos sous-marines ou de microscopie cellulaire - sans nécessiter de formation supplémentaire (une capacité souvent appelée transfert "zéro-coup").

À l'avenir, SAM pourrait être utilisé pour alimenter des applications dans de nombreux domaines qui nécessitent de trouver et de segmenter n'importe quel objet dans n'importe quelle image. Pour la communauté des chercheurs en IA et d'autres, SAM pourrait devenir un composant de systèmes d'IA plus importants pour une compréhension multimodale plus générale du monde, par exemple, la compréhension du contenu visuel et textuel d'une page web. Dans le domaine de l'AR/VR, SAM pourrait permettre de sélectionner un objet en fonction du regard de l'utilisateur, puis de le "soulever" en 3D. Pour les créateurs de contenu, SAM peut améliorer les applications créatives telles que l'extraction de régions d'images pour les collages ou le montage vidéo. SAM pourrait également être utilisé pour faciliter l'étude scientifique des phénomènes naturels sur Terre ou même dans l'espace, par exemple en localisant des animaux ou des objets à étudier et à suivre dans la vidéo. Nous pensons que les possibilités sont vastes et nous sommes enthousiasmés par les nombreux cas d'utilisation potentiels que nous n'avons même pas encore imaginés.

SAM : une approche généralisée de la segmentation

Auparavant, pour résoudre tout type de problème de segmentation, il existait deux catégories d'approches.

La première, la segmentation interactive, permettait de segmenter n'importe quelle classe d'objets mais nécessitait une personne pour guider la méthode en affinant itérativement un masque.
La seconde, la segmentation automatique, permet de segmenter des catégories d'objets spécifiques définies à l'avance (par exemple, les chats ou les chaises), mais nécessite des quantités considérables d'objets annotés manuellement pour l'apprentissage (par exemple, des milliers, voire des dizaines de milliers d'exemples de chats segmentés), ainsi que les ressources informatiques et l'expertise technique nécessaires à l'apprentissage du modèle de segmentation.

Aucune des deux approches n'a fourni une approche générale et entièrement automatique de la segmentation.

SAM est une généralisation de ces deux catégories d'approches. Il s'agit d'un modèle unique qui peut facilement effectuer une segmentation interactive et une segmentation automatique. L'interface du modèle permet une utilisation flexible qui rend possible un large éventail de tâches de segmentation simplement en concevant l'invite appropriée pour le modèle (clics, boîtes, texte, etc.). En outre, SAM est entraîné sur un ensemble de données diversifié et de haute qualité de plus d'un milliard de masques (collectés dans le cadre de ce projet), ce qui lui permet de s'adapter à de nouveaux types d'objets et d'images au-delà de ce qu'il a observé au cours de l'entraînement. Cette capacité de généralisation signifie que, dans l'ensemble, les praticiens n'auront plus besoin de collecter leurs propres données de segmentation et d'affiner un modèle pour leur cas d'utilisation.

Ensemble, ces capacités permettent à SAM de s'adapter à de nouvelles tâches et à de nouveaux domaines. Cette flexibilité est la première du genre pour la segmentation d'images.

Voici quelques-unes des capacités de SAM :

SAM permet aux utilisateurs de segmenter des objets d'un simple clic ou en cliquant interactivement sur des points à inclure ou à exclure de l'objet. Le modèle peut également être accompagné d'une boîte de délimitation.
SAM peut produire plusieurs masques valides en cas d'ambiguïté sur l'objet à segmenter, une capacité importante et nécessaire pour résoudre les problèmes de segmentation dans le monde réel.
SAM peut trouver et masquer automatiquement tous les objets d'une image.
SAM peut générer un masque de segmentation pour n'importe quelle invite en temps réel après avoir calculé au préalable l'intégration de l'image, ce qui permet une interaction en temps réel avec le modèle.

Comment fonctionne SAM : Segmentation par invites

Dans le domaine du traitement du langage naturel et, plus récemment, de la vision par ordinateur, l'un des développements les plus passionnants est celui des modèles de base capables d'effectuer un apprentissage à zéro ou à quelques reprises pour de nouveaux ensembles de données et de nouvelles tâches à l'aide de techniques d'"invite". Nous nous sommes inspirés de cette ligne de travail.

Nous avons entraîné SAM à renvoyer un masque de segmentation valide pour n'importe quelle invite, où une invite peut être des points d'avant-plan/arrière-plan, une boîte ou un masque approximatif, un texte de forme libre, ou, en général, toute information indiquant ce qu'il faut segmenter dans une image. L'exigence d'un masque valide signifie simplement que même lorsqu'une invite est ambigüe et peut se référer à plusieurs objets (par exemple, un point sur une chemise peut indiquer soit la chemise, soit la personne qui la porte), la sortie doit être un masque raisonnable pour l'un de ces objets. Cette tâche est utilisée pour pré-entraîner le modèle et pour résoudre des tâches générales de segmentation en aval par le biais de messages-guides.

Nous avons observé que la tâche de pré-entraînement et la collecte interactive de données imposaient des contraintes spécifiques à la conception du modèle. En particulier, le modèle doit fonctionner en temps réel sur un processeur dans un navigateur web pour permettre à nos annotateurs d'utiliser SAM interactivement en temps réel pour annoter efficacement. Bien que la contrainte de temps d'exécution implique un compromis entre la qualité et le temps d'exécution, nous constatons qu'une conception simple donne de bons résultats dans la pratique.

Sous le capot, un encodeur d'image produit une intégration unique pour l'image, tandis qu'un encodeur léger convertit n'importe quelle invite en un vecteur d'intégration en temps réel. Ces deux sources d'information sont ensuite combinées dans un décodeur léger qui prédit les masques de segmentation. Une fois l'intégration de l'image calculée, SAM peut produire un segment en seulement 50 millisecondes à partir de n'importe quelle invite dans un navigateur web.

Nom : SAM prompt.png
Affichages : 1565
Taille : 81,5 Ko

Dans un navigateur web, SAM met efficacement en correspondance les caractéristiques de l'image et un ensemble d'incrustations pour produire un masque de segmentation.

Segmenter 1 milliard de masques : Comment nous avons construit SA-1B

Pour entraîner notre modèle, nous avions besoin d'une source de données massive et diversifiée, qui n'existait pas au début de nos travaux. L'ensemble de données de segmentation que nous publions aujourd'hui est le plus important à ce jour (et de loin). Les données ont été collectées à l'aide de SAM. En particulier, les annotateurs ont utilisé SAM pour annoter interactivement les images, puis les données nouvellement annotées ont été utilisées pour mettre à jour SAM à leur tour. Nous avons répété ce cycle de nombreuses fois afin d'améliorer de manière itérative le modèle et l'ensemble des données.

Avec SAM, la collecte de nouveaux masques de segmentation est plus rapide que jamais. Avec notre outil, l'annotation interactive d'un masque ne prend que 14 secondes. Notre processus d'annotation par masque n'est que deux fois plus lent que l'annotation des boîtes de délimitation, qui prend environ 7 secondes avec les interfaces d'annotation les plus rapides. Par rapport aux efforts précédents de collecte de données de segmentation à grande échelle, notre modèle est 6,5 fois plus rapide que l'annotation entièrement manuelle des masques à base de polygones de COCO et 2 fois plus rapide que le plus grand effort d'annotation de données précédent, qui était également assisté par un modèle.

Cependant, l'annotation interactive des masques ne permet pas de créer un ensemble de données d'un milliard de masques. C'est pourquoi nous avons construit un moteur de données pour créer notre ensemble de données SA-1B.

Ce moteur de données comporte trois "vitesses". Dans la première vitesse, le modèle assiste les annotateurs, comme décrit ci-dessus. La deuxième vitesse est un mélange d'annotation entièrement automatique et d'annotation assistée, ce qui permet d'augmenter la diversité des masques collectés. La dernière vitesse du moteur de données est la création entièrement automatique de masques, ce qui permet à notre ensemble de données de s'adapter.

Notre ensemble de données final comprend plus de 1,1 milliard de masques de segmentation collectés sur environ 11 millions d'images sous licence et préservant la vie privée. SA-1B contient 400 fois plus de masques que tout autre ensemble de données de segmentation existant et, comme l'ont vérifié les études d'évaluation humaine, les masques sont de grande qualité et diversité et, dans certains cas, même comparables en qualité aux masques des ensembles de données précédents, beaucoup plus petits et entièrement annotés manuellement.

Nom : SA-1B-1.png
Affichages : 1550
Taille : 14,5 Ko

Nom : SA-1B-2.png
Affichages : 1534
Taille : 16,4 Ko

Les capacités de Segment Anything sont le résultat d'un entraînement sur des millions d'images et de masques collectés à l'aide d'un moteur de données. Il en résulte un ensemble de données de plus d'un milliard de masques de segmentation, soit 400 fois plus que tout autre ensemble de données de segmentation antérieur.

Les images de SA-1B proviennent d'un fournisseur de photos de plusieurs pays couvrant un ensemble varié de régions géographiques et de niveaux de revenus. Bien que nous reconnaissions que certaines régions géographiques sont encore sous-représentées, SA-1B dispose d'un plus grand nombre d'images et d'une meilleure représentation globale de toutes les régions que les ensembles de données de segmentation précédents. En outre, nous avons analysé les biais potentiels de notre modèle en fonction du sexe, du teint et de la tranche d'âge perçus des personnes, et nous avons constaté que SAM fonctionne de manière similaire dans les différents groupes. Ensemble, nous espérons que cela rendra notre travail plus équitable pour une utilisation dans le monde réel.

Si SA-1B a rendu nos recherches possibles, il peut également permettre à d'autres chercheurs de former des modèles de base pour la segmentation d'images. Nous espérons également que ces données pourront servir de base à de nouveaux ensembles de données comportant des annotations supplémentaires, telles qu'une description textuelle associée à chaque masque.

Ce que nous réserve l'avenir

En partageant nos recherches et nos données, nous espérons accélérer la recherche sur la segmentation et la compréhension plus générale des images et des vidéos. Notre modèle de segmentation peut effectuer une tâche de segmentation en agissant en tant que composant d'un système plus large. La composition est un outil puissant qui permet à un modèle unique d'être utilisé de manière extensible, potentiellement pour accomplir des tâches inconnues au moment de la conception du modèle. Nous prévoyons que la conception de systèmes composables, rendue possible par des techniques telles que l'ingénierie d'aide, permettra une plus grande variété d'applications que les systèmes formés spécifiquement pour un ensemble fixe de tâches, et que SAM peut devenir un composant puissant dans des domaines tels que l'AR/VR, la création de contenu, les domaines scientifiques et les systèmes d'IA plus généraux.

À l'avenir, nous prévoyons un couplage plus étroit entre la compréhension des images au niveau du pixel et la compréhension sémantique de plus haut niveau du contenu visuel, ce qui permettra de débloquer des systèmes d'intelligence artificielle encore plus puissants.

Source : Meta AI

Et vous ?

Que pensez-vous de cette initiative de Meta ?

D'après vous, quels pourraient-être les risques liés à l'exploitation d'un tel modèle d'IA ?

Voir aussi

Meta développe une IA basée sur un modèle de langage capable d'apprendre à utiliser des outils logiciels externes, et de faire appel à des API externes pour améliorer ses performances

Meta dévoile un nouveau superordinateur d'IA appelé "AI Research SuperCluster", qui devrait devenir le supercalculateur d'IA le plus rapide du monde

Meta annonce Make-A-Video, qui génère de la vidéo à partir de texte, via une description textuelle ou d'une image existante, Make-A-Video peut rendre une vidéo à la demande

Le responsable de l'IA de Meta publie un document sur la création d'une intelligence artificielle "autonome", et suggère que les approches actuelles ne mèneront jamais à une véritable intelligence