Microsoft annonce un nouvel outil destiné à tester le comportement des systèmes d’Intelligence Artificielle
Washington, le 3 juin /QNA/ La société Microsoft a annoncé un nouvel outil destiné à tester le comportement des systèmes d’Intelligence Artificielle (IA) à l’aide de commandes rédigées en langage naturel. Cet outil, baptisé "ASSERT" et publié en source ouverte vise à aider les développeurs et les entreprises à vérifier que les systèmes d’IA respectent les règles et politiques propres à chaque application ou service.
Selon Microsoft, l’outil utilise l’Intelligence Artificielle pour transformer des descriptions en langage naturel en un ensemble complet de tests mesurables et évaluables. Il répond ainsi au besoin croissant des organisations qui s’appuient sur l’IA : il ne suffit plus d’évaluer la performance générale des modèles, il est désormais nécessaire de s’assurer qu’ils se comportent conformément aux exigences spécifiques de chaque produit ou service.
Une fois que le développeur définit les objectifs, politiques ou comportements attendus du système, l’outil convertit ces exigences en une liste organisée de comportements acceptables et inacceptables, puis génère divers scénarios et tests pour vérifier la conformité du système. Les tests sont ensuite exécutés sur le système visé et fournissent des résultats détaillés permettant d’identifier les faiblesses ou les écarts de comportement.
Parmi ses atouts, l’outil peut enregistrer les étapes suivies par le système d’IA lors de l’exécution des tâches, y compris les étapes intermédiaires et l’utilisation d’outils, offrant ainsi aux développeurs une meilleure compréhension des causes des erreurs ou des échecs.
Il est également possible d’ajouter des informations supplémentaires, telles que l’environnement de travail, les outils disponibles ou les contraintes réglementaires, afin d’adapter l’évaluation à la nature de chaque application.
Mme Sarah Bird, la responsable des produits au sein du département d’IA responsable de Microsoft, a déclaré que des évaluations précises sont devenues essentielles pour prendre des décisions éclairées concernant les systèmes d’IA, ajoutant que les organisations ne peuvent juger de la fiabilité de leurs systèmes sans comprendre leur comportement réel.
Elle a précisé que la confiance dans les systèmes exige la mesure d’un grand nombre d’aspects directement liés à la nature de l’application, et que l’outil peut être utilisé à toutes les étapes : développement, lancement et surveillance continue à long terme.
Le lancement de cet outil a lieu dans un contexte où le secteur de l’IA s’oriente de plus en plus vers des outils d’évaluation et de tests plus précis et permanents, à mesure que les capacités des modèles modernes s’accroissent. Ces efforts traduisent une tendance croissante à faire de l’évaluation des systèmes d’IA un processus continu et méthodique, plutôt que de se limiter à des tests initiaux avant la mise sur le marché.
English
Français
Deutsch
Español
русский
हिंदी
اردو