toute l'actu de la 3DS

Nourrir les intelligences artificielles : quels sont les risques pour le futur ?

Illustration centre de commande IA

Nourrir les intelligences artificielles avec des données générées par l’IA, ou « autophagie », est une pratique qui pose des risques importants. Cette approche, peut entraîner un effondrement des modèles, avec des réponses de moins en moins originales jusqu’à devenir complètement dépourvues de sens.

Nourrir les intelligences artificielles : alimenter chatGPT devient problématique

En effet, nourrir les intelligences artificielles avec des données issues d’autres systèmes d’IA fait que les contenus produits deviennent progressivement incohérents, un phénomène mis en évidence par plusieurs études scientifiques. Les modèles d’IA, tels que ceux utilisés pour les outils générateurs comme ChatGPT, nécessitent un entraînement sur une vaste quantité de données.  Ces données, souvent récoltées sur le web, incluent de plus en plus d’images et de textes créés par l’IA elle-même qui viennent nourrir les intelligences artificielles diverses. Ainsi, nourrir les intelligences artificielles avec des données générées par l’IA peut provoquer une réduction de la richesse des échantillons utilisés pour entraîner ces modèles.

Données synthétiques : Dall-E et d’autres outils similaires également impactés

En effet, l’article publié fin juillet dans la revue Nature souligne que nourrir les intelligences artificielles avec ses propres données entraîne un risque de perte de qualité des réponses fournies par les modèles. L’utilisation de données synthétiques pour nourrir les intelligences artificielles, réduit la diversité et la richesse des informations sur lesquelles les IA s’appuient, conduisant à une qualité de sortie dégradée, semblable à celle d’une image dégradée par des impressions successives. Des recherches menées par les universités de Rice et Stanford ont confirmé cette tendance en analysant les modèles générateurs d’images tels que Midjourney, Dall-E et Stable Diffusion.

Autophagie et risque : une maladie qui commence à toucher la filière de l’IA

Nourrir les intelligences artificielles avec ses propres données a été comparé à la maladie de la « vache folle », une crise qui avait frappé l’industrie de la viande dans les années 90 à cause de la consommation de farines animales contaminées. Malgré ces préoccupations, les entreprises d’IA continuent d’utiliser des données synthétiques pour nourrir les intelligences artificielles en raison de leur coût réduit et de leur abondance. Jathan Sadowski, chercheur à l’université Monash, souligne que les données humaines de haute qualité et exploitables par les machines deviennent rares et nourrir les intelligences artificielles devient alors plus difficile.

Avenir du modèle de langage conversationnel : tout n’est pas encore perdu

Richard Baraniuk, co-auteur de l’article de l’université Rice, avertit que le manque de contrôle sur les informations pourrait nuire gravement à la qualité des informations disponibles sur Internet. Pour certains experts, cependant, le problème sur le fait de nourrir les intelligences artificielles comme chatGPT par ses données propres est exagéré. Anton Lozhkov, ingénieur chez Hugging Face, affirme que le risque d’entraînement des modèles sur des séries multiples de données synthétiques est peu fréquent en pratique. Il reconnaît néanmoins les défis posés par la qualité du web et les efforts nécessaires pour nettoyer les données collectées et nourrir les intelligences artificielles. Il faut parfois éliminer jusqu’à 90% des informations pour nourrir les intelligences artificielles.

Avec ETX Dailyup