Pas de place Tiananmen dans ERNIE-ViLG, la nouvelle IA chinoise de création d’images


Lorsqu’une démo du logiciel a été publiée fin août, les utilisateurs ont rapidement constaté que certains mots – à la fois des mentions explicites des noms de dirigeants politiques et des mots potentiellement controversés uniquement dans des contextes politiques – étaient qualifiés de « sensibles » et ne pouvaient générer aucun résultat. . Le système chinois sophistiqué de censure en ligne, semble-t-il, s’est étendu à la dernière tendance en matière d’IA.

Il n’est pas rare que des IA similaires empêchent les utilisateurs de générer certains types de contenu. DALL-E 2 interdit les contenus à caractère sexuel, les visages de personnalités publiques ou les images de traitements médicaux. Mais le cas d’ERNIE-ViLG souligne la question de savoir où se situe exactement la frontière entre la modération et la censure politique.

Le modèle ERNIE-ViLG fait partie de Wenxin, un projet à grande échelle de traitement du langage naturel de la principale société chinoise d’intelligence artificielle, Baidu. Il a été formé sur un ensemble de données de 145 millions de paires image-texte et contient 10 milliards de paramètres – les valeurs qu’un réseau de neurones ajuste au fur et à mesure qu’il apprend, que l’IA utilise pour discerner les différences subtiles entre les concepts et les styles artistiques.

Cela signifie qu’ERNIE-ViLG a un ensemble de données d’apprentissage plus petit que DALL-E 2 (650 millions de paires) et Stable Diffusion (2,3 milliards de paires) mais plus de paramètres que l’un ou l’autre (DALL-E 2 a 3,5 milliards de paramètres et Stable Diffusion a 890 millions ). Baidu a publié une version de démonstration sur sa propre plate-forme fin août, puis plus tard sur Hugging Face, la populaire communauté internationale d’IA.

La principale différence entre les modèles ERNIE-ViLG et occidentaux est que celui développé par Baidu comprend les invites écrites en chinois et est moins susceptible de faire des erreurs lorsqu’il s’agit de mots spécifiques à la culture.

Par exemple, un créateur de vidéos chinois a comparé les résultats de différents modèles pour des invites comprenant des personnages historiques chinois, des célébrités de la culture pop et de la nourriture. Il a découvert qu’ERNIE-ViLG produisait des images plus précises que DALL-E 2 ou Stable Diffusion. Après sa sortie, ERNIE-ViLG a également été adopté par ceux qui la communauté des animés japonaisqui a découvert que le modèle pouvait générer un art animé plus satisfaisant que les autres modèles, probablement parce qu’il incluait plus d’anime dans ses données d’entraînement.

Mais ERNIE-ViLG se définira, comme les autres modèles, par ce qu’il permet. Contrairement à DALL-E 2 ou Stable Diffusion, ERNIE-ViLG n’a pas d’explication publiée de sa politique de modération de contenu, et Baidu a refusé de commenter cette histoire.

Lorsque la démo ERNIE-ViLG a été publiée pour la première fois sur Hugging Face, les utilisateurs saisissant certains mots recevaient le message « Mots sensibles trouvés. Veuillez entrer à nouveau (存在敏感词,请重新输入) », ce qui était un aveu étonnamment honnête sur le mécanisme de filtrage. Cependant, depuis au moins le 12 septembre, le message indique « Le contenu saisi ne respecte pas les règles applicables. Veuillez réessayer après l’avoir ajusté. (输入内容不符合相关规则,请调整后再试!) »



Laisser un commentaire