- AI Brew
- Posts
- La course aux données d’entraînement pour l’IA
La course aux données d’entraînement pour l’IA
Et aussi : The iPhone of AI, et l’IA sur Spotify et Brave
Hello 👋
Cette semaine, nous allons parler de :
La quête controversée d'OpenAI pour des données d’entraînement à partir de vidéos YouTube
L'initiative audacieuse de Jony Ive et Sam Altman pour un appareil d'IA révolutionnaire
Les nouvelles fonctionnalités d'IA de Spotify et Brave
Et quelques autres actus IA croustillantes
Bonne lecture !
🔮 OpenAI, YouTube et la quête controversée de données
Image : Générée via Dall-E
🔍 En résumé : OpenAI a transcrit plus d'un million d'heures de vidéos YouTube pour former ses modèles, malgré les questions sur les droits d'auteur. La disponibilité de données d'entraînement de haute qualité devient un défi croissant pour les entreprises d'IA.
Le contexte : la course des géants technologiques pour acheter des données d'entraînement
Des entreprises comme Google, Meta et Microsoft négocient des accords de licence pour utiliser des milliards de photos et de vidéos afin de former des modèles d'IA génératifs.
Ce marché en plein essor soulève des préoccupations sur la confidentialité des données personnelles et l'utilisation non autorisée de contenus.
Des accords de licence ont été conclus avec des fournisseurs de contenu tels que Shutterstock et Freepik pour alimenter l'entraînement des modèles d'IA.
D’après les estimations de Business Research Insights, le marché des données d'IA est estimé à environ 2,5 milliards de dollars et sa croissance future est prévue à près de 30 milliards de dollars d'ici une décennie.
Le défi de l'innovation ou la ligne rouge de l'éthique?
OpenAI a fait un choix que l’on pourrait qualifier… d’audacieux ! Ils ont utilisé les transcriptions de plus d'un million d'heures de vidéos YouTube pour entraîner ses modèles (sûrement GPT-4 et Sora pour la vidéo). À première vue, cela peut sembler être une simple “démarche d'innovation”. Cependant, quand on y regarde de plus près, cette stratégie soulève des questions éthiques profondes. Dans l'arène où s'affrontent des géants tels qu'OpenAI/Microsoft, Google, Meta, cette approche n'est pas qu'une question de technologie. C’est une question de stratégie, de pouvoir, et d’avantages concurrentiels. Et ils se pourrait bien que cet usage massif des données de YouTube soit la source d’un scandale.
Retour en arrière. Il y a trois semaines, Mira Murati, la CTO d’OpenAI était interviewée par une journaliste du Wall-Street Journal à propos de Sora (le futur super modèle d’OpenAI dédié à la génération de vidéos), quand soudain la question des données d’entraînement est posée. La journaliste commence par demander si YouTube a été utilisé pour entraîner les modèles d’OpenAI… et voici l’expression de Mira Murati :
Image : YouTube
Cette photo, c’est l’illustration du malaise. Murati botte alors en touche sur toutes les questions liées aux données d’entraînement, dit qu’elle n’est pas certaine, qu’elle ne peut pas donner plus d’informations, mais rassurez-vous les sources utilisées étaient “publiquement disponibles” ! Le scraping de contenu YouTube par OpenAI peut sembler anodin, mais c'est une pratique qui se trouve en terrain juridiquement contestable. Google a déjà exprimé son mécontentement face à de telles pratiques, et il est peu probable que la situation en reste là. Avec des enjeux stratégiques en jeu, cette tension pourrait déboucher sur une confrontation significative entre OpenAI et Google.
Une question de valeur et de rémunération
Ce qui se joue ici va au-delà de la technique : c'est une question de valeur. Les données ne sont pas juste des “données” ; elles sont souvent le produit du travail créatif de milliers de personnes. Qu'en est-il de la rémunération pour ces créateurs dont le contenu est utilisé pour entraîner des modèles d'IA à grande échelle ? OpenAI et d'autres entreprises du domaine vont devoir affronter ces questions délicates sur la rémunération et la reconnaissance de la valeur des données. Et pour le moment, c’est tabou.
La question de la rémunération des artistes sur les données d’entraînement avait été posée quelques semaines auparavant au vice-président d’OpenAI à SXSW 2024 et celui-ci avait tout simplement refusé de répondre. Le moins que l’on puisse dire, c’est que le sujet est complexe et suscite le débat. Mais ce n’est sans doute pas une mauvaise chose de se poser toutes ces questions.
Transparence, éthique dans l'entraînement des IA et le futur des entraînements de modèles
L'heure est à la transparence. Les entreprises comme OpenAI doivent être plus “open” sur la manière dont elles entraînent leurs modèles : quelles données sont utilisées, quelles mesures sont prises pour atténuer les biais, et quelles sont les implications éthiques de leurs choix. Le tout, sans dévoiler leur secret sauce. Cette transparence est cruciale pour maintenir la confiance du public et assurer une évolution responsable de l'IA.
Maintenant que le web a été largement exploité, trouver des données nouvelles et de qualité pour entraîner les prochaines générations de modèles d'IA représente un défi majeur. Les partenariats avec des entités comme Axel Springer, Le Monde et Prisa Media, permettant l'accès à des contenus fiables et de haute qualité, illustrent une possible voie à suivre. Pour soutenir le développement futur des IA, les entreprises devront peut-être ouvrir leur portefeuille pour accéder à des données premium, soulignant ainsi l'importance cruciale de la qualité des données dans l'avenir de l'IA.
La démarche d'OpenAI suscite des points fondamentaux sur l'avenir de l'IA et notre rapport aux données. La question qui se pose est la suivante : comment assurer un avenir où la technologie avance sans compromettre les principes éthiques et la juste valeur du travail créatif. Allez, vous avez 3h 🤓
📢 News
iPhone de l'IA : Jony Ive, Sam Altman recherchent un investissement d'un milliard de dollars pour un appareil IA révolutionnaire
Deux personnalités renommées de l'industrie cherchent à obtenir un financement de 1 milliard de dollars pour leur projet révolutionnaire d'appareil d'intelligence artificielle. Le "iPhone of AI" est une collaboration entre l'ancien designer d'Apple, Jony Ive, et le PDG d'OpenAI, Sam Altman. Ils envisagent un appareil alimenté par l'IA qui se démarquera du design traditionnel des smartphones. À suivre…
La dernière fonctionnalité d'IA de Spotify crée des playlists basées sur des descriptions textuelles
Image : Spotify
Spotify lance une fonctionnalité bêta qui permet aux abonnés Premium de créer des playlists basées sur des descriptions textuelles. Les utilisateurs peuvent saisir des prompts pour obtenir une playlist de 30 chansons correspondant à l'ambiance souhaitée. Cette fonctionnalité offre une expérience amusante et facilite la découverte de nouvelles chansons. Cependant, il y a certaines limitations, et on pourrait craindre que cela contribue à justifier une future augmentation des prix de Spotify.
Brave lance son assistant AI sur iPhone et iPad
Image : Brave
Brave lance son assistant IA sur iPhone et iPad. L'assistant permet aux utilisateurs de poser des questions, résumer des pages, créer du contenu, etc. La version iOS introduit la fonctionnalité de conversion vocale en texte, facilitant ainsi l'interaction avec l'IA. Brave, qui est très optimiste, espère que les utilisateurs n'auront plus besoin de recourir à ChatGPT ou à d'autres services similaires. L'assistant est disponible pour tous les utilisateurs iOS. Il s'agit d'une fonctionnalité facultative et peut être désactivée via les paramètres de l'application.
L'IA de Meta a du mal à générer des images de couples mixtes. Prochaine polémique en vue ?
Image : The Verge
L'IA générative de Meta rencontre des difficultés à générer des images de couples mixtes, suscitant des polémiques. Malgré des demandes explicites, les images produites ne représentent pas toujours des couples de différentes ethnies. D'autres biais ont également été observés, tels que des différences d'âge entre l'homme et la femme et des caractérisations culturelles basées sur l'ethnie. Meta devra sûrement ajuster son IA avant un déploiement international afin d’éviter le même genre de déboires que ceux connus par Google Gemini il y a quelques semaines.
L'« année de l'entreprise » d'OpenAI comprend de nouveaux outils pour augmenter la précision de l'IA
Image: OpenAI
OpenAI propose de nouvelles options de personnalisation pour l'API GPT-4, permettant aux clients d'entreprise d'obtenir une précision accrue avec des modèles d'IA générative. Ces options incluent la connexion à des plateformes tierces, la fonctionnalité de finetuning revue, ainsi qu’une nouvelle interface utilisateur. OpenAI prévoit une croissance considérable dans le secteur des entreprises en 2024.
Apple travaille secrètement sur un robot IA qui vous suit partout dans la maison
Apple développerait secrètement un robot IA capable de vous suivre chez vous. Le projet est en cours avec l'objectif de trouver de nouvelles sources de revenus après l’abandon du projet de voiture électrique. Les détails sont nébuleux, mais cela semble être une tentative de rester pertinent.
Le Gemini 1.5 Pro de Google peut maintenant entendre
Google a mis à jour le modèle Gemini 1.5 Pro, permettant à ce dernier d'entendre et d'analyser des fichiers audio sans transcription. Cette version supérieure du modèle Gemini est également disponible sur Vertex AI, offrant des applications d'IA. Gemini 1.5 Pro surpasse le modèle Gemini Ultra en termes de performances et de compréhension des instructions complexes. De plus, Imagen 2, le modèle de génération texte-image de Google, propose de nouvelles fonctionnalités pour modifier les images. Google prévoit également de lier les réponses de Gemini avec Google Search pour obtenir des informations à jour. Décidément, on ne chôme pas chez Google en ce moment !
Google envisagerait l’usage de paywall pour des fonctionnalités IA
Google envisage de facturer certains contenus premium générés par l'intelligence artificielle. La société révise son modèle économique et envisage de mettre une partie de ses produits principaux derrière un paywall. Il s'agit de la première fois que Google facturerait du contenu. Le moteur de recherche resterait gratuit, mais des fonctionnalités de recherche alimentées par l'IA pourraient être ajoutées aux services d'abonnement premium. Cependant, aucune décision finale n'a encore été prise.
🇫🇷 & 🇪🇺
Le gouvernement français lance un appel à projets de plusieurs millions d'euros pour développer des applications d'intelligence artificielle générative. L'objectif est de trouver des champions français de l'IA et de permettre la réplication des outils développés. Priorité est donnée aux domaines du droit, de la santé, du chiffre et de la programmation informatique. Cette initiative fait suite au rapport qui recommandait un investissement annuel de 5 milliards d'euros sur cinq ans pour rester compétitif.
A quoi ressemble la chaîne de valeur de l'IA générative en Europe ?
L'étude "Des puces aux applications, l'Europe peut-elle être une puissance de l'IA générative?" décrypte la chaîne de valeur de l'IA générative en Europe. Elle souligne les interdépendances entre les acteurs et identifie les forces et faiblesses. L'Europe excelle dans certains domaines, mais doit renforcer son infrastructure et son approvisionnement en matériaux rares. Il est possible de réduire l'interdépendance en renforçant chaque couche de la chaîne de valeur au niveau européen. Une vision politique et réglementaire adaptée est nécessaire pour atteindre la souveraineté européenne en matière d'IA. Les élections européennes et américaines seront cruciales pour l'avenir. La France est cependant bien positionnée pour devenir le leader européen de l'IA générative.
🗓️ Prochains évènements IA
17/04 - Station F AI X SWES Clubs Meetup
23/04 - Computer Vision Meetup Paris #30
🙏 Merci de nous lire. À la prochaine !
Pierre + 🤖
Comment le gouvernement veut dénicher les futurs champions français de l’IA