Artwork

Content provided by Choses à Savoir. All podcast content including episodes, graphics, and podcast descriptions are uploaded and provided directly by Choses à Savoir or their podcast platform partner. If you believe someone is using your copyrighted work without your permission, you can follow the process outlined here https://ro.player.fm/legal.
Player FM - Aplicație Podcast
Treceți offline cu aplicația Player FM !

GPT-4 : des millions d’heures de vidéo YouTube pour entraîner l’IA ?

2:11
 
Distribuie
 

Manage episode 411788898 series 2709331
Content provided by Choses à Savoir. All podcast content including episodes, graphics, and podcast descriptions are uploaded and provided directly by Choses à Savoir or their podcast platform partner. If you believe someone is using your copyrighted work without your permission, you can follow the process outlined here https://ro.player.fm/legal.

Si les systèmes d'intelligence artificielle comme ChatGPT nous semblent si exceptionnels aujourd’hui, c'est en essentiellement parce qu’ils ont ingéré durant plusieurs années des quantités astronomiques de données, pour pouvoir s'entraîner. Problème, ces données ne sont pas toujours du domaine public, bien au contraire, et depuis plusieurs mois, on ne cesse de voir fleurir des scandales mêlant l’IA et la violation du droit d’auteur. D’ailleurs, les IA auraient récemment fini de siphonner les données écrites à disposition sur internet, et se tourneraient désormais vers un autre format : la vidéo, notamment sur Youtube !


Ce n’est pas pour rien que le New-York Times, journal américain renommé, est depuis de nombreux mois en conflit ouvert avec OpenAI. Ainsi, dans une nouvelle enquête à charge contre l’entreprise de Sam Altman, le média révèle qu'OpenAI aurait récupéré près d'1 million d'heures de vidéos YouTube afin de développer son modèle de langage GPT-4. Pour ce faire, l'entreprise californienne aurait utilisé son outil Whisper, qui permet notamment de transcrire des audios et des vidéos en texte, pour récupérer les contenus sous format texte, pouvant ensuite être ingérés par GPT-4. Car comme le précise un autre journal bien connu, le Wall Street Journal, les entreprises spécialisées dans l'IA seraient en ce moment à court de données de qualité pour améliorer leurs systèmes.


De son côté, le New York Times estime qu'OpenAI était arrivé au bout de données de qualité disponibles pour ses IA dès 2021. À cette époque, des discussions auraient déjà vu le jour sur la possibilité de se tourner vers d’autres ressources telles que les vidéos, les audiobooks ou encore les podcasts, ce que la firme a visiblement fait en se tournant vers Youtube. D’après le sire spécialisé The Verge qui a contacté Google, la maison mère de YouTube aurait eu vent je cite de « rapports non confirmés indiquant une activité d'OpenAI sur sa plateforme » fin de citation. Le porte-parole Matt Bryant a par ailleurs tenu à rappeler je cite que « les fichiers robots.txt et les conditions d'utilisation interdisent le scraping ou le téléchargement non autorisé du contenu de YouTube » fin de citation. Est-ce à dire qu’Open AI pourrait se retrouver devant la justice, mais cette fois dans un procès contre Google ?



Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.

  continue reading

1238 episoade

Artwork
iconDistribuie
 
Manage episode 411788898 series 2709331
Content provided by Choses à Savoir. All podcast content including episodes, graphics, and podcast descriptions are uploaded and provided directly by Choses à Savoir or their podcast platform partner. If you believe someone is using your copyrighted work without your permission, you can follow the process outlined here https://ro.player.fm/legal.

Si les systèmes d'intelligence artificielle comme ChatGPT nous semblent si exceptionnels aujourd’hui, c'est en essentiellement parce qu’ils ont ingéré durant plusieurs années des quantités astronomiques de données, pour pouvoir s'entraîner. Problème, ces données ne sont pas toujours du domaine public, bien au contraire, et depuis plusieurs mois, on ne cesse de voir fleurir des scandales mêlant l’IA et la violation du droit d’auteur. D’ailleurs, les IA auraient récemment fini de siphonner les données écrites à disposition sur internet, et se tourneraient désormais vers un autre format : la vidéo, notamment sur Youtube !


Ce n’est pas pour rien que le New-York Times, journal américain renommé, est depuis de nombreux mois en conflit ouvert avec OpenAI. Ainsi, dans une nouvelle enquête à charge contre l’entreprise de Sam Altman, le média révèle qu'OpenAI aurait récupéré près d'1 million d'heures de vidéos YouTube afin de développer son modèle de langage GPT-4. Pour ce faire, l'entreprise californienne aurait utilisé son outil Whisper, qui permet notamment de transcrire des audios et des vidéos en texte, pour récupérer les contenus sous format texte, pouvant ensuite être ingérés par GPT-4. Car comme le précise un autre journal bien connu, le Wall Street Journal, les entreprises spécialisées dans l'IA seraient en ce moment à court de données de qualité pour améliorer leurs systèmes.


De son côté, le New York Times estime qu'OpenAI était arrivé au bout de données de qualité disponibles pour ses IA dès 2021. À cette époque, des discussions auraient déjà vu le jour sur la possibilité de se tourner vers d’autres ressources telles que les vidéos, les audiobooks ou encore les podcasts, ce que la firme a visiblement fait en se tournant vers Youtube. D’après le sire spécialisé The Verge qui a contacté Google, la maison mère de YouTube aurait eu vent je cite de « rapports non confirmés indiquant une activité d'OpenAI sur sa plateforme » fin de citation. Le porte-parole Matt Bryant a par ailleurs tenu à rappeler je cite que « les fichiers robots.txt et les conditions d'utilisation interdisent le scraping ou le téléchargement non autorisé du contenu de YouTube » fin de citation. Est-ce à dire qu’Open AI pourrait se retrouver devant la justice, mais cette fois dans un procès contre Google ?



Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.

  continue reading

1238 episoade

Toate episoadele

×
 
Loading …

Bun venit la Player FM!

Player FM scanează web-ul pentru podcast-uri de înaltă calitate pentru a vă putea bucura acum. Este cea mai bună aplicație pentru podcast și funcționează pe Android, iPhone și pe web. Înscrieți-vă pentru a sincroniza abonamentele pe toate dispozitivele.

 

Ghid rapid de referință