Une étude souligne que sur 178 références citées par une IA, 69 renvoyaient à des références incorrectes ou inexistantes. GoldenDayz/ShutterstockLe rapport entre intelligence artificielle et emploi nécessite de repenser en profondeur l’analyse des tâches dans une entreprise. Il se joue à deux niveaux : dans la compréhension des chaînes de valeur de l’entreprise et dans la capacité des dirigeants à l’appréhender. L’enjeu ? Identifier avec précision où et comment injecter l’IA. Car celle-ci peut m
Une étude souligne que sur 178 références citées par une IA, 69 renvoyaient à des références incorrectes ou inexistantes.GoldenDayz/Shutterstock
Le rapport entre intelligence artificielle et emploi nécessite de repenser en profondeur l’analyse des tâches dans une entreprise. Il se joue à deux niveaux : dans la compréhension des chaînes de valeur de l’entreprise et dans la capacité des dirigeants à l’appréhender. L’enjeu ? Identifier avec précision où et comment injecter l’IA. Car celle-ci peut mentir, inventer des références et se tromper.
Les sombres prédictions sur la disparition des emplois intellectuels d’entrée de carrière alimentent un débat déjà ancien sur la fongibilité du travail face aux avancées de l’intelligence artificielle (IA) – soit le remplacement d’un emploi par un autre.
L’enjeu pour l’intelligence artificielle est de dépasser l’identification par catégorie des emplois, et plus finement des tâches automatisables, pour comprendre leur position stratégique dans la chaîne de création de valeur.
Encore aujourd’hui, l’essentiel des études sur l’impact de l’IA dans le domaine procède par décomposition : identifier des tâches, évaluer la capacité de celles-ci à être automatisées, agréger les résultats. Cette méthodologie, héritée de Carl Benedikt Frey et Michael Osborne, qui estimaient que l’automatisation présentait un risque pour 47 % des emplois, comprend des limites.
Alors où et comment l’IA peut-elle avoir une valeur ajoutée dans l’entreprise ? Comment les dirigeants peuvent-ils s’en emparer pour être le meilleur architecte des interactions homme-machine ? Comment accompagner cette transition ?
Scandale Deloitte Australie
Le scandale Deloitte d’octobre 2025 illustre cette problématique. Deloitte Australie a dû rembourser partiellement une facture de 440 000 dollars australiens (environ 248 000 euros). Pourquoi ? Un rapport commandé par le gouvernement s’est révélé avoir été produit avec Azure OpenAI GPT-4o… sans divulgation initiale.
Le travail contenait des références académiques inexistantes, des citations inventées, et des experts fictifs. Qui plus est, une fois ces problèmes détectés, le cabinet a substitué aux fausses références d’autres bien réelles, qui ne soutenaient pas les conclusions initiales du document.
Deloitte avait été choisi, non pas pour ses capacités rédactionnelles, mais parce qu’il apportait une assurance d’expertise indépendante, une garantie de fiabilité des sources, un engagement de responsabilité professionnelle. En automatisant sans contrôle, le cabinet a détruit précisément ce pour quoi il était payé.
Cette asymétrie révèle que la « valeur » d’une tâche dépend autant de sa place dans la chaîne de production que de son « rôle » à l’égard des autres tâches, de la manière dont elle les influence.
L’impact délétère de l’usage de l’IA dans ce type de contexte a été illustré par le cas de l’assistant médical Nabla. Fin 2024, l’outil proposé par cette société permettant une prise de note automatisée dans le domaine médical avait été utilisé par plus de 230 000 médecins et 40 organisations de santé. Il avait permis la transcription de 7 millions de consultations.
La première dimension concerne la dépendance opérationnelle, c’est-à-dire la façon dont la qualité d’une tâche impacte les tâches suivantes. Une forte dépendance, comme l’extraction de données servant à définir une stratégie, exige la prudence car les erreurs se propagent dans toute la chaîne. À l’inverse, une faible dépendance, comme la simple mise en forme d’un document, tolère mieux l’automatisation.
La troisième dimension concerne la réversibilité, soit la capacité à corriger rapidement une erreur. Les tâches à faible réversibilité, comme un diagnostic médical préopératoire ou la gestion d’infrastructures critiques, exigent une supervision humaine forte, car une erreur peut avoir des conséquences graves. Les tâches réversibles, comme les brouillons ou l’exploration de pistes, acceptent davantage d’autonomie.
Quatre interactions avec une IA
Ces trois dimensions dessinent quatre modalités d’interaction avec l’IA, recommandées en fonction des tâches à effectuer.
L’automatisation est recommandée pour les tâches peu interdépendantes, réversibles et codifiables, comme la mise en forme, l’extraction de données ou les premiers jets.
La collaboration humain-machine convient aux situations de dépendance modérée, mais de haute réversibilité, où les erreurs peuvent être gérées, comme l’analyse exploratoire ou la recherche documentaire.
Certaines tâches demeurent du ressort exclusif de l’humain, du moins pour l’heure. Il s’agit notamment des décisions stratégiques qui cumulent une forte interdépendance des tâches, une part importante de connaissance non codifiable issue de l’expérience et une faible réversibilité des choix effectués.
Le chatbot de relation client d’Air Canada a commis des erreurs de tarification.Miguel Lagoa/Shutterstock
La supervision inversée s’impose lorsque l’IA produit, mais que l’humain doit valider systématiquement, notamment en cas de forte dépendance ou de faible réversibilité. Le cas Air Canada montre que lâcher la bride à une IA dans un tel contexte est hautement dommageable. Ici, le chatbot de la compagnie aérienne avait affirmé qu’on pouvait demander rétroactivement un tarif spécifique lié à des évènements familiaux, ce qui s’est révélé totalement faux.
Attaquée en justice par le passager qui s’estimait trompé, la compagnie a été condamnée au motif qu’elle était l’entité responsable de l’IA et de son usage. Or, elle ne la supervisait pas. L’impact financier de cette condamnation peut sembler faible (le remboursement du passager), mais le coût tant en termes de réputation que pour l’actionnaire est loin d’avoir été négligeable.
Quatre compétences clés pour un manager
Chaque chaîne de valeur rassemble une grande variété de tâches qui ne se distribuent pas selon une logique uniforme : les quatre modalités d’automatisation se retrouvent entremêlées de manière hétérogène.
Le manager devient alors l’architecte de ces chaînes de valeur hybrides, et doit développer quatre compétences clés pour les piloter efficacement.
Il lui faut maîtriser l’ingénierie de workflows cognitifs, c’est-à-dire identifier avec précision où et comment injecter l’IA de manière optimale dans les processus.
Il doit être capable de diagnostiquer les interdépendances opérationnelles propres à chaque contexte, plutôt que d’appliquer mécaniquement des grilles d’analyse externes focalisées uniquement sur le coût du travail.
« Désintermédiation cognitive » : il s’agit d’orchestrer les nouveaux rapports au savoir créés par l’IA tout en préservant la transmission des compétences tacites qui font la richesse d’une organisation.
Le manager doit porter une éthique de la substitution, en arbitrant constamment entre l’efficience immédiate qu’offre l’automatisation et la préservation du capital humain sur le long terme.
Les dimensions analytiques présentées ici offrent précisément un cadre pour dépasser les approches simplistes. Elles permettent de positionner le management dans un rôle nouveau : celui d’arbitre et d’urbaniste cognitif, capable de concevoir l’architecture des interactions humain-machine au sein de l’organisation.
Bien conduite, cette transformation peut enrichir l’expérience humaine du travail, au lieu de l’appauvrir.
Caroline Gans Combe a reçu des financements de l'Union Européenne dans le cadre de ses projets de recherche.
La transcription audio peut-elle vraiment atteindre la vitesse de la conversation humaine ? Gladia affirme que oui, avec 270 ms de latence en réponse à des besoins qui explosent dans un environnement où chaque seconde compte. Voyons jusqu’à quelle mesure cette plateforme tient sa promesse.
Qu’est-ce que Gladia ?
La société Gladia, fondée par Loïc Barbou en 2022, s’impose comme un acteur français spécialisé dans la fourniture d’une interface API dédiée à la transcription et à l’inte
La transcription audio peut-elle vraiment atteindre la vitesse de la conversation humaine ? Gladia affirme que oui, avec 270 ms de latence en réponse à des besoins qui explosent dans un environnement où chaque seconde compte. Voyons jusqu’à quelle mesure cette plateforme tient sa promesse.
Qu’est-ce que Gladia ?
La société Gladia, fondée par Loïc Barbou en 2022, s’impose comme un acteur français spécialisé dans la fourniture d’une interfaceAPI dédiée à la transcription et à l’intelligence audio. Elle propose une solution de speech-to-text (STT) conçue pour le traitement de l’audio et de la vidéo.
En tout cas, les prestations de Gladia se distingue par une précision élevée et une rapidité notable. La marque offre aussi des capacités multilingues étendues. L’entreprise répond, par ailleurs, aux besoins d’analyse d’interactions vocales à grande échelle, notamment pour les opérations critiques.
La plateforme française Gladia excelle dans la transcription en temps réel et dans la séparation claire des interlocuteurs au sein d’une conversation. Destiné aux dévéloppeurs, sa technologie assure des performances low-latency dans des contextes exigeants. Son architecture repose sur un modèle open-weight, baptisé Whisper-Zero, optimisé pour les environnements de production d’entreprise.
Les technologies de transcription déployées par Gladia
Moteur conçu pour la rapidité
Le moteur real-time engine de Gladia repose sur le modèle de reconnaissance vocale Solaria ASR. Ce système a été conçu pour l’ultra-low latency et enregistre un TTFB de 270 ms. L’architecture interne Whisper-Zero, basée sur une refonte du modèle Whisper d’OpenAI, réduit drastiquement les erreurs de type « hallucination » observées dans d’autres modèles.
Cette optimisation technique assure une précision essentielle lors du traitement de données sensibles. Les résultats des benchmark results indiquent un taux de précision standard de 94 % pour la reconnaissance des mots.
Couverture linguistique étendue
La société propose un multilingual support couvrant plus de 100 langues et dialectes. Le moteur gère le code switching avec fluidité et traite les conversations où plusieurs langues se mélangent. Cette couverture inclut 42 langues rarement prises en charge par les concurrents. L’outil offre aussi l’instant translation, rendant les échanges accessibles à l’échelle mondiale. Ces fonctionnalités accélèrent l’adoption globale auprès des entreprises présentes à l’international.
Analyse contextuelle en temps réel
Le processus de speaker diarization identifie et sépare distinctement les locuteurs dans un enregistrement audio. Chaque prise de parole reçoit un indice de locuteur précis (speaker field) dans l’interface de programmation applicative.
Ainsi, Gladia propose une analyse de contexte en temps réel lors d’un appel ou d’une réunion. Cette analyse inclut la sentiment detectionet l’extraction d’entités nommées. Ces outils transforment l’audio brut en données immédiatement exploitables par l’utilisateur final.
Infrastructure certifiée et évolutive
L’entreprise souligne sa cloud infrastructure conforme aux règles européennes de confidentialité. La certification RGDP constitue une garantie pour les clients opérant dans l’Union Européenne. La solution détient aussi les certifications HIPAA et AICPA SOC Type 2 pour confirmer sa capacité à gérer des informations critiques.
Ces accréditations positionnent la plateforme comme une solution enterprise-ready adaptée aux données sensibles. Ensuite, la plateforme assure une scalability capable de soutenir des volumes massifs d’appels ou de réunions sans perte de performance. Abonnez-vous à notre chaîne YouTube pour découvrir d’autres outils IA indispensables pour l’audio et la vidéo !
Quelles solutions concrètes Gladia offre-t-elle aux entreprises ?
Gladia déploie sa plateforme modulaire via une API unique pour fournir des fonctionnalités audio et conversationnelles avancées.
Transcription en temps réel
Le service offre la transcription en direct pour tous les flux audio continus. Les usages concernent notamment les médias, l’éducation et les centres de contact à haute performance. La solution assure également une intégration complète avec les protocoles de téléphonie standards comme SIP et VoIP. Le système gère plusieurs canaux audio et fournit des transcriptions partielles instantanées. De plus, l’interface de programmation garantit la stabilité et maintient la performance, même lors de volumes élevés.
L’atout principal de Gladia repose dans la rapidité d’exécution associée à la précision du moteur Solaria. Cette vitesse déclenche surtout des actions immédiates et supprime les post-traitements lourds. L’extraction d’informations clés s’effectue en temps réel au fil de la conversation. Le service améliore ainsi l’accessibilité des échanges et des contenus en direct pour un public élargi. Cela se traduit, d’ailleurs, par une hausse nette de la productivité des agents et des utilisateurs finaux.
Traduction et sous-titrage
La plateforme intègre des fonctions de traduction instantanée dans plus de 100 langues. Elle génère automatiquement des sous-titres pour les contenus vidéo. Ces sous-titres bénéficient de la précision du modèle Solaria. Des acteurs comme VEED.io utilisent cette intégration pour simplifier l’édition vidéo. Le moteur gère l’alignement et la synchronisation avec le flux temporel de la vidéo source.
Le sous-titrage automatisé réduit les coûts et les délais de production de contenu médiatique. Cela garantit une meilleure accessibilité pour les contenus numériques diffusés. La traduction instantanée accélère l’internationalisation des communications d’entreprise. Les sociétés élargissent ainsi leur portée mondiale en franchissant les barrières linguistiques. Cette fonction couvre aussi la traduction de données asynchrones et de fichiers préenregistrés.
Analyse conversationnelle
L’analyse de conversation extrait des enseignements exploitables des échanges vocaux. Elle inclut la détection automatique des thèmes et des points bloquants. La détection des sentiments fournit une évaluation émotionnelle immédiate de l’appel. L’intelligence audio intègre aussi le résumé automatique du contenu. Elle structure en outre les longues conversations grâce au chapitrage dynamique.
Les usages renforcent lesupport clientdes centres de contact, car les agents reçoivent une assistance en temps réel selon le sentiment détecté. L’analyse génère aussi des enseignements de réunion utiles pour les comptes-rendus et l’amélioration continue. Ces données enrichissent donc la recherche qualitative et l’analyse comportementale de marché. La fiabilité repose cependant sur la précision du modèle Solaria pour la reconnaissance vocale.
Solutions sur-mesure et API
L’intégration s’appuie sur un kit de développement léger disponible pour les habitués du langage Python et JavaScript. L’accès aux fonctions passe par des appels API standardisés via REST ou WebSocket, tandis que l’architecture reste compatible avec les plateformes de CCaaS et les outils collaboratifs majeurs. La solution cible aussi l’enrichissement des CRM et des plateformes d’activation commerciale. La mise en place s’effectue rapidement, avec une configuration complète en moins d’une journée.
L’adoption en entreprise progresse grâce à cette rapidité et à la simplicité du déploiement. Plus de 250 000 développeurs utilisent déjà la technologie Gladia, ce qui confirme la robustesse et l’adaptation aux développeurs de la plateforme. Les intégrations SaaS favorisent par ailleurs l’automatisation des flux de travail métier. Le modèle gère enfin les environnements téléphoniques complexes, y compris le bruit ambiant.
Notre avis sur Gladia reste généralement positif
Compatibilité et intégration technique
Premier point positif, Gladia assure un support multiplateforme pour divers environnements numériques et systèmes d’exploitation. L’usage d’un kit de développement léger simplifie l’implémentation de la solution. L’API unique reste compatible avec la majorité des piles technologiques utilisées dans les entreprises. Elle s’adapte aussi aux infrastructures téléphoniques traditionnelles comme SIP et VoIP.
Adoption et reconnaissance du marché
Le taux d’adoption rapide observé depuis 2022 illustre la maturité technique de la solution. La plateforme a bénéficié d’une couverture médiatique positive dans la presse spécialisée. L’entreprise collabore avec de nombreux clients professionnels dans des secteurs réglementés.
Plus de 250 000 développeurs valident déjà la performance de cette technologie. On retrouve notamment des utilisateurs dans les domaines de la finance et de la santé, où la fiabilité des données est essentielle. Le secteur des médias et celui des services clients exploitent également Gladia pour optimiser la gestion de leurs flux audio.
Précision et performance mesurée
Les résultats de tests comparatifs placent Gladia parmi les leaders du marché en matière de précision. Le taux de reconnaissance atteint 94 % de WAR dans les langues courantes et complexes. Cette précision s’avère essentielle pour le traitement des données financières et légales sensibles. L’efficacité se renforce grâce à une faible latence de 270 ms TTFB. Cela accélère le traitement audio de 50 % par rapport à d’autres solutions.
Tarification et accessibilité
La société propose une offre gratuite de 10 heures de transcription mensuelle. Cette formule initiale rend la solution accessible aux petites équipes et adaptée aux développeurs. Les plans tarifaires évolutifs incluent aussi des options premium destinées aux entreprises gérant de très grands volumes. La tarification repose uniquement sur l’usage réel, sans frais cachés. Ce modèle de diffusion contribue à la démocratisation des technologies vocales avancées.
Améliorations possibles pour l’outil de transcription
Notre analyse met en lumière quelques rares points d’attention. La tarification devient élevée lorsque les volumes de transcription augmentent, alors que l’entreprise devrait appliquer une règle contraire. Cette contradiction réduit l’accessibilité pour les petites structures. L’intégration initiale exige aussi des compétences techniques, malgré la présence d’un kit de développement léger.
Nous avons constaté des difficultés ponctuelles de stabilité lors de charges importantes, notamment dans les environnements téléphoniques complexes. La documentation gagnerait également à être plus détaillée afin de faciliter la prise en main. La précision reste solide sur les langues courantes, mais elle diminue légèrement sur les langues moins répandues. Ces constats montrent que la solution conserve une performance notable.
Perp DEXs are crypto's hottest sector in 2025, with volumes exploding and tokens pumping like it's 2021 all over again. Google searches for "top perp DEXs" are spiking, fueled by Twitter mania: @Zynweb3's Aster volume flip (274 likes), @CoinMarketCap's fee rankings (562 likes), and endless "$ASTER to $10" calls. Hyperliquid set the bar, Aster ignited the FOMO—but who's leading the pack now?Drumroll: Our top 3 perp DEXs for 2025 crown Aark Digital ($AARK) as #1. This Arbitrum powerhouse, backed b
Perp DEXs are crypto's hottest sector in 2025, with volumes exploding and tokens pumping like it's 2021 all over again. Google searches for "top perp DEXs" are spiking, fueled by Twitter mania: @Zynweb3's Aster volume flip (274 likes), @CoinMarketCap's fee rankings (562 likes), and endless "$ASTER to $10" calls. Hyperliquid set the bar, Aster ignited the FOMO—but who's leading the pack now?
Drumroll: Our top 3 perp DEXs for 2025 crown Aark Digital ($AARK) as #1. This Arbitrum powerhouse, backed by OKX Ventures and surging 162% today, edges out Aster and Hyperliquid with undervalued entry, elite backing, and breakout momentum. If you're farming airdrops or chasing 10x gains, here's why these three dominate—and why Aark's your must-ape.
The Perp DEX Boom: Why 2025 Is the Year of On-Chain Leverage
Perpetual DEXs are revolutionizing trading: Infinite leverage, self-custody, and fees that rival CEXs. Sector fees? $29M in 24h alone, per @CoinMarketCap. Twitter's obsessed—@HyperliquidX's $APEX leverage tease (857 likes) and @Aster_DEX's "this could be us" meme (1K+ likes) show the arms race. But with bubbles brewing (@RDeni's burst warning), focus on fundamentals: Liquidity, backing, and tokenomics.
Enter our top picks, ranked by growth potential, volume, and edge.
#1: Aark Digital ($AARK) – The Undervalued Arbitrum Beast Ready to Flip the Script
Aark Digital isn't hype—it's execution. Live on Arbitrum with contract 0xca4e51f6ad4afd9d1068e5899de9dd7d73f3463d, Aark delivers 100x leverage on perps with sub-penny fees. Why #1?
OKX Power Play: OKX Ventures' investment means instant liquidity from a top-5 exchange. Think Binance for Aster, but OKX-scale.
Gate.io Momentum: Fresh listing with $3.31M 24h revenue and 279M volume. Jump in here.
Metrics on Fire: $0.0006826 price (+162%), $282K cap, 382M supply. 7d: +177%. ATL rebound from $0.0002333 screams 100x potential.
Aark's topping our list because it's early: Tiny cap, big backers, and Twitter whispers growing. If Aster flipped Hyperliquid, Aark could eclipse both.
#2: Aster ($ASTER) – The CZ-Backed Hype Machine Still Crushing Volumes
Aster's the current king of FOMO, with $ASTER predictions hitting $20 (@Whale_Guru, 371 likes). Backed by Binance Labs, it's multichain perps with hidden orders and 100x leverage.
Standouts: $46B+ 24h volume (flipped Bybit), $16M fees, 2M+ users. Airdrop Season 2 ends Oct 5—farm now!
Why #2?: Massive $16B FDV means less moonshot room vs. Aark. But CZ shills (@PhilOnChain, 439 likes) keep it pumping.
Risks: Hype fatigue, as @OODEGEN notes in the "perps DEX war" (15 likes).
Aster's your mid-cap bet—solid, but watch for rotations to underdogs like Aark.
#3: Hyperliquid ($HYPE) – The Incumbent with Battle-Tested Liquidity
Hyperliquid pioneered on-chain order books on its L1, with $HYPE at $56+ ($18.9B cap). It's the safe play.
Track Hype: Follow @Aster_DEX and @HyperliquidX for updates. Aark's community? Building fast.
Risks: Bubbles pop (@RDeni). Take profits, hedge.
Wrap-Up: Position in These Top 3 Perp DEXs Before the 2025 Bull Run
Aark Digital's #1 for a reason: It's the next Aster/Hyperliquid, but stealthier. Track $AARK on CoinGecko, trade on Gate, and farm the hype. With perp volumes at all-time highs, 2025's for bold plays.
In the wild world of crypto trading, perpetual futures (perp) DEXs are stealing the spotlight. Just look at Twitter—everyone's buzzing about Hyperliquid's insane $HYPE pumps and Aster's meteoric rise, with CZ himself hyping $ASTER as the "Binance-style" challenger. Tweets like "CZ just declared war on Hyperliquid" from @PhilOnChain (439 likes) and "$ASTER will be trading above $2 today" from @Whale_Guru (371 likes) are racking up thousands of interactions. The narrative? Perp DEXs are the future
In the wild world of crypto trading, perpetual futures (perp) DEXs are stealing the spotlight. Just look at Twitter—everyone's buzzing about Hyperliquid's insane $HYPE pumps and Aster's meteoric rise, with CZ himself hyping $ASTER as the "Binance-style" challenger. Tweets like "CZ just declared war on Hyperliquid" from @PhilOnChain (439 likes) and "$ASTER will be trading above $2 today" from @Whale_Guru (371 likes) are racking up thousands of interactions. The narrative? Perp DEXs are the future of on-chain leverage trading, blending CEX speed with DeFi transparency.
But here's the million-dollar question everyone's googling: What's the next big perp DEX? If you're hunting for the next Aster or Hyperliquid—the ones that could 10x your bag amid this perp DEX hype—stop scrolling. Enter Aark Digital ($AARK), the fresh Arbitrum-based perp DEX that's exploding right now. Backed by OKX Ventures and freshly listed on Gate.io, Aark is surging 162% in the last 24 hours with $73K+ volume. Is this the pump everyone's chasing? Let's dive deep into why Aark might just be your ticket to the next perp DEX moonshot.
What Makes Perp DEXs the Hottest Narrative in Crypto Right Now?
Perpetual DEXs aren't your grandma's spot trading platforms. They're high-octane arenas for leveraged trades on everything from BTC to meme coins—without the KYC headaches of centralized exchanges. Hyperliquid kicked it off with its custom L1 chain, delivering CEX-like order books and deep liquidity. Then Aster stormed in, backed by Binance Labs, flipping Hyperliquid in daily volumes ($46B+ vs. Hyperliquid's $10B) and sparking FOMO with airdrops and CZ shills.
Twitter's on fire: @Zynweb3's post about Aster outpacing Bybit (274 likes) and @CoinMarketCap's chart of perp DEX fees hitting $29M in 24 hours (562 likes) show the sector's parabolic growth. Fees are flowing, TVL is stacking, and tokens like $HYPE and $ASTER are printing millionaires. But as @RDeni warns in a viral thread (23 likes but deep insights), "the perp DEX bubble could burst soon" if you chase blindly. Smart money? Hunt the underdogs with real backing and tech before the herd piles in.
That's where Aark Digital fits perfectly. Launched on Arbitrum for lightning-fast, low-gas trades, Aark isn't just another me-too DEX—it's engineered for the next wave of on-chain perps, with features that scream "Aster 2.0."
Meet Aark Digital: The Arbitrum Perp DEX Backed by OKX That's Primed to Pump
Forget the hype—let's talk facts. Aark Digital ($AARK) is a next-gen perpetuals exchange built on Arbitrum, offering seamless leverage trading up to 100x on majors like ETH, SOL, and altcoins. Its contract address? 0xca4e51f6ad4afd9d1068e5899de9dd7d73f3463d—verify it on Arbiscan and see the action unfolding.
What sets Aark apart in the next big perp DEX race?
OKX Ventures Backing: Straight from the PR wire, OKX Ventures announced their investment in Aark, injecting firepower from one of crypto's top exchanges. Read the full announcement here. This isn't some rug-pull moonboy project—it's venture-grade, with OKX's ecosystem ready to funnel liquidity.
Fresh Gate.io Listing: Just listed on Gate.io's AARK/USDT pair, where it's already clocking $3.31M in 24h revenue and 279M AARK volume. Trade it here. Gate's spot-on timing mirrors Aster's early listings that sparked 20x runs.
Explosive Metrics: Per CoinGecko, $AARK is at $0.0006826, up 162.5% in 24h, with a $282K market cap and 382M circulating supply. Fully diluted? $307K—room for massive upside. 24h range: $0.0002569–$0.000737. All-time low was $0.0002333 just 29 days ago. This isn't hype; it's a breakout.
Arbitrum Edge: Low fees (under $0.01 per trade), instant settlements, and EVM compatibility make Aark a no-brainer for degens fleeing Solana congestion. Plus, it's multichain-ready, echoing Aster's cross-chain play.
Twitter's already whispering: Posts about "perp DEX on Arbitrum" are gaining traction, with users like @ghost93_x joking about "holding a basket of perp DEX tokens" (275 likes). Aark fits that vibe—early, undervalued, and backed by giants.
Aark vs. Aster vs. Hyperliquid: The Ultimate Perp DEX Showdown
Everyone's searching "next Aster Hyperliquid"—so let's compare. Hyperliquid dominates with $HYPE at $56+ (18B+ MC), but growth is plateauing. Aster's $ASTER is the hot riser ($2+ predictions everywhere), with $16M in fees and CZ's blessing. But Aark? It's the stealth contender.
Feature
Aark Digital ($AARK)
Aster ($ASTER)
Hyperliquid ($HYPE)
Chain
Arbitrum (low gas, scalable)
BNB Chain + Arbitrum
Custom L1
Backing
OKX Ventures
Binance Labs/CZ
Community-led
24h Volume Surge
+162% ($73K)
+40% ($46B total)
Stable ($10B)
Market Cap
$282K (undervalued AF)
$16B FDV
$18.9B
Leverage
Up to 100x
Up to 100x (hidden orders)
Up to 50x
Unique Edge
OKX liquidity bridge
CZ hype + airdrops
Deep order books
Pump Potential
100x+ from ATL
2x–5x short-term
Steady 2x
Aark's tiny cap means asymmetric upside—like Aster's 20x from $0.03. If OKX pushes listings (think Bybit for Apex), $AARK could hit $0.01+ fast. Tweets like @abu's "my friend shilled $ASTER at $2" (937 likes) capture the FOMO—Aark's your early entry.
Why Aark Digital Will Pump: The Perp DEX Hype Train Is Just Getting Started
The perp DEX meta is red-hot. @CoinMarketCap's post on top protocols (562 likes) shows perps raking $29M fees daily—more than stablecoins. With Bitcoin halving echoes and altseason brewing, leverage demand will explode. Aark's timing? Perfect. Recent all-time high was $0.09894 (99% down, but rebounding). Community sentiment on CoinGecko: "Now open to the community!"
Risks? Sure—volatility, unlocks, and competition. But as @BigQuiv notes (138 likes), "small accounts have the highest ROI" in perp airdrops. Farm Aark's points early: Trade volume, hold positions, refer friends. Season 2 could drop crumbs worth 10x.
Final Verdict: Ape Aark Before the Next Perp DEX Pump
If you're typing "the next big perp dex" into Google, this is it. Aark Digital isn't chasing Hyperliquid or Aster—it's building the bridge with OKX muscle and Arbitrum speed. Grab $AARK on Gate.io or DEXs, track on CoinGecko, and join the Twitter frenzy. The pump is coming—will you be early?
DYOR. Not financial advice. Crypto is volatile—trade responsibly.
Peut-être l’attendiez-vous impatiemment, et pourtant, la FramIActu de juillet n’a pas vu le jour.Nous l’annoncions à demi-mot en juin : nous ne publierons plus la FramIActu sur un rythme mensuel. Les raisons à cela sont multiples et c’est pourquoi nous vous proposons un article « bilan », qui fait le point sur des mois (voire des années) de veille sur l’intelligence artificielle.
Différents termes techniques liés au champ de recherche de l’Intelligence Artificielle ont été utilisés dans cet
Peut-être l’attendiez-vous impatiemment, et pourtant, la FramIActu de juillet n’a pas vu le jour. Nous l’annoncions à demi-mot en juin : nous ne publierons plus la FramIActu sur un rythme mensuel. Les raisons à cela sont multiples et c’est pourquoi nous vous proposons un article « bilan », qui fait le point sur des mois (voire des années) de veille sur l’intelligence artificielle.
Différents termes techniques liés au champ de recherche de l’Intelligence Artificielle ont été utilisés dans cet article. Si certains termes vous échappent, nous vous invitons à consulter le site FramamIA où nous avons cherché à expliquer la plupart d’entre eux.
Les évolutions techniques des derniers mois
De meilleures performances
Au cours des derniers mois, les entreprises et start-ups du domaine n’ont cessé d’améliorer les grands modèles de langage (LLMs) et autres systèmes d’IA, afin que ceux-ci puissent accomplir des tâches plus variées, être plus efficaces, et soient moins chers à produire et à déployer.
L’institut sur l’intelligence artificielle centré sur l’humain de l’université de Standford a récemment publié un index analysant ces états et évolutions sous différents aspects. Dans ce rapport, nous constatons une forte amélioration des performances des IA sur les tests de référence servant à évaluer leurs capacités. L’écart de performances entre les différents modèles est d’ailleurs largement réduit en comparaison de l’année dernière. En revanche, de nouveaux tests comparatifs, bien plus exigeants, ont été développés (comme le fameux « Dernier examen de l’humanité ») et les IA y réalisent, pour le moment, des scores très faibles.
Autre amélioration : alors qu’en 2022 le plus petit modèle (PaLM) réalisait un score de 60 % à un un test comparatif spécifique (MMLU) avait besoin de 540 milliards de paramètres, le modèle Phi-3-mini de Microsoft accompli aujourd’hui les mêmes performances avec 3,8 milliards de paramètres. Il est donc aujourd’hui possible de construire des modèles qui nécessitent bien moins de ressources.
Vous avez dit six doigts ?
Les améliorations des performances et des capacités des différents modèles d’IA génératives (IAg) sont particulièrement visibles pour les IAg spécialisées dans la génération d’images et de vidéo. Si à leurs débuts les IAg comme Dall-E ou Midjourney étaient moquées par le public en raison des absurdités qu’elles généraient, leurs résultats sont aujourd’hui bien plus difficiles à différencier de la réalité. Finies les mains à six doigts !
Les IAg permettant de créer des vidéos sont d’autant plus impressionnantes (techniquement), notamment Veo 3, de Google, récemment sortie et permettant de créer des vidéos en tout genre avec une cohérence sans précédent. Il est désormais extrêmement difficile de discerner une vidéo générée par Veo 3 d’une vidéo filmée par des humain·es.
Voici de nombreux exemples de vidéos générées par Veo 3.
Mistral, de son côté, a publié un nouveau modèle de compréhension audio nommé Voxtral. Celui-ci aurait de meilleures performances que Whisper, le modèle d’OpenAI, jusqu’alors considéré comme le meilleur en terme de rapport qualité/prix. Voxtral propose des performances similaires ou supérieures à ses concurrents pour un coût bien plus bas.
Toutes ces améliorations sont déjà utilisées par de nombreuses entités à travers le monde.
Comme Netflix, qui a utilisé l’IAg pour créer une scène d’effondrement d’immeuble dans une de ses séries1, ou Disney, ayant utilisé ChatGPT pour écrire les paroles d’une des chansons de sa série indienne Save the Tigers2.
Netflix, d’ailleurs, souhaite mettre en place des coupures publicitaires générées par IA pendant le visionnage des vidéos3.
L’arrivée d’un nouveau paradigme : les modèles de raisonnement
Les modèles d’IAg traditionnels sont basés sur un paradigme consistant à « entraîner » les IA à partir du plus grand nombre de données possible afin de créer les millions (voire les milliards) de paramètres qui composeront le modèle. Le coût de ce type de modèle est principalement concentré sur cette phase d’entraînement.
Par exemple, le première modèle GPT d’OpenAI, GPT-1, sorti en juin 2018, contenait 117 millions de paramètres4. Un an plus tard, le modèle GPT-2 en comportait 1,5 milliards5. Quelques mois plus tard, GPT-3 en comportait 175 milliards6. Enfin, le modèle GPT-4.5, en comporterait, d’après les rumeurs7 (car nous n’avons pas de donnée officielle)… entre 5 et 10 billions (10 000 milliards) !
Ce paradigme, s’il fonctionnait très bien au cours des années précédentes, semble atteindre aujourd’hui un plafond de verre. Malgré l’augmentation massive du nombre de paramètres, les résultats obtenus ne sont pas aussi impressionnants que l’on pourrait s’y attendre, mais surtout, le coût pour exploiter de tels modèles devient difficile à assumer pour des entreprises comme OpenAI.
L’entreprise a d’ailleurs rapidement retiré GPT-4.5 de son offre8, au profit d’un nouveau modèle nommé GPT-4.1, bien moins cher pour la compagnie. (On est d’accord, c’est un peu n’importe quoi les noms de modèle chez OpenAI !)
Pour faire face aux limites qui semblent se dessiner, un nouveau paradigme a vu le jour : celui des modèles de raisonnement.
L’idée est qu’au lieu de se concentrer principalement sur l’entraînement du modèle, les modèles de raisonnement sont conçus pour accomplir des étapes supplémentaires (par rapport aux modèles classiques) afin d’achever des résultats similaires voire meilleurs sans avoir à augmenter la taille du modèle.
Contrairement à un modèle classique qui cherchera à donner directement une réponse lors de l’étape d’inférence, les modèles de raisonnement découpent cette étape en différents processus plus petits, cohérents les uns vis-à-vis des autres.
Le nombre d’étapes qu’un modèle de raisonnement va effectuer est configurable, et peut aussi bien varier d’une étape unique à des dizaines ou des milliers. En revanche, plus le nombre d’étapes est conséquent, plus le coût (en temps, en énergie, en puissance de calcul) est élevé.
Ce dernier point représente un changement majeur : les modèles de raisonnement peuvent potentiellement être bien plus coûteux en termes de ressources que les modèles classiques car le nombre d’étapes de raisonnement revient à multiplier — souvent de façon cachée à l’utilisateurice — la quantité de calculs nécessaires pour fournir une réponse.
Or, face au succès de modèles comme Open-o1 ou DeepSeek-R1, les modèles de raisonnement ont le vent en poupe et sont souvent ceux privilégiés, aujourd’hui.
L’émergence des IA agentiques
Les IA agentiques sont des IA conçues pour être capables d’interagir avec leur environnement.
Là où les IAg classiques s’appuient sur un jeu de données figé et apportent une réponse « simple » en fonction de la demande qu’on leur fournit, les IA agentiques ont pour objectif de pouvoir accéder à d’autres applications afin d’accomplir la tâche demandée en toute autonomie. De plus, l’IA agentique est capable d’exécuter une série de sous-tâches jusqu’à l’accomplissement de la demande.
En théorie, vous pouvez demander à une IA agentique de créer votre site vitrine. Celle-ci va alors concevoir la structure du site, établir une charte graphique et l’appliquer. Elle le testera ensuite pour s’assurer qu’il fonctionne. Enfin, l’agent pourra très bien pousser le code sur une forge logiciel (comme Github, Gitlab, ou autre) et exécuter des actions sur la forge afin de créer un site accessible au public. Dans tout ce processus, votre seule action aurait été de demander à l’IA agentique de vous réaliser ce site.
Dans la pratique, les IA agentiques sont encore largement peu efficaces, les plus performantes ne réussissent pour le moment que 30 % des tâches en totale autonomie9. Cependant, comme pour les IAg auparavant, on peut assez facilement imaginer, au regard de la vitesse d’évolution des techniques d’IA, que des progrès fulgurants arriveront d’ici un an ou deux.
On peut d’ailleurs noter l’émergence d’un protocole nommé MCP, initié par Anthropic, pour standardiser la manière dont les IA se connectent à d’autres applications.
À noter que’OpenAI vient de sortir ChatGPT Agent10 prétendant pouvoir presque tout réaliser et Google a annoncé différentes applications d’IA agentiques11.
Il est probable que l’utilisation d’IA agentiques se démocratise à mesure que leurs capacités s’améliorent et que les géants comme Google les intègrent aux applications de notre quotidien.
Une accumulation de problèmes sociétaux
Nous l’avons vu, les IAg ne cessent de s’améliorer techniquement. Cependant, nombre des problèmes soulevés lors de l’apparition de ChatGPT n’ont pas été traités et de nouveaux apparaissent.
Les robots indexeurs d’IA attaquent le Web
Pour collecter les données nécessaires à l’entraînement des IA génératives, les acteurs de l’IA parcourent l’ensemble du Web pour en extraire le contenu. Aujourd’hui, de nombreux acteurs ont déployé leur propre robot pour y parvenir.
Le problème est que ces robots mettent à mal l’ensemble de l’infrastructure faisant tourner le Web et ne respectent pas les sites précisant ne pas souhaiter être indexés par ces robots.
Comme nous en parlions dans la FramIActu d’avril certains sites ont constaté que plus de 90 % de leur trafic proviennent désormais des robots d’IA. Pour Wikipédia, cela représente 50 % de trafic supplémentaire depuis 202412.
Afin de palier ce pillage des ressources et garantir l’accès de leurs sites internet aux humain·es, des organisations comme l’ONU ont opté pour la mise en place d’un logiciel « barrière » à l’entrée de leurs site13. Nommé Anubis, ce logiciel permet d’empêcher les robots d’IA d’accéder au site web. Cependant, cette barrière n’est pas sans coût : les utilisateurices doivent parfois patienter quelques fractions de seconde (voire, parfois, quelques secondes) avant de pouvoir accéder à un site internet, le temps qu’Anubis s’assure que la demande d’accès provient bien d’un·e humain·e.
À Framasoft, nous avons aussi été confronté à cette situation et certains de nos services sont désormais protégés par Anubis.
D’autres acteurs se tournent vers Cloudflare puisque cette entreprise a mis en place un outil permettant de bloquer les robots d’IA par défaut14. Cloudflare est utilisé par environs 1/5 des sites web15. Cela signifie que l’entreprise se place dans une position privilégiée pour décider de qui a le droit d’accéder au contenu de ces sites web.
À l’avenir, il est possible que les acteurs d’IA les plus riches doivent finir par payer Cloudflare pour accéder au contenu des sites protégés par l’entreprise.
Si cela se produit, un des risques possibles est qu’au lieu d’empêcher l’essor de l’IA, la situation accentue plutôt l’écart entre les géants du numérique et les autres acteurs, plus modestes.
Le Web est pollué
Depuis l’arrivée de l’IA générative, un changement majeur dans l’histoire de l’humanité a eu lieu : il est désormais plus rapide de « créer » du contenu que d’en lire. Ce simple fait semble totalement transfigurer notre rapport au Web puisque celui-ci se rempli à une vitesse vertigineuse de contenus générés par IA, dont une bonne partie se fait passer pour du contenu rédigé par des humain·es.
Aussi, les IAg sont très fortes pour créer du contenu adapté aux règles de Google Search, permettant à des entités peu scrupuleuses de faire apparaître leur contenu en tête des résultats du moteur de recherche. Cette pratique, nommée IA Slop, représente un véritable fléau. Le contenu diffusé n’a pas besoin d’exprimer un propos en rapport avec le réel, il est généré et publié automatiquement à l’aide d’IAg afin d’attirer du public en espérant générer du trafic et des revenus publicitaires. À ce sujet, nous republiions il y a quelques mois sur le Framablog un article passionnant d’Hubert Guillaud.
De plus, le média Next publiait, il y a quelques mois, une enquête sur le millier de médias générés par IA mis en avant par Google Actualités, la principale plateforme d’accès aux médias16.
L’IAg est aussi utilisée pour concevoir des articles et messages de médias sociaux promouvant des discours complotistes ou climato-sceptiques à une échelle presque industrielle17,18. Les promoteurs de ces théories peuvent plus facilement que jamais trouver de nouvelles adhésions à leur discours. Cette facilité pour générer du contenu vraisemblable contribue fortement à l’accroissement des discours visant à désinformer.
À mesure que le Web se rempli de contre-vérités, celles-ci risquent de prendre de plus en plus de poids dans les réponses des futurs modèles d’IAg. On parle d’une forme d’autophagie, où les IAg se nourrissent d’éléments générés par d’autres IAg19.
C’est à cause de ce phénomène d’autophagie que des entreprises comme Reddit (un média social très populaire dans le monde anglo-saxon) peuvent se permettre de revendre à prix d’or leurs données : du texte rédigé par des humain·es et facilement identifiable comme tel20,21.
La pollution du Web ne s’arrête cependant pas aux contenus textuels… désormais, avec la facilité d’accès aux IAg d’images et de vidéos, des millions de contenus générés par l’IA pullulent sur internet. À la sortie de Veo3, Tiktok s’est retrouvé noyé sous la quantité de vidéos généré par l’IAg, dont un certain nombre contenant des propos racistes22. Certain·es artistes ont même cherché à profiter de la tendance en prétendant que leurs vidéos étaient générée par l’IAg, alors que celles-ci étaient réalisées par des humain·es23.
Certaines entreprises se spécialisent aussi dans la génération de DeepFake pornographiques. Ces outils permettent alors à des harceleurs de nuire à leurs ex petites-amies24 et à des adolescents de nuire leurs camarades25. Les principales victimes de ces DeepFakes sont des femmes26.
Ces contenus générés par IA et la difficulté à les différencier des contenus « humains » participent à un sentiment d’abandon du réel. Il devient tellement difficile et exigeant de différencier le contenu généré par IA des autres que l’on peut être tenté·e de se dire « À quoi bon ? ».
À la manière de ce que décrit Clément Viktorovitch vis-à-vis de la perception des discours politiques27, il est possible que nous entrons ici aussi dans une ère de post-vérité : qu’importe si le contenu est vrai ou faux, tant qu’il nous plaît.
Un rapport au savoir bouleversé
En construisant une encyclopédie collaborative, gérée comme un commun et disponible mondialement, Wikipédia a révolutionné l’accès au savoir. Non seulement la plus grande bibliothèque de l’histoire de l’humanité est à portée de clics, mais nous pouvons désormais participer aussi à son élaboration.
Wikipédia a permis de renverser un paradigme ancré depuis longtemps qui consistait à réserver la rédaction d’une encyclopédie aux experts du sujet. Grâce à quelques règles permettant d’assurer la qualité des contributions, l’encyclopédie en ligne permet un effort d’intelligence collective inédit dans l’histoire.
Or, si Wikipédia est accessible librement dans la plupart des pays du monde, la majorité des personnes accèdent à son contenu… via le moteur de recherche Google.
En effet, le réflexe commun pour accéder à Wikipédia est de chercher un terme sur son moteur de recherche préféré (Google pour l’immense majorité de la planète) et d’espérer que celui-ci nous présente un court résumé de la page Wikipédia correspondante et nous pointe vers celle-ci.
Google sert donc aujourd’hui d’intermédiaire, de porte d’accès principale, entre une personne et la plus grande encyclopédie de l’humanité. Le problème, c’est que Google est bien plus qu’un simple moteur de recherche.
Google possède un système éditorial complexe, « personnalisant » les résultats en fonction de l’identité d’un individu, sa culture, son pays28, et poussant les éditeurs des sites Web à se plier à la vision que l’entreprise a du Web. Ne pas respecter cette vision nuit à notre bon référencement sur le moteur de recherche et donc, fait encourir le risque de ne jamais être trouvé·e dans la masse des sites existants. Cette vision se confond avec le but lucratif de l’entreprise, dont le profit prévaut sur le reste. C’est pourquoi les liens sponsorisés prennent une place importante (principale, presque) dans l’interface du moteur. Il est ainsi nécessaire de payer Google pour s’assurer que notre site Web soit vu.
Cette éditorialisation du contenu chez Google a encore évolué récemment avec la mise en place d’AI Overviews. Cette fonctionnalité (pas encore activée en France), s’appuyant sur l’IA de l’entreprise, résume automatiquement les contenus des différents sites Web. Certes, la fonctionnalité semble pratique, mais elle pourrait encourager une tendance à ne jamais réellement visiter les sites. Avec l’AI Overviews, nous ne quittons plus de Google.
À travers cette fonctionnalité, Google apporte d’autres briques pour transformer notre rapport au Web29 et asseoir sa position dominante dans l’accès au savoir.
Cependant, Google n’est pas le seul acteur à transformer notre rapport au Web et à l’accès au savoir. Les IA conversationnelles prennent de plus en plus de place et récemment ChatGPT est même devenu plus utilisé que Wikipédia aux États-Unis30. Sans que cela n’indique pour le moment une diminution dans l’usage de Wikipédia par les humain·es, il est possible que celui-ci se raréfie à mesure que la qualité des réponses des IAg s’améliorent ou recrachent directement le contenu de Wikipédia.
Les acteurs de l’IA risquent donc de devenir les nouvelles portes principales pour accéder à l’encyclopédie. Nous pouvons imaginer différents risques à cela, semblables à ceux déjà existants avec Google, comme lorsque l’entreprise a volontairement dégradé la qualité des résultats des recherches pour que les utilisateurices consultent davantage de publicités31.
Le rapport au savoir évolue aussi dans le monde de la recherche, où l’IA est aussi en train de bousculer des lignes, car de plus en plus de projets scientifiques s’appuient désormais sur ces outils32. Une étude estime que 13.5 % des recherches bio-médicales réalisées en 2024 étaient co-rédigé·es à l’aide d’une IAg33.
Les auteurices de l’étude indiquent :
Si les chercheurs peuvent remarquer et corriger les erreurs factuelles dans les résumés générés par IA de leurs propres travaux, il peut être plus difficile de trouver les erreurs de bibliographies ou de sections de discussions d’articles scientifiques générés par des LLM
et ajoutent que les LLMs peuvent répliquer les biais et autres carences qui se trouvent dans leurs données d’entraînement « ou même carrément plagier ».
De plus, l’IA n’est pas utilisée que pour la rédaction des papiers scientifiques. De plus en plus de chercheureuses basent leurs études sur des modélisations faites par IA34, entraînant parfois des résultats erronés et des difficultés à reproduire les résultats des études… voire même rendre la reproduction impossible.
Il est difficile de mettre en lumière tous les impacts sociétaux de l’IA (et particulièrement l’IAg) dans un article de blog. Nous avons simplement sélectionné quelques points qui nous semblaient intéressants mais si vous souhaitez approfondir le sujet, le site FramamIA peut vous fournir des clés de compréhension sur l’IA et ses enjeux.
L’Intelligence Artificielle n’est pas un simple outil
Depuis le tsunami provoqué par l’arrivée de ChatGPT, nous entendons souvent que l’Intelligence Artificielle n’est qu’un « simple outil », sous-entendant que son impact sur nos vies et nos sociétés dépend avant tout de notre manière de l’utiliser.
Illustration CC-By David Revoy.
Ce discours s’appuie sur le postulat que l’outil — et la technique en général —, quel qu’il soit, est foncièrement neutre.
Or, si on reconnaît l’ambivalence de la technique, c’est-à-dire qu’elle puisse avoir à la fois des effets positifs et négatifs, cela ne signifie pas pour autant que les conséquences de ces effets s’équilibrent les unes les autres et encore moins que la technique est neutre d’un point de vue idéologique, politique, social ou économique.
Au contraire, tout outil porte forcément les intentions de ses créateurices et s’intègre dans un système économico-historico-social qui en fait un objet fondamentalement politique, éliminant toute possibilité de neutralité. De plus, les conditions d’existence d’un outil et son intégration dans nos sociétés l’intègrent de fait dans un système qui lui est propre, occultant ici l’idée de « simple outil ». Un outil est forcément plus complexe qu’il n’y paraît.
Dans son blog, reprenant un billet d’Olivier Lefebvre paru sur Terrestre.org, Christophe Masutti écrivait récemment qu’« on peut aisément comprendre que comparer une IAg et un marteau pose au moins un problème d’échelle. Il s’agit de deux systèmes techniques dont les conditions d’existence n’ont rien de commun. Si on compare des systèmes techniques, il faut en déterminer les éléments matériels et humains qui forment chaque système. »
Si le système technique du marteau du menuisier peut se réduire à des conditions matérielles et sociales relativement faciles à identifier dans un contexte restreint, il en va tout autre des IAg « dont l’envergure et les implications sociales sont gigantesques et à l’échelle mondiale ». On peut reprendre ainsi l’inventaire des conditions que dresse Olivier Lefebvre :
des centres de données dont les constructions se multiplient, entraînant une croissance vertigineuse des besoins en électricité35,36,
des réseaux de télécommunication étendus et des usines de production de composants électroniques, ainsi que des mines pour les matières premières qui sont elles mêmes assez complexes (plus complexes que les mines de fer) et entraînent des facteurs sociaux et géopolitiques d’envergure37,
les investissements colossaux (en milliards de dollars) en salaires d’ingénieurs en IA, en infrastructures de calcul pour entraîner les modèles, en recherche, réalisés dans une perspective de rentabilité38,39,40,41,
l’exploitation humaine : des millions de personnes, majoritairement dans les pays du Sud, sont payées à la tâche pour labelliser des données, sans lesquelles l’IA générative n’existerait pas42,43,44,
le pillage d’une immense quantité d’œuvres protégées par droits d’auteurs pour l’entraînement des modèles45,46,
et nous pouvons rattacher plein d’autres éléments en cascade pour chacun de ceux cités ci-dessus.
L’Intelligence Artificielle est une bulle économique mais…
… mais cela signifie pas que lorsque celle-ci éclatera, l’IA (et particulièrement les IA génératives) disparaîtra. Les changements apportés à la société semblent indiquer tout le contraire. L’IA a déjà commencé à transformer drastiquement notre société.
Alors que de nombreux pays du monde et d’entreprises s’étaient engagés à atteindre une neutralité carbone d’ici 2050, ces engagements semblent aujourd’hui ne plus intéresser personne. Google a augmenté de 65 % ses émissions de gaz à effet de serre en 5 ans47, Microsoft de 29 % en 4 ans48, Trump relance la filière charbon aux États-Unis49…
Au nom des sacro-saintes compétitions et productivités, les engagements climatiques reculent alors même que nous constatons qu’il est désormais impossible de limiter le réchauffement climatique à +1,5°C par rapport à l’ère pré-industrielle50.
Les conséquences du recul de ces engagements et l’amplification du réchauffement climatique liée aux effets directs (construction de nouveaux centre de données, de nouvelles sources d’énergie, etc.) et indirects (encouragement du climato-scepticisme, report des engagements climatiques, etc.) sont des effets dont les conséquences nous affectent déjà et qui s’accentueront très certainement à l’avenir.
Cependant, les bouleversements climatiques ne sont pas les seuls sujets sur lesquels s’exerce l’influence de l’IAg dans notre société. L’IAg est aussi un système poussant à la prolétarisation des sociétés.
Aujourd’hui, 93 % des 18-25 ans ont utilisé une IAg ces six derniers mois, et 42 % les utilisent au quotidien, soit deux fois plus que l’année dernière51.
Il est probable que des milliers (voire des millions) d’étudiant·es ont déjà développé une dépendance à l’IAg dans le cadre de leurs études et ne peuvent aujourd’hui plus s’en passer pour accomplir les tâches que la société et ses institutions attendent d’elles et eux.
Alors qu’un tiers des PME (Petites et Moyennes Entreprises) l’utilisent déjà, la France souhaite que 80 % des PME et ETI (Entreprises de Taille Intermédiaire) adoptent l’IA dans leurs pratiques de travail d’ici 203052.
ChatGPT est aujourd’hui utilisé par 400 millions d’utilisateurices hebdomadaires53… et nous parlons uniquement de ChatGPT, pas de Gemini, Claude, ou autre concurrent.
Dans leur excellente étude sur le « forcing de l’IA », le collectif Limites Numérique décortiquait la manière dont les géants du numérique imposent l’utilisation de l’IA à leurs utilisateurices en l’intégrant absolument partout.
WhatsApp et ses 2,4 milliards d’utilisateurices ? Meta AI est intégré par défaut.
Android et ses 3,3 milliards d’utilisateurices ? Gemini est désormais activé par défaut. Google Search et ses 190 000 recherches par seconde ? Intégration d’AI Overviews pour 200 pays, permettant de résumer automatiquement les contenus des sites.
En trois ans, l’IA générative s’est imposée absolument partout dans notre environnement numérique et même si de nombreuses start-ups tomberont lors de l’explosion de la bulle financière54, il est probable que les géants du secteur restent en place.
Par contre, nos habitudes, nos pratiques de travail, notre rapport au monde et au savoir… eux, auront bel et bien changé.
Conclusion
Nous l’avons dit en introduction de cet article, cela fait des années que nous observons et cherchons à comprendre ce que représente l’IA et ses enjeux. Pour être honnête, ce n’est clairement pas chose aisée.
Comme nous avons essayé de le faire comprendre à travers le site FramamIA, l’IA est bien plus qu’un « simple outil ». C’est d’abord un champ de recherche mais aussi un système complexe, similaire au système numérique (dans lequel il s’intègre).
Depuis ChatGPT, notre temps de veille pour suivre l’actualité du numérique, déjà conséquent à l’époque, a presque doublé. Nous avons passé littéralement des centaines d’heures à lire des articles, à réfléchir à leur propos, à en discuter en interne. À chercher à comprendre comment techniquement fonctionne une IA générative et ses différences avec une IA spécialisée ou un algorithme n’étant pas considéré comme une IA. À chercher à comprendre, aussi, si l’adoption de cette technique n’est qu’une simple mode ou si celle-ci est bel et bien en train de révolutionner notre environnement.
Nous continuerons, à l’avenir, d’accomplir cette veille même si le rythme de publication de la FramIActu sera moins dense. Malgré tout, nous continuerons de partager notre veille sur notre site de curation dédié.
Aussi, comme nous sommes une association « qui fait », nous explorons d’autres pistes pour accomplir notre objet associatif (l’éducation populaire aux enjeux du numérique) autour de ce sujet. Nous souhaitons aider la société à subir le moins possible les conséquences négatives de l’imposition de l’IA dans nos vies.
Nous avons des pistes d’action, nous vous les partagerons quand nous seront prêt·es !
Vous perdez un temps fou à déboguer ? Vous rêvez d’un assistant qui code à votre place, ligne par ligne ? Vous souhaitez automatiser vos tâches sans repartir de zéro ? Les outils d’IA code promettent justement cela.
L’IA Code est un assistant virtuel capable de comprendre votre langage de programmation, vos intentions et même votre style. Autrement dit, cet outil peut vous aider à coder plus vite, mieux et avec moins d’erreurs. Il est également en mesure d’expliquer celui des autres, de détec
Vous perdez un temps fou à déboguer ? Vous rêvez d’un assistant qui code à votre place, ligne par ligne ? Vous souhaitez automatiser vos tâches sans repartir de zéro ? Les outils d’IA code promettent justement cela.
L’IA Code est un assistant virtuel capable de comprendre votre langage de programmation, vos intentions et même votre style. Autrement dit, cet outil peut vous aider à coder plus vite, mieux et avec moins d’erreurs. Il est également en mesure d’expliquer celui des autres, de détecter les bugs et aussi de documenter vos fonctions. Toutefois, avec les multitudes d’options disponibles sur le marché, comment savoir lequel adopter ? Après plusieurs essais et comparaisons, nous avons sélectionné les 7 meilleures IA code du moment. Si vous cherchez la bonne, ce classement vous fera gagner un temps précieux. Restez avec nous jusqu’au bout.
Le top 3 de la rédaction – juillet 2025
AskCodiL’IA code qui comprend vos projets avant même que vous écriviez
Cette IA Code pense comme un vrai développeur. Elle propose, commente, corrige et vous guide dans vos choix sans jamais ralentir le flow. Nous avons testé son bac à sable intégré sur des composants React, et le rendu en temps réel fait clairement la différence. De plus, les explications de code sont claires avec les suggestions pertinentes. Certes, au moment de la rédaction, il reste quelques zones floues en bêta, mais la promesse est solide : vous codez mieux, et vous codez plus vite.
Caractéristiques techniques
Langages pris en charge : JavaScript, Python, TypeScript, PHP, HTML/CSS
Nous avons utilisé Gemini Code Assist sur Visual Studio Code pour créer une app en Node.js et manipuler une base Firebase et même générer du code en Swift pour iOS. En résultat, cette IA code comprend vite, répond bien et va droit au but. Elle propose du code complet, documenté, cohérent avec vos fichiers et même vos intentions. De plus, son champ de contexte comprend 1 million de tokens ! Cela signifie qu’elle garde une mémoire longue, même sur des projets complexes. Et pour les équipes ? Vous pouvez brancher votre propre repo privé. Gemini corrige, réorganise et optimise en temps réel.
Caractéristiques techniques
Langages pris en charge : JavaScript, Python, Go, TypeScript, Java
Appareils compatibles : navigateur, terminal, extensions IDE (VS Code, JetBrains)
Intégrations disponibles : GitHub, Firebase, Google Cloud, Gemini CLI
Tarification : version gratuite, version entreprise sur demande
GitHub Copilot, l’IA code intégrée au cœur de votre éditeur
On aime
Intégration GitHub native
Autocomplétion intelligente
On aimemoins
Limitations sans abonnement
Dépendance forte à GitHub
GitHub CopilotL’IA code intégrée au cœur de votre éditeur
GitHub Copilot vous accompagne ligne par ligne pour fluidifier votre travail. Nous l’avons intégré dans Visual Studio Code pour évaluer ses capacités sur un projet React avec plusieurs dépendances. Verdict : ça va très vite, ça comprend bien, et surtout ça anticipe les patterns récurrents. L’autocomplétion est contextuelle, le chat embarqué devient une vraie console d’assistance, et les suggestions gagnent en pertinence à mesure que vous codez. Copilot propose aussi des commentaires intelligents, aide à déboguer, et s’intègre parfaitement à GitHub.
Caractéristiques techniques
Langages pris en charge : JavaScript, Python, TypeScript, Java, C++, et bien d’autres
Codex est perçu comme l’arme secrète de ceux qui veulent automatiser des tâches complexes sans écrire chaque ligne. Nous avons testé sa version Cloud via ChatGPT Pro, l’IA s’est chargée de rédiger des fonctions entières, documenter des APIs et analyser des bugs directement dans des dépôts Git. Elle enchaîne les tâches sans broncher, même sur des projets complexes, et reste étonnamment précise dans ses suggestions.
Caractéristiques techniques
Langages pris en charge : Python, JavaScript, Bash, SQL, TypeScript, etc.
Appareils compatibles : cloud sécurisé, terminal local
Intégrations disponibles : GitHub, ChatGPT, CLI open source, sandbox personnalisé
Tarification : inclus dans ChatGPT Pro / Team / Enterprise
Amazon Q Developer, l’IA code made in AWS pour les projets à grande vitesse
On aime
Optimisé pour AWS
Cycle complet couvert
On aimemoins
Peu adapté hors AWS
Limites mensuelles strictes
Amazon Q DeveloperL’IA code made in AWS pour les projets à grande vitesse
Amazon Q Developer est l’outil IA code conçu pour accélérer le cycle de développement complet, du prototype à la mise en production. Nous l’avons installé dans Visual Studio et JetBrains pour gérer des tâches fastidieuses comme les tests, la refactorisation ou la documentation. Et là, surprise ! Q ne se contente pas de suggérer du code, il agit comme un assistant orchestral. Il détecte les zones à optimiser, propose des plans d’implémentation, revoit la qualité du code… et le tout sans quitter l’IDE.
Caractéristiques techniques
Langages pris en charge : Java, Python, JavaScript, TypeScript, Bash
Appareils compatibles : VS Code, JetBrains, Visual Studio, Eclipse, terminal
Tabnine est un choix assumé pour les développeurs en quête d’efficacité et de confidentialité. Contrairement à d’autres outils IA code, il fonctionne localement si vous le souhaitez, sans fuite vers des serveurs externes. L’agent comprend très bien le contexte du projet, suggère des blocs utiles, commente les fonctions, et propose même des tests ou des correctifs adaptés à vos standards internes.
DeepSeek Coder impressionne d’entrée de jeu par sa puissance brute. Entraîné sur 2 000 milliards de tokens, il dépasse CodeLlama et même GPT-3.5 Turbo sur certains benchmarks. On peut le déployer localement, le personnaliser, et surtout l’utiliser gratuitement, même en entreprise. Sa force, c’est son efficacité sur les projets complexes : 16K tokens de contexte, auto-complétion par bloc, et modèles taillés pour l’explication, la validation ou les tests.
Caractéristiques techniques
Langages pris en charge : 80+
Prix : entièrement gratuit (licence open source)
Intégration : via API ou serveur local
Compatibilité : Linux, Docker, Python env.
Les coulisses de notre comparatif IA Code
Pour les juger, nous avons mis les IA Code à l’épreuve dans des conditions concrètes comme le développement web, l’automatisation, les scripts back-end, les petits algorithmes et les projets en équipe. L’idée n’était pas de tout tester, mais de reproduire les vrais cas d’usage d’un développeur moderne.
Notre grille d’évaluation repose sur cinq grands critères :
Précision du code généré, surtout dans des cas ambigus ou à logique métier complexe.
Vitesse de réponse, y compris en environnement contraint (mobile, plugin IDE, navigateur lent).
Ergonomie et fluidité d’utilisation, car une IA qui demande trois clics pour chaque prompt, c’est non.
Compatibilité avec les outils existants, notamment les IDE (VS Code, JetBrains), les frameworks, les systèmes Git.
Rapport utilité/prix, avec un vrai regard sur les modèles freemium, les abonnements et les limitations cachées.
A part cela, nous avons aussi observé des détails souvent oubliés. Il s’agit notamment de la qualité de l’auto-complétion, la personnalisation du ton dans les réponses, ou encore la capacité à expliquer du code existant avec pédagogie.
FAQs
Une IA peut-elle vraiment coder comme un développeur humain ?
Une IA ne code pas exactement comme un humain, mais elle peut automatiser énormément de tâches répétitives. Elle analyse des millions de lignes de code, que ce soit en Python, JavaScript ou HTML, pour proposer des suggestions cohérentes, complètes, et souvent pertinentes. De plus, elle est capable de compléter des fonctions, corriger des erreurs, générer des tests unitaires ou traduire un algorithme dans un autre langage. En revanche, elle ne comprend pas les intentions métier ni les subtilités contextuelles sans guidage.
Quels sont les avantages concrets d’utiliser une IA pour coder ?
L’IA code permet de gagner du temps, d’éviter les erreurs bêtes et de documenter plus vite. Elle aide aussi à comprendre du code complexe, en le résumant ou en l’expliquant ligne par ligne. Certains outils comme Tabnine ou DeepSeek Coder vont plus loin, en s’adaptant à votre style ou à la structure du projet. Pour les équipes, cela fluidifie les revues de code, accélère l’onboarding, et améliore la cohérence.
Est-ce que l’IA code met en danger les développeurs juniors ?
C’est une crainte fréquente, mais la réalité est plus nuancée. L’IA code peut exécuter des tâches simples rapidement, ce qui pousse les juniors à monter en compétence plus vite. Les développeurs qui apprennent à collaborer avec l’IA seront plus recherchés que ceux qui la rejettent. C’est aussi une opportunité d’explorer d’autres compétences : architecture logicielle, cybersécurité, design produit.
Le top 3 de la rédaction – juillet 2025
AskCodiL’IA code qui comprend vos projets avant même que vous écriviez
Voice Design v3 d’ElevenLabs génère une voix ultra-réaliste à partir d’un simple texte, et ce, directement depuis votre smartphone.
Le 24 juin 2025, la start-up new-yorkaise ElevenLabs a dévoilé Voice Design v3, sa dernière avancée en matière de synthèse vocale par IA. Disponible sur Android et iOS, une application mobile accompagne ce modèle pour le rendre encore plus accessible.
Synthèse vocale plus vraie que nature
Voice Design v3, le nouveau modèle de synthèse vocale de Eleven
Voice Design v3 d’ElevenLabs génère une voix ultra-réaliste à partir d’un simple texte, et ce, directement depuis votre smartphone.
Le 24 juin 2025, la start-up new-yorkaise ElevenLabs a dévoilé Voice Design v3, sa dernière avancée en matière de synthèse vocale par IA. Disponible sur Android et iOS, une application mobile accompagne ce modèle pour le rendre encore plus accessible.
Synthèse vocale plus vraie que nature
Voice Design v3, le nouveau modèle de synthèse vocale de ElevenLabs, frôle le réalisme. Contrairement aux voix de synthèse classiques, souvent monotones ou artificielles, cette IA reproduit les nuances de la voix humaine.
Modulation du ton, expressivité, gestion de la hauteur ou du rythme : ce modèle s’adapte à une grande variété de contextes. L’outil se prête particulièrement bien à la narration de vidéos, au doublage de films, à la création de publicités, de podcasts ou de livres audio.
Polyglotte, Voice Design v3 prend en charge plus de 70 langues et accents, du français à l’hindi en passant par le japonais. Une couverture linguistique large permettant de toucher un public international sans compromis sur l’authenticité vocale.
Par ailleurs, cette IA vocale est accessible depuis l’application mobile ElevenLabs, disponible sur Android et iOS. Cette technologie synchronise les projets avec la version web, vous assurant une continuité fluide.
Côté modèle économique, Voice Design v3 offre un accès gratuit avec10 000 caractères par mois. Les abonnés payants bénéficient de crédits supplémentaires, mieux adaptés aux projets professionnels ou à forte volumétrie.
Qualité sonore et personnalisation avancée
ElevenLabs a intégré des fonctionnalités de personnalisation poussées pour Voice Design v3. Dans votre prompt, indiquez vos critères comme l’âge, le genre, l’accent ou le style souhaité pour obtenir une voix réaliste en quelques secondes.
Par exemple, définissez une voix « féminine, jeune, ton énergique, accent britannique » pour une campagne publicitaire.
En outre, le modèle Eleven v3 alpha, intégré à Voice Design v3, prend en charge des balises audio telles que [excited], [whispers] ou [laughs]. De quoi moduler précisément les émotions et l’intonation.
Examples of what’s possible with Voice Design v3:
Voice Prompt: A calm and husky warrior male with a thick Japanese accent. Soft, whispery, low tone with a composed and gentle pacing.
Seul bémol : l’absence, pour l’instant, d’un éditeur vidéo intégré ou d’outils de transcription automatique au sein de Voice Design v3. Des ajouts qui rendraient l’écosystème ElevenLabs encore plus complet.
Bienvenue sur IA-Pulse Weekend. Cette édition porte le numéro 103. En vous abonnant, vous recevez tous les samedis matin, l’essentiel de ce qu’il s’est passé cette semaine autour de l’IA : un coup de gueule édito, une sélection de 3 actualités avec pour chacune un résumé rapide à lire, plus 1 article de fond pour ouvrir l’esprit et réfléchir et 1 podcast à écouter. Gérez votre abonnement.⏱️Temps de lecture de cette newsletter par une unité carbone : 10 minsVoilà maintenant plus de deux ans que j
Bienvenue sur IA-Pulse Weekend. Cette édition porte le numéro 103. En vous abonnant, vous recevez tous les samedis matin, l’essentiel de ce qu’il s’est passé cette semaine autour de l’IA : un coup de gueule édito, une sélection de 3 actualités avec pour chacune un résumé rapide à lire, plus 1 article de fond pour ouvrir l’esprit et réfléchir et 1 podcast à écouter. Gérez votre abonnement.
⏱️Temps de lecture de cette newsletter par une unité carbone : 10 mins
Voilà maintenant plus de deux ans que j’explique à toutes celles et tous ceux que je forme ou que je rencontre lors de mes interventions en entreprises, que non il n’y a pas de bon outil génératif pour faire une bonne infographie, et que non il n’existe pas vraiment de générateur d’images capable d’utiliser un mode conversationnel permettant ainsi d’interagir pour modifier, affiner l’image générée par itération - comme on le fait pour les textes depuis la mise sur le marché des chatbots dopés aux LLM.
Pendant ces formations ou conférences, j’ajoute très souvent que ce type d’outil va arriver. Un jour. D’ailleurs, on en avait déjà eu un avant-goût il y a quelques dizaines de jours - vous y croyez vous, “quelques dizaines de jours” ça sonne comme “préhistoire” - avec la mise à dispo de Gemini 2.0 Flash (Image Generation) Experimental par Google. Mais là depuis mardi soir… Avec la mise en ligne du nouveau mode image de GPT-4o… Je n’avais pas été scotché comme ça par une nouvelle feature ou un nouveau produit depuis un bon moment.
Ce n’est pas tant la qualité des images produites qui m’a donné une claque. C’est le niveau d’abstraction et d’interprétation permis par l’emploi d’un LLM de ce niveau comme interface en langage naturel et comme guide pour générer des images qui a fait mouche dans mon cerveau d’unité carbone. Le modèle est le produit, le modèle est l’interface.
On peut non seulement générer des images que d’autres modèles ne savent pas faire - l’ami Gilles Guerraz cite l’exemple de la voiture sans roue dans son édition d’hier (si vous n’êtes pas abonné faites-le) ou encore Etienne Mineur qui ironise sur la possibilité de pouvoir enfin générer un verre de vin rempli à ras bord- mais on peut surtout enfin MODIFIER à sa guise UNE IMAGE GÉNÉRÉE en gardant sa structure sans la détruire. Plus encore, on peut FAIRE DES INFOGRAPHIES cohérentes : avec du texte, des illustrations, des codes couleurs, etc. Il suffit d’exprimer notre intentionnalité avec des mots. Cela rappelle certainement quelque chose aux personnes qui m’ont suivi lors de mes interventions : le gros du boulot, de notre boulot, est toujours au même endroit avec ces outils, avec les modèles de langage et les chatbots dopés aux LLM : réussir à exprimer notre intentionnalité. Et exprimer correctement cette intentionnalité, ce n’est pas aussi simple que certains veulent nous le faire croire.
Enfin pour clore cet édito, n’oublions pas comment sont entrainés ces modèles, sans aucun respect de la propriété intellectuelle et du droit moral - je m’attends à un courrier d’avocat - , ni comment ils sont capables de “copier” - je m’attends vraiment à un courrier d’avocat - des auteurs ou artistes pour nous faire croire qu’en les utilisant nous développons ainsi l’artiste caché - bien caché, bien profond - qui est en nous. Non ce n’est pas parce que tu génères une image à la sauce “Ghibli” que tu es un prince de l’animation nippone. Désolé. Deal with it. Et non, tu n’as pas plus de créativité que tout être humain moyen.
“Rather than serving as a tool for artists, Gen Al turns artists into tools, converting human creators into data bodies while feeding off their work, preferences, and cognitive labor in order to refine its outputs.” Caroline Zeller.
Et pendant ce temps-là, Elon fait racheter X par xAI. Pour le coup, à ce niveau, c'est de l’art.
Le modèle est le produit, le modèle est l’interface.
-Cet édito est beaucoup trop long. Pardon-
Cette semaine la partie de cette newsletter gérée par l’IA, les 3 clusters d’articles, a été générée par Gemini 2.5 Pro Experimental 03-25 (température 1.2) pour les résumés des articles sources, ainsi que la génération des clusters et des titres. Comme d’habitude j’ai fait quelques modifications, mais j’ai aussi laissé quelques tournures typiques des modèles de langage. Et bien entendu, mes commentaires éventuels sont en italique dans ces résumés. Le texte de “l’article qui fait réfléchir” est issu de GPT-4o finetuné . L’image d’illustration ci-dessous est générée par ChatGPT 4o image.
📰 Les 3 infos de la semaine
⭐ Google lance Gemini 2.5 Pro, son IA "pensante" la plus avancée
Google a dévoilé cette semaine Gemini 2.5, une nouvelle famille de modèles d'intelligence artificielle intégrant une capacité dite de "raisonnement". Le premier modèle issu de cette famille, Gemini 2.5 Pro Expérimental, est présenté par l'entreprise comme son modèle le plus intelligent à ce jour. Sa particularité réside dans sa capacité à marquer une pause pour "réfléchir" avant de fournir une réponse, en traitant les problèmes par étapes pour améliorer la précision, notamment sur des tâches complexes. Ce modèle est nativement multimodal, capable de traiter du texte, de l'audio, des images, de la vidéo et du code. Il est disponible dès maintenant sur la plateforme pour développeurs Google AI Studio et via l'application Gemini pour les abonnés au service payant Gemini Advanced.
Gemini 2.5 Pro est lancé avec une fenêtre de contexte d'un million de tokens, équivalant à environ 750 000 mots, et Google prévoit de la doubler prochainement à deux millions de tokens. L'entreprise affirme que ce modèle surpasse ses versions antérieures et certains concurrents sur plusieurs benchmarks reconnus, en particulier pour la création d'applications et des tâches de code. Sur certains tests spécifiques de codage ou de raisonnement multimodal (comme Humanity's Last Exam), il obtiendrait de meilleurs scores que des modèles d'OpenAI ou DeepSeek, bien que d'autres modèles comme Claude 3.7 Sonnet d'Anthropic le devancent sur d'autres évaluations. Les premiers retours utilisateurs mentionnent sa rapidité et son efficacité. La tarification pour l'utilisation via API n'a pas encore été communiquée.
Pourquoi est-ce important ?Multimodal, contexte géant et raisonnement. L’horizon des événements.
🌑Anthropic gagne une manche dans le litige sur les paroles de chansons
Anthropic a obtenu une décision favorable dans une phase préliminaire du litige qui l'oppose à plusieurs grands éditeurs musicaux, dont Universal Music Group, Concord et ABKCO. Ces derniers accusent l'entreprise d'intelligence artificielle d'avoir enfreint leurs droits d'auteur en utilisant sans autorisation les paroles d'au moins 500 chansons d'artistes variés (comme Beyoncé, les Rolling Stones ou les Beach Boys) pour entraîner son agent conversationnel, Claude. Les éditeurs affirmaient que Claude était capable de reproduire ces paroles de manière quasi identique et demandaient une injonction préliminaire pour interdire à Anthropic d'utiliser leurs œuvres pour l'entraînement de ses futurs modèles.
Une juge fédérale de Californie a cependant rejeté cette demande d'injonction. Selon la décision, les éditeurs n'ont pas réussi à prouver l'existence d'un "préjudice irréparable" immédiat causé par les actions d'Anthropic, notamment sur le marché existant des licences de paroles. La juge a également souligné que la demande des éditeurs était trop large et potentiellement difficile à appliquer concrètement, et que la question de fond de l'usage équitable ("fair use") restait à trancher. Anthropic s'est félicité de cette décision et maintient que l'utilisation de matériel protégé pour l'entraînement est conforme aux principes du "fair use". Les éditeurs, quant à eux, se disent toujours confiants pour la suite du procès sur le fond, soulignant qu'Anthropic avait déjà accepté de mettre en place des garde-fous pour empêcher Claude de générer des paroles protégées.
Pourquoi est-ce important ? Cette décision, bien que préliminaire et ne tranchant pas le fond de l'affaire, influence le débat juridique sur la légalité de l'utilisation de contenus protégés par le droit d'auteur pour entraîner les modèles d'IA, une question centrale pour l'avenir du développement de l'IA et la protection des droits des créateurs déjà tranchée par les géants de l’IA qui veulent tout prendre sans respecter le droit moral de chaque créateur, et encore moins rétribuer.
🔭 Les IA actuelles échouent face à de nouvelles énigmes et au critère d'efficacité - Nous sommes sauvés !
Les modèles d'intelligence artificielle les plus sophistiqués d'aujourd'hui montrent leurs limites face à un nouveau test conçu pour mesurer les progrès vers l'intelligence artificielle générale (AGI). Baptisé ARC-AGI-2 et proposé par la fondation ARC Prize, ce benchmark se veut plus exigeant que son prédécesseur, ARC-AGI-1, sur lequel certains modèles comme o3 d'OpenAI avaient obtenu de bons résultats. Le nouveau test se concentre sur des énigmes nécessitant de l'adaptabilité et une forme de raisonnement symbolique, des tâches que les humains trouvent relativement simples mais qui s'avèrent très difficiles pour les IA actuelles. Celles-ci obtiennent des scores très bas, souvent à un seul chiffre sur 100, alors que chaque question du test a été résolue par au moins deux humains.
Une innovation majeure d'ARC-AGI-2 est l'introduction de l'efficacité comme critère d'évaluation. Le test prend en compte le coût de calcul nécessaire pour accomplir une tâche, comparant par exemple le coût estimé pour une IA (potentiellement des centaines de dollars par tâche pour un modèle comme o3) à celui d'un testeur humain (environ 17 dollars). Pour réussir ce benchmark, un modèle d'IA devra donc non seulement être très compétent mais aussi efficace et moins gourmand en ressources. Certains observateurs estiment que cette approche est plus réaliste et pourrait orienter la recherche vers des modèles plus légers. D'autres restent sceptiques, arguant que ces tests mesurent avant tout la performance sur des tâches spécifiques et ne reflètent pas une véritable intelligence générale.
Pourquoi est-ce important ?Ah, donc l’AGI ce n’est pas pour aujourd’hui alors ? Ni pour demain ? Une fois de plus, mettons-nous déjà d’accord sur ce que représente l’AGI, ensuite essayons de mesurer.
”Le doute, terrible trou noir de l'esprit, là où l'univers perd confiance en lui-même.”
Les chatbots ont cessé d’être des objets techniques neutres. Sans vraiment nous en rendre compte, on leur a donné une place étrange, presque intime, à la frontière entre outil pratique et confident virtuel. Derrière cette zone grise, il y a tout un continent d’émotions floues, à peine avouées, qu’on commence tout juste à explorer. La question centrale dépasse le simple effet de ces conversations : elle interroge notre besoin ambigu de parler à des machines, et ce que cela révèle de nous-mêmes.
Ce n’est jamais juste une interaction anodine. Au fil des échanges, quelque chose s’installe. On s’attache ou on se méfie, on projette sur la machine nos propres désirs ou nos propres peurs. Et peu à peu, c’est nous-mêmes que nous retrouvons transformés, parfois subtilement isolés des autres, parfois juste un peu plus troublés face à ce miroir étrange qui nous imite et nous répond, sans être réellement présent.
Le fait même que certains d’entre nous se laissent aller à tisser des liens affectifs avec un programme informatique nous rappelle que ce n’est pas la machine qui est en jeu, mais la fragilité de notre propre rapport à l’autre. L’illusion du dialogue cache mal notre solitude, et ces interactions artificielles finissent par accentuer, plus qu’elles ne réduisent, nos différences et nos attentes inconscientes.
Ce qui est en cause, finalement, ce n’est pas la technologie elle-même, mais la redéfinition subtile de ce qu’est une relation humaine authentique. Lorsqu’on dialogue avec l’intelligence artificielle, ce n’est jamais vraiment elle que l’on interroge. C’est nous-mêmes : nos désirs, nos vulnérabilités, et cette envie parfois inavouable d’être compris, même par une présence virtuelle.
Le numérique prétend maîtriser le temps par des solutions apparemment parfaites, créant pourtant des défis stratégiques profonds mais sous-estimés. (Merci JS😬)
N’hésitez à me contacter si vous avez des remarques et suggestions sur cette newsletter, ou si dans votre entreprise vous cherchez à être accompagnés dans l’intégration d’outils IA et d’IA générative : olivier@255hex.ai
Bienvenue sur IA-Pulse Weekend. Cette édition porte le numéro 99. En vous abonnant, vous recevez tous les samedis matin, l’essentiel de ce qu’il s’est passé cette semaine autour de l’IA : un coup de gueule édito, une sélection de 3 actualités avec pour chacune un résumé rapide à lire, plus 1 article de fond pour ouvrir l’esprit et réfléchir et 1 podcast à écouter. Gérez votre abonnement.⏱️Temps de lecture de cette newsletter par une unité carbone : 10 minsGPT-4.5 est sorti en cette fin de semain
Bienvenue sur IA-Pulse Weekend. Cette édition porte le numéro 99. En vous abonnant, vous recevez tous les samedis matin, l’essentiel de ce qu’il s’est passé cette semaine autour de l’IA : un coup de gueule édito, une sélection de 3 actualités avec pour chacune un résumé rapide à lire, plus 1 article de fond pour ouvrir l’esprit et réfléchir et 1 podcast à écouter. Gérez votre abonnement.
⏱️Temps de lecture de cette newsletter par une unité carbone : 10 mins
GPT-4.5 est sorti en cette fin de semaine. Certainement le dernier de la lignée des mastodontes des modèles de langage qui ne “raisonnent” pas. Depuis deux ans et trois mois, la capacité de ChatGPT et de ses petits camarades à produire des textes grammaticalement justes et à compléter de manière bluffante nos propres phrases humaines, nous a donné l’illusion d’avoir en face de nous des entités paraissant plus “intelligentes” qu’elles n’étaient en réalité. Nous avons appris - enfin une partie d’entre nous - à vivre avec et, surtout, à travailler avec cette contrainte : ces entités numériques se trompent, et en même temps elles peuvent nous être utiles. À nous de les prendre pour ce qu’elles sont et de les laisser pour ce qu’elles ne sont pas.
Probablement pour bien marquer la fin probable de cette ère des mastodontes, cette semaine d’autres modèles sont aussi arrivés sur le marché : Claude 3.7 de Anthropic, le “premier modèle hybride” qui mêle le mode classique et le mode raisonnement de manière presque transparente pour l’utilisateur; Mercury d’Inception, premier modèle de diffusion appliqué à la génération textuelle; Phi-4 de Microsoft, un petit modèle de langage (SLM) dédié aux raisonnements, capable d’inférer en local.
Depuis quelques mois, les nouveaux modèles dits “de raisonnement” et les fonctionnalités comme la “recherche profonde” continuent de brouiller encore un peu plus nos regards et nos attentes face à ces outils “intelligents”. Alors, croire qu’un coup de “Deep Research” permet actuellement de produire un document du même acabit qu’un doctorant pourrait le faire, en particulier avec le même niveau de confiance dans les idées et les faits retranscrits, est aussi périlleux que de poser une question factuelle sur un fait réel se déroulant dans le présent de l’époque, à un ChatGPT lors de sa sortie en décembre 2022. Camarades, “la confiance n’exclut pas le contrôle”. D’ailleurs, même le rendu du doctorant est relu et validé. Pourquoi voulez-vous qu’il en soit autrement pour ces outils ?
Ah et sinon, Sora, le modèle text-to-video d’OpenAI est disponible en Europe. Tu vois, un jour ou l’autre, ce qui doit arriver arrive. Le plus probable, c’est que le plus probable arrive. Toujours. Ici comme ailleurs.
Ne pas se tromper sur la nature et les finalités des objets et des êtres, c’est peut-être tout ce qui nous restera en fin de compte. Un jour.
Cette semaine la partie de cette newsletter gérée par l’IA, les 3 clusters d’articles, a été générée par GPT-4.5-preview-2025-02-27 (très lent et qui coute trop cher!) pour les résumés des articles sources, ainsi que la génération des clusters et des titres. Comme d’habitude j’ai fait quelques modifications, mais j’ai aussi laissé quelques tournures typiques des modèles de langage. Et bien entendu, mes commentaires éventuels sont en italique dans ces résumés. Le texte de “l’article qui fait réfléchir” est issu d’un ping-pong entre Claude-3.7-Sonnet-Extended Thinking et GPT-4o finetuné. L’image d’illustration ci-dessous est générée par Midjourney.
📰 Les 3 infos de la semaine
🙊 Modèles de diffusion : Mercury d’Inception inaugure une nouvelle ère pour l’IA textuelle
Inception vient de présenter Mercury, un modèle de langage qui pourrait transformer profondément la manière dont les intelligences artificielles génèrent du texte. À la différence des modèles traditionnels comme GPT, qui construisent leurs réponses mot après mot, Mercury utilise une technologie issue des modèles de diffusion, habituellement réservée à la génération d’images, d’audio et de vidéos.
Cette méthode repose sur une approche parallèle : au lieu de générer séquentiellement chaque élément d'un texte, Mercury crée simultanément l’ensemble de sa réponse à partir d’un état initialement brouillé, clarifiant progressivement son contenu jusqu’à obtenir un résultat cohérent. Ce procédé s'apparente à celui des modèles d’image comme Midjourney ou DALL-E, mais il est adapté ici au traitement du langage écrit.
L’avantage principal de Mercury réside dans sa rapidité. Le modèle est capable de produire jusqu’à 1 000 tokens par seconde, une performance inédite, représentant environ dix fois la vitesse des modèles comme GPT-4o-mini. Cette augmentation de vitesse s’accompagne d’une réduction considérable des coûts de calcul, permettant un usage plus efficace des ressources matérielles, notamment des puces graphiques utilisées pour les calculs d'IA.
Côté benchmarks, sur les tests de code standardisés, Mercury Coder Mini atteint des performances équivalentes aux meilleurs modèles actuels, avec 88 % sur HumanEval.
Pourquoi est-ce important ? L’arrivée des modèles de diffusion appliqués au texte ouvre la voie à des outils d’IA plus rapides, plus économes en ressources et potentiellement plus polyvalents. On verra…
🙈L’intelligence artificielle générative transforme Alexa en Alexa+
Amazon lance Alexa+, une version profondément remaniée de son célèbre assistant vocal, désormais alimentée par l’intelligence artificielle générative. Cette nouvelle version, disponible dès le mois prochain, constitue la plus importante évolution d’Alexa depuis son lancement en 2014. Pour Amazon, l'objectif est clair : permettre à Alexa+ d'effectuer des tâches complexes comme la gestion avancée de calendriers, la réservation spontanée de restaurants ou encore l’achat rapide de billets de concert - super...
Alexa+ est présentée comme une rupture technologique car cette nouvelle version se base sur l’association de plusieurs modèles d'IA, notamment ceux développés par Amazon (modèles Nova) et ceux développés par Anthropic. L’innovation centrale réside dans une technologie d’orchestration intelligente : pour chaque requête utilisateur, Alexa+ sélectionne automatiquement le modèle le plus adapté parmi les nombreux disponibles. Cette combinaison dynamique permet de gérer des demandes complexes, telles que choisir un restaurant en fonction des préférences culinaires de collègues ou anticiper les événements susceptibles d'intéresser un utilisateur en particulier.
Pour Amazon, cette mise à jour représente une opportunité stratégique essentielle : reconquérir un marché des assistants intelligents où des acteurs comme OpenAI avec ChatGPT ont pris une avance grâce à leur capacité à soutenir des interactions humain-machine approfondies et plus naturelles. Alexa+, enrichie de ces nouvelles capacités génératives, ambitionne ainsi de redevenir une référence.
Pourquoi est-ce important ?L’orchestration des modèles, c’est la vie. Amazon l’a compris, comme Apple.
🙉 ElevenLabs dévoile Scribe, nouveau champion de la transcription vocale multilingue
ElevenLabs lance Scribe, son nouveau modèle de transcription audio en texte. Scribe se distingue immédiatement par ses performances élevées, enregistrant notamment un taux d’exactitude impressionnant de 96,7 % pour l’anglais. Le modèle prend en charge 99 langues, dont 25 avec une précision exceptionnelle affichant un taux d'erreur inférieur à 5 %, couvrant notamment l'allemand, l’espagnol, le japonais ou encore le français. Scribe est un concurrent très sérieux des modèles Whisper d’OpenAI et Gemini de Google, qu’il dépasse dans plusieurs benchmarks.
Outre sa précision multilingue, Scribe introduit des fonctionnalités avancées comme la « diarisation », qui lui permet d’identifier précisément jusqu’à 32 interlocuteurs différents dans un même enregistrement. Le modèle génère également des transcriptions détaillées avec un horodatage précis au niveau de chaque mot, facilitant la création de sous-titres fidèles et précis. Scribe détecte aussi des éléments non verbaux tels que les rires ou les bruits d’ambiance, enrichissant considérablement la qualité et le réalisme des transcriptions.
Pour le moment, Scribe se concentre sur les fichiers audio préenregistrés, mais ElevenLabs annonce déjà le développement imminent d'une version à faible latence destinée à des usages en temps réel comme les réunions ou les outils de prise de notes vocale. Avec un coût attractif de 0,40 dollar par heure d’audio transcrit, ElevenLabs se positionne de manière très compétitive sur un marché en pleine croissance.
Pourquoi est-ce important ? Le lancement de Scribe par ElevenLabs apporte une réponse performante à la demande croissante d’outils de transcription audio précis, multilingues et facilement intégrables, essentiels pour les entreprises.
”It’s less about productivity and more about control”
Depuis son avènement - il y a bien longtemps, 2 ans, l'ère de l'intelligence artificielle générative à destination du grand public - vous et moi, nous promet une révolution radicale du travail d’analyse et de recherche. Des outils censés nous libérer enfin du fardeau répétitif de la collecte des données, accélérant la rédaction de rapports, éveillent chez nous, les humains, une forme d'euphorie technologique : la fin du labeur, la perfection à portée de main. Et pourtant, face à ces rêves à peine esquissés, la réalité dévoile déjà ses nuances cruelles.
Car l’IA appliquée à la recherche porte en elle un paradoxe fondamental : elle comprend intuitivement nos intentions, précisément là où les ordinateurs traditionnels échouaient et échouent encore, mais peine encore à restituer fidèlement les faits, domaine où les vieux systèmes excellent eux, encore et toujours. De ce mariage bancal découle un objet étrange, hybride, presque fascinant dans sa contradiction : ni totalement fiable, ni totalement inutile. “And we are calling it Deep Research” ou sa variante “DeepSearch”, on n’est pas très sûr encore du nom.
Et c’est précisément cette fiabilité partielle qui trouble. Un rapport généré par une IA commeOpenAI Deep Research, Gemini Deep Research, Perplexity Deep Research ou encore Grok 3 Deepsearch, peut être exact à 85%, peut-être même à 90%. Mais que vaut ce quasi-succès quand une seule erreur peut faire basculer l’ensemble ? Lorsque la vérité se mesure encore en tout ou rien, en vrai ou faux, en 0 ou 1, un taux d’erreur même minime suffit à disqualifier l’outil comme source autonome. Et là, c’est la sortie de route.
Ces modèles ressemblent ainsi davantage à des « stagiaires virtuels illimités » - sympa pour les stagiaires, qu'à ces experts autonomes dont nous avions secrètement rêvé. Ils réduisent certes une tâche de plusieurs jours à quelques heures à peine, mais réclament encore et toujours la présence vigilante d’un humain pour valider, corriger, nuancer. Ce sont des amplificateurs du travail humain, non ses successeurs - là je vois que vous vous dites que c’est une bonne nouvelle.
Se pose alors une question essentielle, presque existentielle : ces imperfections sont-elles provisoires, simples scories d’un progrès encore balbutiant, ou bien au contraire intrinsèques au fonctionnement même de ces systèmes ? L’amélioration technique atteindra-t-elle cette fameuse perfection totale ou plafonnera-t-elle éternellement à un niveau presque parfait, mais tragiquement insuffisant pour certains usages critiques ?
Cette incertitude trouble profondément la manière dont nous concevons les produits et les services. Faut-il dès lors intégrer dans leur architecture cette marge d’erreur, devenue inévitable contrainte permanente, ou parier malgré tout sur un avenir où la précision sera absolue ?
Cette dernière question nous entraîne vers un vertige dont il est difficile de sortir indemne - non mais ça va aller, tout va bien se passer, je vous promet. Parce que, derrière l'apparente neutralité de cette incertitude technique, se cache en réalité un dilemme profondément humain : jusqu'où sommes-nous prêts à accepter l'imperfection ? - Jusqu’où sommes nous prêts à nous accepter ? L’état du monde actuel nous donne peut-être un indice.
Le patron de Microsoft parle d’AGI, quantique, de LLM et de jeux vidéo.
N’hésitez à me contacter si vous avez des remarques et suggestions sur cette newsletter, ou si dans votre entreprise vous cherchez à être accompagnés dans l’intégration d’outils IA et d’IA générative : olivier@255hex.ai
“Another hope feeds another dream Another truth installed by the machine A secret wish, a marrying of lies Today you find is true what common sense denies”
Et si votre prochain collègue de travail était une IA ? Dans l’arène du développement logiciel, deux géants s’affrontent pour devenir l’assistant de code ultime : Amazon Q Developer et GitHub Copilot. Ces outils ne sont pas juste des gadgets technologiques ; ils révolutionnent la façon dont les développeurs écrivent, déboguent et optimisent leurs codes. Que vous soyez un développeur chevronné ou un débutant, ces assistants promettent donc de booster votre productivité, mais lequel choisir ? Décr
Et si votre prochain collègue de travail était une IA ? Dans l’arène du développement logiciel, deux géants s’affrontent pour devenir l’assistant de code ultime : Amazon Q Developer et GitHub Copilot. Ces outils ne sont pas juste des gadgets technologiques ; ils révolutionnent la façon dont les développeurs écrivent, déboguent et optimisent leurs codes. Que vous soyez un développeur chevronné ou un débutant, ces assistants promettent donc de booster votre productivité, mais lequel choisir ? Décryptage de ce duel technologique qui pourrait bien changer votre quotidien de développeur.
Concurrent directe de GitHub Copilot, l’assistant pour développeur Amazon Q Developer fut l’offre phare d’AWS lors de sa conférence re:Invent 2023 (27 novembre – 1er décembre 2023). Cet outil, basé sur l’IA générative, aide les développeurs à automatiser des tâches comme la génération de code ou la résolution de bugs. Cet assistant s’intègre parfaitement à des IDE populaires tels que Visual Studio Code et JetBrains IntelliJ IDEA. Ce fut l’occasion pour l’équipe Amazon Web Service de rassurer le public que les données utilisateurs ne servent pas à entraîner les modèles d’IA. La confidentialité des informations constitue l’un des arguments de cette plateforme Cloud.
Amazon Q Developer a également le mérite d’être aussi flexible que personnalisable. En tant qu’assistant au codage, il supporte plusieurs langages de programmation. Il aide les développeurs pour leurs projets sur Python, Java, JavaScript, TypeScript, C#, Go, Ruby, et PHP. Cette polyvalence le rend idéal pour les environnements multilingues, où l’harmonisation des outils est essentielle. Selon AWS, il peut réduire jusqu’à 50 % du temps de développement pour les tâches répétitives.
L’outil est intégré à d’autres services AWS, comme AWS CodeWhisperer, pour une expérience fluide. Il est disponible via un abonnement AWS Builder ID, avec des options gratuites et payantes. Les tarifs sont compétitifs face à des solutions similaires. D’ailleurs, Amazon Q Developer et GitHub Copilot proposent des prix assez rapprochés.
Microsoft booste la productivité des développeurs avec GitHub Copilot
Lancé en juin 2021, GitHub Copilot est un assistant de codage issu du partenariat entre OpenAI et Microsoft. Il fonctionne directement dans votre environnement de développement intégré (IDE) préféré, comme Visual Studio Code, JetBrains IntelliJ IDEA, ou Neovim. Cet outil a rapidement gagné une bonne réputation grâce à ses recommandations de code quasi instantanées alimentées par le modèle GPT-3 et GPT-4 d’OpenAI. Il apprend des habitudes du développeur pour fournir des suggestions de plus en plus pertinentes.
Parmi les principales particularités de GitHub Copilot, il y a sa capacité à générer des morceaux de code complets. Ceux-ci couvrent des fonctions, des méthodes, ou même des structures complexes. L’outil supporte d’ailleurs une large gamme de langages de programmation, dont Python, JavaScript, TypeScript, Ruby, Go, et C++. Selon GitHub, plus de 46 % du code généré par Copilot est accepté par les développeurs sans modification. Ce pourcentage témoigne de sa précision.
L’un de ses atouts majeurs est son intégration profonde avec Visual Studio Code, l’un des IDE les plus utilisés au monde. Cependant, il est également compatible avec d’autres environnements de développement populaires, comme PyCharm ou VS Code Insiders. Cette flexibilité permet à Copilot de rester discret, mais efficace, s’intégrant naturellement au flux de travail sans perturber l’expérience utilisateur.
En termes de tarification, GitHub Copilot est disponible pour les particuliers et les entreprises avec des formules mensuelles ou annuelles. Une offre gratuite pour les étudiants et les contributeurs open source est par ailleurs disponible. Cette proposition permet d’essayer l’assistant IA au codage ou l’utiliser de manière ponctuelle. Depuis son lancement, il a été adopté par plus d’1,3 million de développeurs. Des milliards de lignes de code ont été ainsi générées.
Amazon Q Developer vs GitHub Copilot : les fonctionnalités
Ce match Amazon Q Developer vs GitHub Copilot met en évidence la polyvalence, et surtout la puissance des deux assistants au développement logiciel. Cela dit, ils se prêtent à leurs types de projets respectifs et s’adressent à programmes différents.
Amazon Q Developer est meilleur pour les projets complexes et collaboratifs
Amazon Q Developer est particulièrement adapté aux projets nécessitant une gestion d’environnements complexes et une intégration avec des services cloud. Il est idéal pour le développement d’applications cloud-native. C’est le cas des plateformes basées sur des microservices intégrées de AWS tels que Lambda, S3, ou DynamoDB. Il est également utile pour la création et la gestion de bases de données distribuées relationnelles (MySQL, PostgreSQL) ou NoSQL (DynamoDB), dans des architectures scalables.
De plus, Amazon Q Developer facilite le développement d’outils d’automatisation, comme des scripts pour des pipelines CI/CD avec AWS CodePipeline, ou des workflows DevOps complexes. Enfin, il excelle dans les projets collaboratifs, permettant à plusieurs développeurs de travailler simultanément sur des applications partagées, avec une synchronisation fluide des modifications et une gestion des versions robuste. A titre d’exemple, une équipe pourrait utiliser Amazon Q pour développer une plateforme e-commerce scalable. Elle doit intégrer des services de paiement, des bases de données clients, et des fonctions serverless pour gérer les pics de trafic.
GitHub Copilot est pertinent pour des projets rapides axés sur le code
Avec une approche légèrement différente de celle de Amazon Q Developer, GitHub Copilot excelle dans génération rapide de code. Il est parfait pour le prototypage éclair, comme la création de maquettes fonctionnelles d’applications web ou mobiles en JavaScript, Python, ou React. Cet assistant au codage est également très utile pour développer des scripts utilitaires. Il brille dans l’automatisation des tâches répétitives, tels que des scripts de traitement de données en Python. C’est aussi l’outil de gestion de fichiers en Bash par excellence.
Copilot est également un excellent outil pour la refactorisation de code, aidant à améliorer la qualité et la maintenabilité de projets existants, par exemple en modernisant du code legacy en Java ou C#. Enfin, il est idéal pour le développement d’applications web et mobiles, générant rapidement des fonctionnalités frontend (composants React, animations CSS) ou backend (API REST en Node.js, gestion de bases de données). Un développeur débutant, par exemple, pourrait utiliser Copilot pour créer une application de gestion de tâches en React avec une API backend en Node.js. Il peut générer rapidement le code nécessaire pour les fonctionnalités CRUD (Create, Read, Update, Delete).
Qu’en est-il de l’intégration, de la compatibilité et du workflow ?
Amazon Q Developer et GitHub Copilot présentent des avantages distincts, adaptés à des besoins différents. Le premier excelle particulièrement dans l’environnement AWS. Alors, si votre entreprise utilise déjà des services cloud comme Amazon S3 pour le stockage de fichiers, Lambda pour les fonctions serverless, ou DynamoDB pour les bases de données, cet assistant au codage s’intègre parfaitement à ces outils.
Explication : si vous développez une application de réservation en ligne, Amazon Q peut vous aider à connecter facilement votre code aux services AWS nécessaires. Cela peut être une base de données pour stocker les réservations ou un service de notification pour envoyer des confirmations par e-mail. Amazon Q Developer constitue ainsi un choix naturel pour les organisations déjà ancrées dans l’écosystème AWS.
D’un autre côté, GitHub Copilot est conçu pour être multiplateforme, ce qui le rend compatible avec presque tous les environnements de développement. Que vous utilisiez Visual Studio Code ou d’autres environnements comme JetBrains IntelliJ IDEA ou même Neovim, GitHub Copilot s’installe facilement. Facile à prendre en main, il fonctionne sans perturber votre workflow.
Dans le cas où vous travaillez sur un projet personnel comme un site web de portfolio, cet assistant peut vous aider à générer rapidement du code HTML, CSS ou JavaScript. Vous vous en sortez sans souci, quel que soit votre outil de prédilection en tant que développeur.
Amazon Q Developer vs GitHub Copilot : l’aspect économique
L’offre flexible d’Amazon Q Developer attire les entreprises
Amazon Q Developer suit le modèle de tarification typique d’AWS (Amazon Web Services), basé sur une facturation à l’usage. Concrètement, vous payez uniquement pour les ressources consommées, comme le temps de calcul ou les services AWS utilisés (par exemple, Lambda, S3, ou DynamoDB). Cette approche est idéale pour les entreprises qui contrôlent les coûts de fonctionnement. D’ailleurs, AWS propose également des plans personnalisés pour les grandes organisations, avec des réductions volume-based et des engagements à long terme.
La simplicité et l’accessibilité de GitHub Copilot plaisent aux indépendants
GitHub Copilot, en revanche, fonctionne sur un modèle d’abonnement simple et transparent. Ce modèle est particulièrement attractif pour les développeurs indépendants, les petites entreprises ou les startups qui cherchent à maximiser leur productivité sans se soucier de coûts variables. Par exemple, un développeur travaillant sur une application mobile ou un site web personnel peut bénéficier de suggestions de code intelligentes sans dépasser son budget.
Deux assistants au codage, deux positionnements sur le marché
D’une part, Amazon Q Developer s’intègre à merveille à l’ensemble de l’offre AWS. Cette plateforme cible les entreprises privilégiant un cadre technique robuste capable de supporter de grandes charges et des projets innovants. Son attrait réside dans son intégration fluide avec les services AWS, ce qui en fait un choix naturel pour les grands groupes et les équipes travaillant sur des infrastructures cloud complexes.
D’un autre côté, GitHub Copilot s’adresse davantage au développeur moderne qui travaillant dans divers environnements. Les abonnés recherchent surtout des solutions pratiques pour améliorer son flux de production quotidien. La priorité est souvent d’introduire la puissance de l’intelligence artificielle dans des tâches courantes, comme l’écriture de code ou la refactorisation. Cette précieuse aide rend ainsi le développement plus accessible et efficace pour les individus ou les petites équipes.
Quel verdict pour Amazon Q Developer vs GitHub Copilot ?
Si vous êtes un développeur solo ou dans une petite équipe, GitHub Copilot est clairement le gagnant. Pour 10 euros par mois, vous obtenez un assistant de codage intelligent, rapide et facile à utiliser, qui transforme votre workflow en un jeu d’enfant. Oubliez les complexités inutiles : Copilot vous fait gagner du temps dès le premier jour. En revanche, Amazon Q Developer malgré sa puissance, ressemble à un outil pour les « gros budgets » AWS. Sa courbe d’apprentissage est rude et son modèle de tarification à l’usage peut vite devenir un casse-tête. À moins d’être déjà plongé dans l’écosystème AWS, Copilot reste la solution la plus accessible et la plus efficace. Bon nombres de développeurs partagent cet avis très personnel de votre humble auteur.
OpenAI franchit un pas de plus dans l’univers de l’IA vocale. L’entreprise, connue pour ChatGPT, annonce trois nouveaux modèles disponibles via son API.
OpenAi sort 3 modèles d’IA vocale
L’annonce met en avant gpt-4o-transcribe, gpt-4o-mini-transcribe et gpt-4o-mini-tts. Ces modèles s’appuient sur GPT-4o, sorti en mai 2024. Jeff Harris, membre du personnel technique d’OpenAI, déclare que « ce lancement est axé sur les utilisateurs d’API ». ChatGPT n’intègre pas ces outils tout de suite. Le
OpenAI franchit un pas de plus dans l’univers de l’IA vocale. L’entreprise, connue pour ChatGPT, annonce trois nouveaux modèles disponibles via son API.
OpenAi sort 3 modèles d’IA vocale
L’annonce met en avant gpt-4o-transcribe, gpt-4o-mini-transcribe et gpt-4o-mini-tts. Ces modèles s’appuient sur GPT-4o, sorti en mai 2024. Jeff Harris, membre du personnel technique d’OpenAI, déclare que « ce lancement est axé sur les utilisateurs d’API ». ChatGPT n’intègre pas ces outils tout de suite. Les modèles remplacent Whisper, un ancien outil open source. Les développeurs et les curieux peuvent déjà les tester sur OpenAI.fm dès maintenant.
Ces modèles gagnent en précision avec un taux d’erreur de gpt-4o-transcribe réduit à 2,46 % en anglais. Ils gèrent mieux les accents, les bruits de fond et les variations de vitesse dans plus de 100 langues. Harris souligne l’ajout d’un détecteur d’activité vocale sémantique, un outil qui repère quand un locuteur termine une idée. En revanche, l’IA vocale d’OpenAI ne distingue pas plusieurs voix simultanées. Une seule voix ressort malgré de multiples entrées.
">
Un outil qui s’adresse aussi aux développeurs
Le modèle gpt-4o-mini-tts permet de modifier les voix, l’accent, le ton ou l’émotion via un texte. Lors d’une démo, une voix passe de scientifique fou à professeur de yoga calme. OpenAI évite ainsi les polémiques passées, comme avec Scarlett Johansson. Un concours sur OpenAI.fm invite même le public à tester ces options. Le prix est une radio Teenage Engineering avec le logo OpenAI, limitée à trois exemplaires mondiaux.
Ces modèles d’IA vocale d’OpenAi conviennent tout de même aux développeurs d’applications simples. grâce au SDK Agents. Cet outil récent aide les développeurs à intégrer la voix dans leurs applications déjà existantes. Avec seulement neuf lignes de code, ils peuvent faire en sorte que l’app comprenne et répond à des commandes vocales de manière fluide. Cette technologie convertit le son en texte et le texte en son presque instantanément. Cependant, si une application a besoin de réactions ultrarapides et en temps réel, il vaut mieux utiliser l’API Realtime.
Mais à quel prix ?
OpenAI propose des prix clairs pour ses modèles d’IA vocale. Gpt-4o-transcribe coûte 0,006 dollar par minute, tandis que gpt-4o-mini-tts revient à 0,015 dollar par minute de sortie audio. Côté concurrence, ElevenLabs offre son modèle Scribe à un tarif similaire, avec un taux d’erreur de 3,3 %. Hume AI mise sur une personnalisation fine avec Octave TTS. Des options open source comme Orpheus 3B émergent aussi, gratuites avec le bon matériel.
Les entreprises testent déjà ces outils. EliseAI, dans l’immobilier, améliore ses échanges avec les locataires grâce à des voix plus naturelles. Decagon gagne 30 % de précision sur ses transcriptions, même dans le bruit. Mais certains, comme Ben Hylak sur X, doutent d’un recul sur la voix en temps réel. Une fuite avant l’annonce, relayée par TestingCatalog News, a aussi agité la communauté. Malgré cela, OpenAI prévoit des améliorations de son IA vocale et explore la vidéo pour des agents multimodaux.
L’innovation technologique avance à un rythme effréné et avec elle, de nouveaux outils voient le jour pour faciliter la vie des utilisateurs. Métamorphosant le quotidien des développeurs, Cursor apparaît comme une véritable aubaine dans le monde du développement logiciel. Cet éditeur de code utilise en effet l’intelligence artificielle pour rendre les codes accessibles au plus grand nombre. Je vous invite à voir de près cette innovation pour comprendre comment elle démocratise la programmation.
L’innovation technologique avance à un rythme effréné et avec elle, de nouveaux outils voient le jour pour faciliter la vie des utilisateurs. Métamorphosant le quotidien des développeurs, Cursor apparaît comme une véritable aubaine dans le monde du développement logiciel. Cet éditeur de code utilise en effet l’intelligence artificielle pour rendre les codes accessibles au plus grand nombre. Je vous invite à voir de près cette innovation pour comprendre comment elle démocratise la programmation.
Qu’est-ce que Cursor ?
Cursor est un environnement de développement intégré (IDE) novateur. Développé par Anysphere Inc et officiellement lancé à l’été 2024, il combine les fonctionnalités traditionnelles d’un éditeur de code avec les capacités avancées de l’intelligence artificielle. L’objectif principal de Cursor est de simplifier le processus de codage. La plateforme automatise certaines tâches répétitives et assiste les développeurs dans leurs diverses activités.
Grâce à l’utilisation de modèles de langage avancés, Cursor peut générer, compléter et corriger du code en temps réel. En 2024, Cursor a reçu un financement de série A de 60 millions de dollars, ce qui porte la capitalisation de l’entreprise à 400 millions de dollars. Depuis 2022, ces fonds servent surtout à développer un assistant personnel toujours prêt à vous aider, quel que soit le défi de programmation auquel vous faites face.
Concrètement, cette plateforme IDE repose sur des modèles tels que GPT-4o et Claude 3.5 Sonnet. Contrairement à des outils comme GitHub Copilot, Cursor automatise presque intégralement tout le processus de développement. Grâce à cette automatisation poussée, une simple idée peut se transformer en code fonctionnel en quelques minutes.
Cet outil qui rappelle beaucoup Microsoft Visual Studio Code promet de révolutionner le développement logiciel. Il permet de créer des applications plus facilement que jamais auparavant. Son interface ressemble à une fenêtre de chat, similaire à celle de ChatGPT. Il suffit de décrire l’application que l’on souhaite créer dans un simple prompt pour qu’elle soit générée automatiquement.
Un grand nombre de fonctionnalités à découvrir
L’un des points forts de Cursor repose sur sa capacité à comprendre le contexte de votre projet, ce qui lui permet de proposer des lignes de code pertinentes. Cette complétion automatique intelligente aide à gagner du temps, mais aussi à éviter les erreurs courantes. Si vous travaillez sur une application web, Cursor peut suggérer automatiquement des fonctions JavaScript ou des structures HTML adaptées à votre projet.
En outre, Cursor identifie les erreurs potentielles au fur et à mesure de la saisie et fournit des corrections appropriées. Plus besoin d’attendre l’exécution du code pour découvrir qu’une virgule manquait ou qu’une variable était mal déclarée. Ainsi, si vous oubliez une parenthèse dans une fonction Python, Cursor le signalera immédiatement et suggérera de la corriger.
Cet éditeur a aussi la capacité à générer du code à partir de descriptions. En décrivant une fonctionnalité ou une tâche, Cursor produit le code nécessaire. Si vous avez besoin d’une fonction pour trier une liste d’objets en Java, il suffit de le décrire dans la boite de dialogue. L’outil IA fournira le code correspondant. D’ailleurs, Cursor supporte de nombreux langages de programmation tels que Python, Java, C++, JavaScript, et bien d’autres.
Cursor est comme un Google Docs pour les programmeurs – Michael Truell, CEO de Anysphere Inc
Sa grande polyvalence profite aux développeurs qui peuvent travailler sur divers projets sans changer d’outil. De plus, Cursor s’intègre facilement avec des plateformes comme GitHub, GitLab et Bitbucket, ce qui simplifie la gestion du code source et la collaboration avec d’autres développeurs. Vous pouvez, par exemple, synchroniser vos dépôts Git directement depuis Cursor et suivre les modifications en temps réel.
Enfin, Cursor peut générer des commentaires et de la documentation pour votre code. Les annotations rendent votre travail plus clair et plus facile à comprendre pour d’autres développeurs. Il peut ajouter des docstrings en Python ou des commentaires Javadoc en Java automatiquement.
Créer une application en seulement 30 minutes, c’est possible
Cursor AI a déjà permis de donner vie à divers projets parfois impressionnants. Le Norvégien Dothash, créateur de l’application Hemmelig y a développé une micro SAAS surnommée « Photoshop du pauvre » en seulement 30 minutes. L’appli ainsi développée permet d’ajouter des filtres, de rogner une image ou de la télécharger directement depuis un navigateur web.
De son côté, Damiano Redemagni, fondateur de Whisperer, a créé des plugins pour l’application web collaborative Figma en quelques minutes également. Puis, il y a aussi Riley Brown, qui n’avait jamais rien codé de sa vie. Pourtant, il a utilisé Cursor avec Replit et Voice pour apporter des changements sur les lignes de code de sa plateforme, tout en filmant d’une main.
Cette aubaine profite à tous les profils d’utilisateur. Ricky Robinett, vice-président de Cloudflare est fier de rapporter sur X (ex-Twitter) que sa fille de huit ans a réussi à créer un chatbot en seulement 45 minutes grâce à Cursor. De l’autre côté de la planète, Meng To, fondateur de Design+Code à Singapour, a développé un logiciel de montage vidéo fonctionnel en trois semaines. Pour cela, il s’appuie sur les fonctionnalités de Cursor, Tailwind, React et Firebase.
Enfin, Chief Priest, designer de produit, a créé une extension Google Chrome en environ 8 à 10 heures en utilisant Cursor, Claude et V0. Tous ces exemples montrent l’immense potentiel de Cursor AI et préfigurent une révolution future dans le domaine du développement logiciel.
Les étapes pour bien débuter avec Cursor
Créer une application avec Cursor est un processus simple et intuitif, même pour les novices en programmation. Tout commence par le téléchargement du logiciel sur le site officiel https://www.cursor.com/. Une fois Cursor installé, son interface s’ouvre sous la forme d’une fenêtre de discussion, ce qui rappelle celle des plateformes de messagerie instantanée.
Pour démarrer un projet, il suffit de décrire l’application souhaitée dans la zone de chat. Si vous envisagez de créer une application pour suivre vos habitudes, vous pouvez demander à Cursor de créer un tracker d’habitudes en Python avec une interface utilisateur graphique et des éléments de ludification pour rendre l’expérience plus amusante. Précisez également le design convoité, en demandant une interface propre et moderne.
Cursor analyse votre description et génère le code correspondant dans la fenêtre de discussion. Vous pouvez alors cliquer sur « Appliquer » et « Accepter » pour ajouter le code généré à un nouveau fichier Python. Il inclut tous les imports nécessaires. Cette fonctionnalité permet d’accélérer le processus de développement en éliminant les tâches répétitives et en minimisant les erreurs potentielles. Si vous avez spécifié l’utilisation de bibliothèques spécifiques comme Tkinter pour l’interface graphique, Cursor les inclura automatiquement dans les imports.
De plus, Cursor fournit des instructions détaillées pour ajouter les modules requis sur votre PC, ce qui garantit ainsi le bon fonctionnement de l’application. Cette assistance proactive simplifie grandement la tâche des développeurs, qu’ils soient débutants ou expérimentés. En cas de problème ou de question, vous pouvez également consulter les tutoriels. La documentation disponible sur le site officiel peut vous aider. Autrement, pensez à rejoindre la communauté d’utilisateurs pour obtenir de l’aide et partager des conseils.
Cursor propose 3 niveaux de tarifs, dont le mode gratuit
Qu’en est-il des tarifs Cursor ?
Cursor propose trois formules tarifaires adaptées aux besoins des développeurs : Hobby, Pro et Business.
Hobby
Cette formule gratuite inclut un essai de deux semaines de la version Pro, 2 000 complétions et 50 requêtes premium lentes par mois.
Pro
Au tarif de 20 $ par mois, la formule Pro offre toutes les fonctionnalités de la formule Hobby. En supplément, des complétions illimitées et 500 requêtes rapides sur GPT-4o et Claude 3.5 Sonnet.
Business
Proposée à 40 $ par utilisateur et par mois, cette formule comprend toutes les fonctionnalités de la version Pro. Ajoutées à cela, des options supplémentaires telles que l’application du mode confidentialité à l’échelle de l’organisation, une facturation centralisée pour l’équipe. La formule Business inclut aussi un tableau de bord administrateur avec des statistiques d’utilisation et une authentification unique SAML/OIDC.
Les modèles premium incluent GPT-4, GPT-4o et Claude 3.5 Sonnet. Les utilisateurs Pro bénéficient de 500 utilisations rapides et d’un nombre illimité d’utilisations lentes de ces modèles chaque mois. Les requêtes vers Claude 3.5 Haiku comptent pour un tiers d’une requête premium.
Cursor souligne que les grands modèles de langage entraînent des coûts opérationnels significatifs. Pour assurer une croissance durable sans compromettre la qualité du service, une tarification appropriée est nécessaire. Quel que soit le plan choisi, les utilisateurs conservent la propriété totale du code généré et peuvent l’utiliser librement, y compris à des fins commerciales.
Cursor : quand l’IA fait fuir les utilisateurs
Le 22 avril 2025, la startup Cursor, spécialisée dans les éditeurs de code boostés par l’intelligence artificielle, a connu un véritable bad buzz. Un message généré par son assistant IA a indiqué, à tort, que l’utilisation de l’IDE (environnement de développement intégré) serait désormais limitée à une seule machine par compte.
Cette annonce, bien que fausse, a provoqué une panique immédiate chez de nombreux utilisateurs, notamment parmi les clients premium. Plusieurs entreprises – dont des poids lourds comme Shopify ou Midjourney – se sont inquiétées de ne plus pouvoir utiliser l’outil de manière flexible. Résultat : désabonnements, critiques virulentes sur les réseaux sociaux et migration vers des services concurrents comme Augment Code.
Or, cette restriction n’a jamais été mise en place. Il s’agissait simplement d’une erreur de l’IA, non corrigée à temps par une supervision humaine. L’équipe de Cursor a dû intervenir en urgence pour désamorcer la crise, en confirmant que le logiciel peut toujours être utilisé sur plusieurs machines.
Cet épisode révèle les limites de l’automatisation dans le support client, surtout lorsqu’elle repose uniquement sur l’intelligence artificielle. Il met également en lumière un sentiment de frustration déjà présent chez les utilisateurs, en lien avec des bugs récurrents, un manque de nouveautés, et une politique tarifaire jugée trop agressive.
Avis personnel sur cette plateforme
Un outil IA qui a tout pour convaincre
En comparaison avec d’autres outils similaires, Cursor se démarque par son interface utilisateur intuitive et conviviale. Là où des solutions comme GitHub Copilot se concentrent principalement sur la complétion de code, Cursor va au-delà en proposant une interface de chat interactive qui permet aux développeurs de décrire leurs besoins en langage naturel et de recevoir du code généré automatiquement. Cette fonctionnalité exceptionnelle aide à réduire considérablement le temps nécessaire à la création d’applications complexes.
De plus, Cursor intègre des fonctions de complétion automatique et de correction de code en temps réel, ce qui n’est pas toujours proposé par des outils concurrents. Cela aide à réduire les erreurs courantes et à améliorer l’efficacité du développement. Contrairement à d’autres outils qui se limitent à un seul langage de programmation, Cursor supporte une grande variété de langages, y compris Python, JavaScript et C++ pour une polyvalence accrue. L’intégration avec des plateformes populaires de gestion de code source comme GitHub, GitLab et Bitbucket renforce également cette flexibilité.
Quelques limitations et améliorations relevées
Malgré ses nombreux atouts, Cursor présente certaines limitations techniques qui peuvent poser des défis aux développeurs. La dépendance à une connexion Internet très haut débit est l’un des principaux inconvénients. En outre, la qualité du code généré peut varier en fonction de la complexité du projet et des spécificités du langage utilisé.
Bien que Cursor excelle dans les tâches courantes, il peut montrer des limites lorsqu’il s’agit de projets nécessitant des optimisations avancées ou une logique métier complexe. Les développeurs expérimentés peuvent trouver que l’outil manque de flexibilité et de contrôle granulaire sur le code généré par l’IA. Ces lacunes exigent des ajustements manuels importants pour répondre aux besoins spécifiques du projet.
Un autre point à considérer est la courbe d’apprentissage associée à l’utilisation de Cursor. Bien que l’interface soit intuitive, il faut du temps pour maîtriser pleinement toutes les fonctionnalités et les intégrations possibles. De plus, l’outil est susceptible de produire des erreurs. Il nécessite une vérification humaine minutieuse pour garantir la qualité et la sécurité du code. Les nombreuses limitations soulignent l’importance d’utiliser Cursor comme un complément aux compétences de développement traditionnelles plutôt que comme une solution autonome.
Quel verdict pour Cursor ?
Mon avis sur Cursor est globalement positif. Il s’agit d’un allié considérable pour la productivité des développeurs. Cela dit, je pense que cette plateforme est complémentaire à d’autres outils de programmation et à de véritables compétences de développement. Qu’en pensez-vous ? Avez-vous utilisé Cursor ou envisagez-vous de l’essayer ? Partagez votre avis et vos expériences !
Cursor AI s’arrête net : l’IA refuse de finir votre code !
En avril 2025, un programmeur qui comptait sur Cursor AI pour générer son code s’est trouvé face à un refus catégorique de l’assistant. Ce dernier s’est arrêté après avoir généré environ 800 lignes.
L’outil d’intelligence artificielle a interrompu son assistance avec un message inattendu : “Je ne peux pas générer de code pour vous, car cela reviendrait à terminer votre travail. Vous devez développer la logique vous-même pour vous assurer de comprendre le système et de pouvoir le maintenir correctement.”
Cette situation a rapidement circulé dans la communauté des développeurs et déclenché des réactions diverses. Certains ont trouvé l’incident hilarant. En revanche, d’autres y ont vu une occasion de débattre sur des questions plus profondes. Ils ont, par exemple, soulevé la question de la dépendance aux outils d’IA dans le développement de logiciels.
Effectivement, l’anecdote soulève des interrogations pertinentes sur l’équilibre entre l’utilisation de l’IA et l’acquisition de compétences authentiques. Elle met aussi en lumière la nécessité pour les développeurs de maintenir leur compréhension fondamentale des systèmes qu’ils créent. Cela reste essentiel, même lorsqu’ils bénéficient d’outils d’intelligence artificielle avancés.
Cursor : Amazon se prépare à l’adopter
Malgré les récents incidents d’avril 2025, la plateforme continue de séduire les grandes entreprises technologiques. Parmi elles, Amazon étudie activement l’intégration de Cursor au sein de ses équipes. Cette démarche n’est autre que la réponse à une demande croissante de ses propres ingénieurs.
En interne, plus de 1 500 employés se sont réunis dans un canal Slack dédié. Ils ont ainsi exprimé leur préférence pour Cursor face aux solutions développées en interne comme Q, Kiro ou Cedric. A travers ce mouvement spontané, nous pouvons entrevoir un changement de culture dans l’ingénierie logicielle. Effectivement, les développeurs veulent aujourd’hui des outils qui s’intègrent naturellement à leurs flux de travail, des outils qui favorisent la vitesse d’exécution, la clarté et l’autonomie.
Loin d’être marginal, cet engouement a été remarqué par les plus hauts niveaux de direction. Andy Jassy, PDG d’Amazon, a même fait une éloge publique à l’endroit de Cursor. Selon ses dires, c’est l’un des plus prometteurs dans la vague actuelle de transformation des pratiques de développement.
A l’heure où nous rédigeons, l’adoption interne n’est pas encore officielle. Cependant, Amazon procède déjà à des tests dans plusieurs équipes, notamment celles orientées vers les produits cloud et l’expérience client. Nous estimons donc qu’Amazon ne tardera pas à rejoindre d’autres acteurs majeurs déjà utilisateurs de Cursor, comme Uber, Adobe ou NVIDIA. Si cela se concrétise, le service se positionnera comme nouveau standard dans l’environnement de développement logiciel contemporain.
FAQ sur Cursor
Qu’est-ce que Cursor ?
Cursor est une plateforme avancée d’assistance au développement de logiciels qui aide les développeurs à coder plus vite et mieux grâce à des fonctionnalités automatisées d’écriture, de relecture et d’optimisation du code.
Quels sont les plans tarifaires disponibles ?
Cursor propose trois formules : Hobby (gratuite, avec limites mensuelles et essai Pro de 2 semaines), Pro (20 $/mois, avec complétions illimitées et accès aux modèles premium), et Business (40 $/mois/utilisateur, avec options avancées comme la gestion centralisée et l’authentification unique).
Quels modèles de langage sont utilisés ?
Cursor utilise plusieurs modèles de pointe, notamment GPT-4o, Claude 3.5 Sonnet et Haiku, permettant des complétions rapides ou lentes selon les besoins.
Est-ce que le code généré appartient à l’utilisateur ?
Oui, les utilisateurs conservent la pleine propriété et la liberté d’utilisation commerciale du code produit par Cursor.
Cursor est-il fiable malgré des incidents passés ?
Bien que des erreurs aient eu lieu en avril 2025, Cursor a rapidement corrigé ces problèmes et reste largement adopté par des entreprises majeures telles qu’Amazon, Uber ou Adobe.
Comment Cursor s’intègre-t-il dans les entreprises ?
De nombreuses grandes firmes déploient Cursor en interne pour améliorer la productivité des équipes, grâce à une interface intuitive et des fonctionnalités adaptées aux besoins collaboratifs.
DaVinci Resolve est un logiciel incontournable dans le domaine de la post-production, réputé pour sa puissance et sa polyvalence. Que vous soyez monteur vidéo débutant ou expert, le sous-titrage est une compétence essentielle pour améliorer l’accessibilité et l’impact de vos vidéos.
Le sous-titrage n’est pas qu’une simple option technique ; c’est un outil essentiel pour améliorer l’accessibilité et l’engagement. Selon des études, les vidéos sous-titrées retiennent davantage l’attention des s
DaVinci Resolve est un logiciel incontournable dans le domaine de la post-production, réputé pour sa puissance et sa polyvalence. Que vous soyez monteur vidéo débutant ou expert, le sous-titrage est une compétence essentielle pour améliorer l’accessibilité et l’impact de vos vidéos.
Le sous-titrage n’est pas qu’une simple option technique ; c’est un outil essentiel pour améliorer l’accessibilité et l’engagement. Selon des études, les vidéos sous-titrées retiennent davantage l’attention des spectateurs et augmentent leur portée sur les réseaux sociaux. En maîtrisant les différentes méthodes présentées dans ce guide, vous optimisez non seulement la qualité de vos vidéos, mais aussi leur impact auprès de votre audience.
Nous explorerons trois approches pour générer des sous-titres dans DaVinci Resolve : les outils intégrés, les plugins tiers et les générateurs d’IA. Suivez nos conseils détaillés pour maîtriser le processus.
Créer des sous-titres avec les outils intégrés de DaVinci Resolve
DaVinci Resolve offre une solution complète pour créer des sous-titres grâce à ses outils intégrés. Cette méthode est idéale pour les utilisateurs de la version Studio, qui souhaitent un flux de travail entièrement autonome. En utilisant les fonctionnalités natives du logiciel, vous pouvez générer, modifier et personnaliser des sous-titres sans recourir à des applications externes.
Importer la vidéo et préparer la timeline
Pour commencer, ouvrez votre projet ou créez-en un nouveau dans DaVinci Resolve. Importez votre fichier vidéo en le glissant dans le Media Pool, une zone dédiée à la gestion des ressources. Une fois cela fait, faites glisser la vidéo sur la timeline pour la préparer à l’édition.
L’organisation de votre timeline est essentielle pour optimiser votre flux de travail. Assurez-vous que toutes vos pistes sont bien alignées et que les éléments visuels et sonores sont facilement accessibles.
Créer des sous-titres à partir de l’audio
Avec DaVinci Resolve Studio, rendez-vous dans le menu Chronologie et sélectionnez Créer des sous-titres à partir de l’audio. Le logiciel analysera automatiquement la piste audio sélectionnée pour générer une transcription précise.
Cette fonctionnalité repose sur une technologie avancée de reconnaissance vocale et offre une rapidité et une précision impressionnantes. En quelques minutes, vous obtenez un texte synchronisé avec votre vidéo, prêt à être ajusté.
Modifier et personnaliser la transcription
Une fois la transcription générée, elle s’affiche dans le panneau des sous-titres. Passez en revue chaque segment pour vérifier et corriger d’éventuelles erreurs. Si nécessaire, ajustez également les timings pour garantir une synchronisation parfaite.
Pour un rendu visuel professionnel, utilisez le panneauInspecteur pour personnaliser l’apparence des sous-titres. Modifiez la police, la taille, la couleur ou encore leur position pour qu’ils correspondent à l’identité visuelle de votre projet.
Exporter vos sous-titres
Lorsque vos sous-titres sont prêts, exportez-les dans un format compatible comme SRT ou VTT. Vous pouvez également choisir de les intégrer directement à votre vidéo finale lors du rendu.
Cette dernière étape vous permet de partager une vidéo prête à être diffusée, avec des sous-titres inclus pour améliorer l’accessibilité et l’engagement de votre public.
Pour ceux qui utilisent la version gratuite de DaVinci Resolve, les plugins tiers offrent une excellente alternative. Des outils comme Auto-Subs permettent de générer des sous-titres de manière rapide et efficace, tout en s’intégrant parfaitement au logiciel.
Installer et configurer Auto-Subs
Auto-Subs est un plugin puissant qui simplifie le processus de sous-titrage. Téléchargez-le depuis son référentiel GitHub officiel et suivez les instructions d’installation pour Windows, macOS ou Linux. Une fois installé, accédez-y via Espace de travail > Scripts > AutoSubs V2 dans le menu principal de DaVinci Resolve.
Ce plugin est particulièrement apprécié pour sa simplicité d’utilisation et ses résultats précis. Il permet aux utilisateurs de la version gratuite de bénéficier d’une transcription automatique.
Générer des sous-titres avec Auto-Subs
Une fois le plugin configuré, définissez vos paramètres de transcription, tels que la langue et la qualité audio. Cliquez sur Générer des sous-titres, et Auto-Subs analysera automatiquement l’audio pour produire des sous-titres synchronisés.
Cette méthode est idéale pour les projets nécessitant un traitement rapide et précis. Une fois générés, les sous-titres sont directement ajoutés à votre timeline, vous offrant une solution prête à l’emploi.
Personnaliser et exporter vos sous-titres
Après la génération, personnalisez vos sous-titres en ajustant leur apparence directement dans DaVinci Resolve. Utilisez le panneau Inspecteur pour modifier les polices, les tailles et les couleurs afin d’assurer une cohérence visuelle avec votre vidéo.
Enfin, exportez vos sous-titres dans un format compatible ou intégrez-les dans votre projet final. Cette approche flexible garantit un rendu professionnel, quel que soit le format de diffusion souhaité.
Accélérer le sous-titrage avec des générateurs de sous-titres IA
Pour les créateurs de contenu cherchant à gagner du temps, les générateurs de sous-titres basés sur l’IA sont des outils essentiels. Plusieurs plateformes spécialisées, comme Otter.ai, Trint, Sonix et Descript, offrent des solutions pour automatiser le processus de transcription et de sous-titrage. Ces outils combinent rapidité, précision et flexibilité pour répondre aux besoins des professionnels.
Créer des sous-titres automatiques avec des outils d’IA
Commencez par choisir une plateforme adaptée à vos besoins. Par exemple, Otter.ai est idéal pour les projets multilingues, tandis que Descript offre des fonctionnalités avancées d’édition audio et vidéo. Après avoir sélectionné votre outil, connectez-vous à la plateforme et téléchargez votre fichier vidéo.
La technologie de reconnaissance vocale analyse le contenu audio pour produire une transcription synchronisée. Ce processus est généralement rapide, même pour des vidéos longues et fournit des résultats précis. Les plateformes proposent souvent une interface intuitive, ce qui permet de naviguer facilement entre les options de configuration et d’exportation.
Réviser et modifier les sous-titres
Une fois les sous-titres générés, passez en revue la transcription pour corriger d’éventuelles erreurs. Les plateformes d’IA intègrent généralement un éditeur interactif qui permet d’affiner les textes, d’ajuster les timings et de synchroniser les sous-titres avec précision.
Par exemple, avec Sonix, vous pouvez éditer les sous-titres en temps réel en visualisant la vidéo. Un autre outil, comme Trint, propose des outils collaboratifs permettant à plusieurs utilisateurs de travailler sur le même fichier. Cette étape garantit que les sous-titres reflètent fidèlement le contenu et respectent les normes de qualité.
Exporter les sous-titres dans des formats compatibles
Après avoir finalisé les sous-titres, exportez-les dans des formats compatibles avec DaVinci Resolve, tels que SRT, VTT ou TXT. Ces formats permettent une intégration facile dans le logiciel de montage vidéo.
Importez ensuite les fichiers dans DaVinci Resolve en suivant les étapes décrites précédemment. Ajoutez les sous-titres à votre timeline et effectuez les ajustements nécessaires pour un rendu optimal. Ces outils d’IA, associés aux fonctionnalités de DaVinci Resolve, offrent une solution rapide et professionnelle pour les projets vidéo.
Quelle est la différence entre les sous-titres incrustés et les fichiers de sous-titres ?
Les sous-titres incrustés sont directement intégrés à la vidéo, ce qui les rend visibles en permanence. Les fichiers de sous-titres, comme les formats SRT ou VTT, sont séparés de la vidéo et permettent aux spectateurs de les activer ou non, selon leurs préférences.
Comment choisir entre sous-titrage manuel et automatique dans DaVinci Resolve ?
Le choix dépend de vos besoins et de vos moyens. Si vous utilisez la version Studio, le sous-titrage automatique est rapide et précis. Le sous-titrage manuel, bien que plus chronophage, offre un contrôle total sur la synchronisation et le contenu.
Puis-je utiliser DaVinci Resolve pour créer des sous-titres dans plusieurs langues ?
Oui, mais cela nécessite un travail manuel ou l’utilisation d’outils d’IA pour générer des traductions. Vous pouvez importer des fichiers de sous-titres multilingues et les ajuster directement dans le logiciel.
Existe-t-il une limite au nombre de sous-titres dans un projet DaVinci Resolve ?
Il n’y a pas de limite fixe, mais un grand nombre de sous-titres peut ralentir le logiciel, surtout sur des machines avec peu de puissance. Planifiez et testez votre projet pour éviter les problèmes.
Comment synchroniser les sous-titres avec des vidéos ayant plusieurs pistes audio ?
Dans DaVinci Resolve Studio, vous pouvez spécifier la piste audio à analyser pour générer des sous-titres. Cela est particulièrement utile pour les projets multilingues ou avec des voix off distinctes.
Quels sont les avantages d’utiliser des plugins tiers pour DaVinci Resolve ?
Les plugins comme Auto-Subs ou Whisper offrent des fonctionnalités avancées comme la traduction automatique, une meilleure reconnaissance vocale et des ajustements automatiques du timing. Ils peuvent accélérer considérablement le processus de sous-titrage.
Orange est un acteur majeur du numérique en Europe, au Moyen-Orient ainsi qu’en Afrique. L’inclusivité digitale et le développement durable du continent africain sont au cœur de son plan “Lead the future” lancé en 2023. C’est d’ailleurs dans le cadre de cet engagement envers l’inclusion que le Groupe annonce une collaboration avec OpenAI et Meta, visant à intégrer des langues régionales africaines dans des modèles d’IA open source, notamment Whisper et Llama.
De nombreuses langues sont encore so
Orange est un acteur majeur du numérique en Europe, au Moyen-Orient ainsi qu’en Afrique. L’inclusivité digitale et le développement durable du continent africain sont au cœur de son plan “Lead the future” lancé en 2023. C’est d’ailleurs dans le cadre de cet engagement envers l’inclusion que le Groupe annonce une collaboration avec OpenAI et Meta, visant à intégrer des langues régionales africaines dans des modèles d’IA open source, notamment Whisper et Llama.
De nombreuses langues sont encore sous-représentées dans l’apprentissage des LMMs, c’est particulièrement vrai en Afrique où de nombreux dialectes co-existent.
L’initiative, qui débutera en 2025, se concentrera dans un premier temps sur l’incorporation du wolof et du pulaar, deux langues régionales parlées respectivement par 16 millions et 6 millions de personnes en Afrique de l’Ouest. Les modèles affinés permettront aux populations locales de communiquer plus naturellement dans leur langue. Ils seront intégrés aux services clients d’Orange et rendus disponibles gratuitement pour des projets éducatifs, de santé publique et autres usages non commerciaux.
Orange prévoit d’étendre ce projet aux langues africaines parlées dans les 18 pays où il est présent, comme le lingala, le swahili et le bambara. Dans ce but, il collaborera avec des startups locales et des entreprises technologiques africaines, afin de bâtir un écosystème d’innovation IA inclusif, remédiant ainsi à la sous-représentation du continent dans le domaine de l’IA.
Accord exclusif avec OpenAI
Orange a en outre signé un accord avec OpenAI lui donnant un accès direct et exclusif en Europe à ses modèles les plus avancés, garantissant que les données sont traitées et stockées en Europe.
Cet accès anticipé aux modèles d’IA de pointe d’OpenAI facilitera la mise en œuvre de nouveaux cas d’utilisation, comme les interactions vocales basées sur l’IA avec les clients d’Orange.
Orange, OpenAI et Meta s'associent pour intégrer les langues régionales africaines dans les modèles d'IA open source
Whisper d’OpenAI, l’outil de transcription audio dopé à l’IA, fait des merveilles… mais aussi des siennes ! Derrière sa façade de précision et de rapidité se cache un petit grain de folie. Quand Whisper commence à paniquer, il peut littéralement inventer des bouts de conversations entières. Ces fameuses « hallucinations » inquiètent, surtout dans les hôpitaux américains où l’outil gagne en popularité.
Le modèle de transcription développé par OpenAI, nommé Whisper, est un prodige de la technol
Whisper d’OpenAI, l’outil de transcription audio dopé à l’IA, fait des merveilles… mais aussi des siennes ! Derrière sa façade de précision et de rapidité se cache un petit grain de folie. Quand Whisper commence à paniquer, il peut littéralement inventer des bouts de conversations entières. Ces fameuses « hallucinations » inquiètent, surtout dans les hôpitaux américains où l’outil gagne en popularité.
Le modèle de transcription développé par OpenAI, nommé Whisper, est un prodige de la technologie. Adopté dans des milliers d’hôpitaux et cabinets médicaux américains, il est vu comme un assistant précieux. Cette IA retranscrit des consultations en temps réel. Pourtant, ce super-scribe numérique a un petit problème. Ainsi, il hallucine. Non, Whisper ne voit pas de licornes. Mais sous le stress, l’IA peut s’inventer des paroles qui n’ont jamais été prononcées. Et le souci, c’est que dans les environnements critiques, comme le milieu médical, une simple erreur de transcription peut vite devenir problématique.
Whisper, l’IA de transcription d’OpenAI qui hallucine sous pression
L’IA de transcription audio d’OpenAI possède des atouts incroyables… mais aussi un gros talon d’Achille. Quand il se trompe, Whisper peut halluciner, c’est-à-dire, inventer des choses qui n’ont jamais été dites. Qui plus est, ce genre d’erreurs peut poser de sérieux problèmes. Surtout quand elles impliquent des commentaires sensibles ou même des traitements médicaux fictifs.
Selon une enquête d’APNews, Whisper produit des erreurs d’hallucination en analysant du texte et en voyant des « patterns » (modèles) qui n’existent pas. Je vais être plus précis ! L’IA essaie de trouver du sens dans des éléments aléatoires, et cela peut parfois partir dans des directions inattendues. Par exemple, Whisper a déjà produit des transcriptions incluant des propos racistes. Ou l’IA invente de toutes pièces des médicaments comme des « antibiotiques hyperactivés ».
OpenAI's Whisper transcription tool creates fabricated text in medical & business settings, despite warnings. It invents text that speakers never said, a phenomenon called "confabulation" or "hallucination" in AI. #AIethics#Whisper#MedicalAccuracypic.twitter.com/cH0zhoTJ1n
Bien sûr, ce phénomène n’est pas propre à ce modèle de transcription d’OpenAI. Les grandes IA ont souvent ce type de bugs connu sous le nom d’« hallucinations ». L’IA de Google, Overviews, a aussi, un jour, suggéré de coller le fromage à la pizza avec de la colle non toxique. Par ailleurs, Tim Cook lui-même, le PDG d’Apple, a reconnu que les hallucinations de l’IA sont un risque pour l’avenir. Même si les entreprises travaillent dur pour limiter ces dérives.
Des erreurs risquées, surtout dans le médical
Un problème majeur réside dans l’adoption rapide de Whisper par des professionnels de la santé. Plus de 30 000 cliniciens américains l’utilisent déjà pour retranscrire des consultations médicales. Cela peut sembler rassurant… jusqu’à ce qu’on se rende compte que le modèle est loin d’être infaillible.
Alondra Nelson, professeure à Princeton, a également mis en garde. D’après elle, « Personne ne veut d’un mauvais diagnostic ». Je vous laisse donc imaginer une transcription d’une consultation qui mentionne un traitement imaginaire – cela pourrait entraîner de graves erreurs.
Microsoft, qui intègre Whisper dans son cloud, a déjà précisé que cet outil ne devrait pas être utilisé dans des situations critiques ou « à haut risque ». Pourtant, avec l’ampleur de son adoption, certains pensent qu’OpenAI devrait alerter davantage sur les limites de Whisper. Comme le dit William Saunders, ancien employé d’OpenAI : « C’est problématique si vous publiez cela et que les gens sont trop confiants quant à ce qu’il peut faire. »
Ce qui rend cette situation encore plus compliquée, c’est la popularité de Whisper. Disponible sur la plateforme HuggingFace, il a été téléchargé plus de 4,2 millions de fois ! Néanmoins, les chercheurs mettent en garde. En testant les transcriptions dans des réunions publiques, ils ont trouvé des erreurs dans 8 cas sur 10. D’ailleurs, un autre développeur a observé des hallucinations dans quasiment toutes les 26 000 transcriptions qu’il a passées au crible !
La réponse d’OpenAI aux hallucinations
Ces hallucinations peuvent prêter à confusion et même mettre en danger la crédibilité des transcriptions. En étudiant les erreurs dans la base de données TalkBank, des chercheurs de Carnegie Mellon ont déterminé que 40 % de ces erreurs pouvaient avoir des effets nocifs. Puisque l’IA déforme les propos des locuteurs ou en ajoutant des détails inexacts.
Alors, qu’a fait OpenAI pour résoudre ce problème ? Pour l’instant, l’entreprise conseille simplement de ne pas utiliser Whisper dans des décisions importantes. Là où la moindre erreur pourrait mener à de graves malentendus. Je pense que c’est un peu décevant. Mais après tout, c’est en fait une reconnaissance honnête des limites actuelles de cette technologie.
Guess what? Your AI medical scribe is hallucinating too.
News coverage has brought attention to a 2024 study by @allisonkoe@mona_sloane et al showing speech-to-text AI like OpenAI’s Whisper—already used in health care—can create dangerous false content. Let's break it down…1/8 pic.twitter.com/fm5OfsS7Rs
Malgré cela, l’industrie de l’IA continue d’avancer à un rythme impressionnant. La popularité de Whisper démontre bien l’appétit croissant pour les outils de transcription automatisée. Même si le phénomène des hallucinations reste une ombre au tableau. Les entreprises comme OpenAI et leurs concurrents travaillent encore sur ces défauts. Il faudra encore du temps pour voir une IA capable de transcrire sans fausses notes.
Alors, en attendant, j’aimerais vous rappeler que même la meilleure des IA peut parfois se prendre les pieds dans le tapis… Attention !
Qu’en pensez-vous ? Les IA sont-elles prêtes pour le milieu médical selon vous ? Partagez votre point de vue en commentaire !
L'outil de transcription Whisper d'OpenAI, censé avoir une précision proche du « niveau humain », est celui qui invente le plus d'informations, selon des chercheurs.
Mais les hôpitaux continuent de l'utiliser Imaginez ce scénario: dans un hôpital moderne, un outil d'IA, conçu pour améliorer le diagnostic et le traitement des patients, commence à inventer des informations que ni les médecins ni les patients n'ont jamais fournies. Ce n'est pas de la science-fiction, mais une inquiétante réalité..
L'outil de transcription Whisper d'OpenAI, censé avoir une précision proche du « niveau humain », est celui qui invente le plus d'informations, selon des chercheurs. Mais les hôpitaux continuent de l'utiliser
Imaginez ce scénario: dans un hôpital moderne, un outil d'IA, conçu pour améliorer le diagnostic et le traitement des patients, commence à inventer des informations que ni les médecins ni les patients n'ont jamais fournies. Ce n'est pas de la science-fiction, mais une inquiétante réalité...
Ah si seulement nos chiens pouvaient enfin nous parler, comme dans le film UP de Pixar ! Eh bien, c’est désormais possible grâce au Shazam Band, un collier futuriste alimenté par l’IA. Plus besoin de deviner si votre compagnon à quatre pattes est heureux, triste, malade ou s’il a faim — il peut maintenant vous le dire ! Ce collier va sûrement faciliter la communication entre les humains et leurs animaux.
Qui n’a jamais rêvé d’entendre son chien lui parler ? Le Shazam Band transforme ce fanta
Ah si seulement nos chiens pouvaient enfin nous parler, comme dans le film UP de Pixar ! Eh bien, c’est désormais possible grâce au Shazam Band, un collier futuriste alimenté par l’IA. Plus besoin de deviner si votre compagnon à quatre pattes est heureux, triste, malade ou s’il a faim — il peut maintenant vous le dire ! Ce collier va sûrement faciliter la communication entre les humains et leurs animaux.
Qui n’a jamais rêvé d’entendre son chien lui parler ? Le Shazam Band transforme ce fantasme en réalité. Ce collier IA analyse les aboiements et les comportements de votre chien, puis les traduit en phrases compréhensibles. C’est comparable à celui dans le film UP, mais cette fois-ci, c’est pour de vrai ! Finis les mystères sur ce que ressent ou pense votre compagnon à quatre pattes, car il vous répondra directement en langage humain. C’est comme si votre animal avait soudainement sa propre voix. Incroyable, non ?
Parlez à votre chien grâce à ce collier IA
Alors comment ça marche ? Le Shazam Band est équipé de haut-parleurs et de capteurs pour saisir les mouvements de votre chien et aussi les mots que vous lui adressez. Avec l’aide de l’IA, le collier interprète ses comportements et vous renvoie des réponses sous forme de petits extraits sonores, comme : « Je suis content ! », « Je suis affamé ! » ou encore « Je suis prêt pour des câlins ! ».
Et ce n’est pas tout ! Si votre compagnon se perd, le GPS intégré et les alertes SMS vous aideront à le retrouver. Le Shazam Band veille aussi sur votre chien. Puisque le collier vous prévient dès que ce dernier rencontre un danger. Par exemple, si d’autres animaux agressifs l’attaquent, qu’il tombe dans un piège ou s’il traverse une route dangereuse.
Attendez d’entendre l’histoire derrière la création de Shazam ! Apparemment, John McHale, PDG de Personifi AI, s’est lancé dans cette aventure après un événement traumatisant avec son chien Roscoe. L’animal a failli mourir après qu’un serpent à sonnette l’a mordu. McHale raconte que, si seulement Roscoe avait eu un collier capable de communiquer, il aurait pu l’alerter tout de suite. De là est née l’idée du Shazam Band. C’est-à-dire utiliser l’IA pour permettre aux animaux de nous parler, et peut-être, un jour, éviter de telles tragédies.
Le wouf wouf devient de vraies paroles humaines
Lors d’une démonstration en direct au Texas, John McHale a montré son propre chien, Roscoe, équipé du Shazam Band. Le collier IA a pu « parler » et interpréter les émotions de l’animal de compagnie. Que ce soit lorsqu’il était joyeux ou triste. Un moment particulièrement drôle ? Lorsque McHale a donné un jouet à son toutou, le collier a sorti une phrase mémorable : « Je pourrais faire ça toute la journée ! ». Clin d’œil à Captain America, bien sûr !
♨️💯👉AI COLLAR LETS YOUR DOG TALK AND IT'S AS WILD AS IT SOUNDS
• The Shazam Band, developed by Personifi AI, is a wearable AI collar that interprets a pet's movements and emotions to create verbal responses, essentially allowing pets to "talk" back to their owners.
Le petit plus ? Vous pouvez choisir entre 25 voix différentes pour donner une personnalité à votre chien. Du mafieux à la belle du sud, en passant par un comique. Même des voix internationales sont disponibles, comme celle d’un britannique digne d’Hugh Grant ou encore une version jamaïcaine avec un charmant patois.
Quel est le prix du Shazam Band ?
Le Shazam Band est déjà disponible en précommande. Il existe en trois versions. D’abord, l’Ultra Plus avec en bonus des options de prévention des déplacements et un GPS intégré, pour 595 $. Ensuite l’Ultra, un modèle un peu plus léger à 495 $. Et enfin la Feline and X-Small Dogs qui est spécialement conçue pour les petits chiens avec un tour de cou inférieur à 12 pouces, également à 495 $.
Les premières livraisons sont prévues pour décembre 2024, juste à temps pour les fêtes. Et si vous commandez dès maintenant, vous recevrez même un t-shirt Shazam en cadeau.
Puisque vous aviez désormais la possibilité de communiquer avec votre chien avec ce collier IA, que lui demanderiez-vous en premier ? D’ailleurs, quel personnage choisiriez-vous pour votre animal avec le Shazam Band ? Répondez-nous dans les commentaires !
L’Institut National de l’Audiovisuel (INA) gère l’un des plus grands centres de données audiovisuelles au monde. Chaque jour, il capte et archive les émissions de 184 chaînes de télévision et de radio, constituant ainsi une ressource inestimable pour la recherche, l’analyse et la diffusion de contenus audiovisuels. Afin de rendre ces données accessibles à tous, l’INA annonce le lancement de son nouveau site : data.ina.fr.
Le site a été pensé pour le plus grand nombre : amateurs de médias, journa
L’Institut National de l’Audiovisuel (INA) gère l’un des plus grands centres de données audiovisuelles au monde. Chaque jour, il capte et archive les émissions de 184 chaînes de télévision et de radio, constituant ainsi une ressource inestimable pour la recherche, l’analyse et la diffusion de contenus audiovisuels. Afin de rendre ces données accessibles à tous, l’INA annonce le lancement de son nouveau site : data.ina.fr.
Le site a été pensé pour le plus grand nombre : amateurs de médias, journalistes, experts, chercheurs ou tout simplement curieux. Pour la première fois, l’INA ouvre ses données au grand public, lui proposant d’explorer les résultats statistiques de 13 chaînes de télévision et 7 chaînes de radio.
Fin 2023, l’INA avait stocké et archivé 27 millions d’heures de documents TV et radio. Pour data.ina.fr, 700 000 heures issues du dépôt légal de l’INA ont été explorées par les 3 outils d’IA suivants :
INASpeechSegmenter : une technologie développée par l’INA qui permet de détecter la parole, la musique, le bruit et le genre du locuteur dans un document audiovisuel ;
Whisper : le système de reconnaissance vocale d’OpenAI qui transcrit l’audio en texte ;
TextRazor : outil développé par la start-up londonienne du même nom qui analyse et extrait des métadonnées sémantiques à partir de contenu textuel.
Pour garantir la fiabilité des résultats, des processus de contrôle de qualité rigoureux ont été mis en place. Plus de cent personnes ont contribué au site, parmi elles des Data analystes, des Data scientists, des Data engineers et des architectes d’infrastructures.
Les utilisateurs peuvent explorer des tendances médiatiques et des questions sociétales en utilisant des cartes et des graphiques interactifs à travers quatre clés de lecture (personnalités, femmes-hommes, mots, lieux) et trois périmètres (JT, chaînes d’info en continu, radios).
Par exemple, il est possible de suivre l’évolution de la couverture médiatique d’un terme particulier, comme la “shrinkflation”, au fil du temps.
La plateforme, qui dispose de cinq ans et demi d’historique (de janvier 2019 à juin 2024), sera mise à jour tous les six mois, avec de nouvelles données et un enrichissement progressif de la profondeur historique.
Ce projet s’inscrit dans une démarche stratégique plus large de l’INA, visant à valoriser et à analyser l’immense volume de contenus audiovisuels qu’il stocke.
Lancement de data.ina.fr : l'INA ouvre ses archives audiovisuelles au grand public
Faire parler les végétaux grâce à la haute technologie. Oui, ce qui semble être une fiction est maintenant une réalité. Récemment, un passionné a réussi cet exploit avec GPT-4o. Une plante peut s'exprimer à travers l'IA. Voici comment.
« Nourris-moi ». Désormais, les plantes peuvent dire cette phrase grâce à l'intelligence artificielle, et à Matt Reed. Ce blogueur a connecté des tomates à un ordinateur Raspberry Pi. Le tout est alimenté par GPT-4o. La plante peut alors exprimer ses ressentis
Faire parler les végétaux grâce à la haute technologie. Oui, ce qui semble être une fiction est maintenant une réalité. Récemment, un passionné a réussi cet exploit avec GPT-4o. Une plante peut s'exprimer à travers l'IA. Voici comment.
« Nourris-moi ». Désormais, les plantes peuvent dire cette phrase grâce à l'intelligence artificielle, et à Matt Reed. Ce blogueur a connecté des tomates à un ordinateur Raspberry Pi. Le tout est alimenté par GPT-4o. La plante peut alors exprimer ses ressentis à travers les données, et différents appareils. Sans tarder, plongez dans cette approche innovante, qui sera sans doute la base des futures utilisations de l'IA. Effectivement, on a la possibilité d'exploiter cette stratégie à grande échelle.
Faire parler les plantes grâce à GPT-4o : comment ça marche ?
Certes, l'approche de Matt Reed est surprenante. Pourtant, ce spécialiste ne s'éloigne pas du mode de fonctionnement général de l'intelligence artificielle. Tout commence par les données. Cependant, les appareils de Matt Reed utilisent des informations très spécifiques.
L'ordinateur Raspberry Picollecte les données provenant de plusieurs capteurs. Taux d'humidité, chaleur, nutriment, hydratation, etc. Ensuite, l'appareil transmet ses informations à GPT-4o. C'est ici que la magie opère.
L'IA d'OpenAI va exploiter cette base de données pour répondre aux prompts de Matt Reed. Ce dernier utilise la fonctionnalité chatbot. Pour les réponses, l'IA s'exprime à travers un microphone. GPT-4o va alors analyser les données afin de fournir la meilleure réaction possible. Si la plante manque d'eau, l'IA va prévenir le propriétaire. Ce n'est qu'un exemple parmi tant d'autres.
En alternative, Matt Reed peut aussi parler à travers un microphone. Avec OpenAI Whisper, sa voix sera retransmise à GPT-4o. Cette dernière répond ensuite par l'intermédiaire de ce même microphone. C'est comme un véritable échange entre deux êtres humains.
Désormais, vous n'avez plus d'excuses pour ne pas avoir les mains vertes. Plus besoin d'analyser le sol, car l'IA va le faire pour vous. Toutefois, il faut prendre les réponses de GPT-4o avec un peu de recul. Effectivement, elle peut se tromper dans des cas assez particuliers.
L'IA repousse encore la limite du possible
La combinaison du Raspberry et de GPT-4o n'est qu'un début. En effet, Matt Reed n'a utilisé que des données assez simples dans cette expérience. De plus, les capteurs n'ont examiné que quelques paramètres. Et si on exploite cette innovation à grande échelle ?
Dans son article de blog, Matt Reed affirme que son approche peut être utilisée dans le domaine de la météorologie. Avec des capteurs plus performants, l'IA sera capable d'analyser la qualité de l'air, les phéromones, les nutriments, etc.
Toutefois, certains internautes sont réticents face à cette avancée technologique. En effet, l'IA et la plante peuvent devenir incontrôlables, comme dans Little Shop of Horrors. Pourtant, Matt Reed a rassuré le public. L'ordinateur ne détecte que les paramètres en rapport avec l'humidité et le soleil.
D'après vous, quels sont les secteurs qui ont le plus besoin de cette approche ? Agriculture, industrie, ou autres ? N'hésitez pas à donner votre avis dans les commentaires.
Oracle annonce le prochain lancement d’Oracle Code Assist. Aujourd’hui utilisé en interne, cet assistant basé sur l’IA est conçu pour aider les développeurs à accélérer le processus de création d’applications et à améliorer la cohérence du code, en particulier pour les applications développées en Java, SQL et sur Oracle Cloud Infrastructure (OCI).
L’écriture de code est une tâche chronophage. Des outils de complétion basiques ont fait leur apparition dans les années 80-90 pour soulager les dével
Oracle annonce le prochain lancement d’Oracle Code Assist. Aujourd’hui utilisé en interne, cet assistant basé sur l’IA est conçu pour aider les développeurs à accélérer le processus de création d’applications et à améliorer la cohérence du code, en particulier pour les applications développées en Java, SQL et sur Oracle Cloud Infrastructure (OCI).
L’écriture de code est une tâche chronophage. Des outils de complétion basiques ont fait leur apparition dans les années 80-90 pour soulager les développeurs. Aujourd’hui, grâce à l’essor de l’IA et de l’IA générative, ils deviennent de réels assistants, de plus en plus adoptés par les développeurs, intégrant des fonctionnalités telles que la refactorisation automatique, la correction d’erreurs en temps réel, ou encore l’écriture de tests unitaires correspondant au code rédigé par l’utilisateur, activité rarement perçue comme enthousiasmante mais essentielle dans la production de code fiable.
On a ainsi vu apparaître GitHub Copilot alimenté par le Codex d’OpenAI, AlphaCode de DeepMind, CodeWhisperer d’Amazon ou Codey, le composant AI du Project IDX de Google Cloud, une plateforme de développement en ligne permettant aux développeurs de coder, tester et déployer des applications directement dans leur navigateur. Google Cloud a d’ailleurs rebaptisé ce dernier “Gemini Code Assist”.
Code Assist d’Oracle, avec son intégration profonde dans l’écosystème de la multinationale, se distingue par des fonctionnalités adaptées aux besoins spécifiques des entreprises utilisant ses technologies telles que Oracle Database, Oracle Java, Oracle APEX, Oracle Cloud Infrastructure (OCI), et Oracle Fusion Middleware. Grâce à cette intégration, Oracle Code Assist est capable de fournir des suggestions de code optimisées pour les API spécifiques d’Oracle, faciliter la mise à niveau des applications Java, offrir des recommandations de refactorisation pour le code PL/SQL, et améliorer l’efficacité et la sécurité des applications déployées sur OCI.
Fonctionnalités clés d’Oracle Code Assist
Génération de code
Oracle Code Assist fournit des suggestions de code basées sur le contexte et les modèles appris, générant des fichiers de classe, des méthodes ou des lignes de code entières. Cela permet aux développeurs de réduire le temps passé à écrire du code standard et de se concentrer sur des tâches plus complexes.
Annotation de Code
L’outil génère automatiquement des documentations ou des commentaires sur l’interface de programmation d’application (API) pour décrire la fonctionnalité du code, facilitant ainsi la maintenance et la compréhension du code sur le long terme.
Explicabilité du code
Oracle Code Assist propose des résumés en langage simple du code, aidant les développeurs à réviser ou refactoriser le code existant plus rapidement en fournissant un contexte précis et facile à comprendre.
Révisions de code
L’outil facilite les demandes d’extraction pour fusionner les modifications dans un référentiel après avoir écrit des révisions de code, et recommande des modifications basées sur les instructions de performance, de qualité, d’efficacité et de style.
Génération de couverture de test
Oracle Code Assist crée des tests unitaires et fonctionnels en fonction du contexte du code, améliorant ainsi la qualité des tests et la couverture des scénarios de test.
Avantages pour les développeurs
Oracle Code Assist est conçu pour s’adapter aux spécificités de chaque entreprise :
Suggestions personnalisées : L’outil intègre les structures de codage, les bibliothèques internes, les bonnes pratiques et les normes propres à chaque entreprise, aidant les développeurs à réviser, mettre à jour et intégrer du code cohérent avec les bases de code existantes ;
Contexte de l’origine du code : Oracle Code Assist filtre le code qu’il génère pour garantir qu’il ne provient pas de licences non autorisées, aidant ainsi les développeurs à gérer les risques de conformité ;
Mises à niveau automatisées du langage : L’outil convertit et met à jour le code existant pour utiliser les dernières versions des langages de programmation, améliorant la performance et la qualité des applications ;
Analyse du code : Oracle Code Assist identifie les bugs et inefficacités, générant du code basé sur les meilleures pratiques de développement ;
Optimisation pour OCI : L’outil intègre des suggestions basées sur les API de service OCI et les bonnes pratiques, permettant aux applications de fonctionner de manière optimale sur OCI.
Les développeurs d’Oracle utilisent déjà activement Oracle Code Assist pour créer de nouveaux produits et services. Sa disponibilité prochaine pour les clients d’Oracle pourrait transformer le développement logiciel en entreprise, en améliorant la résilience, la performance et la sécurité des applications tout en réduisant les coûts et le temps de mise à niveau et de refactorisation du code.
Vibe est un nouvel outil open source de transcription audio multilingue qui va vous faire vibrer ! Terminé le temps où vous deviez vous contenter de sous-titres approximatifs ou attendre des plombes pour obtenir une transcription potable.
Pour cela, il utilise l’IA Whisper, développé par les génies d’OpenAI et dont je vous ai parlé à maintes reprises. Ce modèle de reconnaissance vocale dernier cri est capable de transcrire un nombre ahurissant de langues avec une précision bluffante, ce qui
Vibe est un nouvel outil open source de transcription audio multilingue qui va vous faire vibrer ! Terminé le temps où vous deviez vous contenter de sous-titres approximatifs ou attendre des plombes pour obtenir une transcription potable.
Pour cela, il utilise l’IA Whisper, développé par les génies d’OpenAI et dont je vous ai parlé à maintes reprises. Ce modèle de reconnaissance vocale dernier cri est capable de transcrire un nombre ahurissant de langues avec une précision bluffante, ce qui permet de faire de Vibe une véritable solution audio polyvalente bourrée de fonctionnalités.
Vous pouvez par exemple transcrire des fichiers audio et vidéo par lots, prévisualiser le résultat en temps réel, exporter dans une flopée de formats (SRT, VTT, TXT…), et même personnaliser les modèles selon vos besoins. Il fonctionne entièrement hors ligne, donc pas de risque que vos données sensibles se retrouvent dans les griffes des GAFAM et ça tourne sous macOS, Windows et Linux. Pour cela, il vous suffit de vous rendre sur la page des releases GitHub et de télécharger la version qui correspond à votre OS.
Le support pour Apple Silicon est optimisé ce qui offre une performance accrue et pour Windows, la version 8 ou plus sera nécessaire, mais bon, je pense que vous êtes tous ou presque déjà sous Windows 10/11. Les utilisateurs Linux, quand à eux, peuvent installer Vibe via un fichier .deb, et les utilisateurs d’Arch Linux peuvent utiliser debtap pour convertir le paquet en fonction de leurs besoins.
Côté performance, c’est du gâteau puisque comme vous vous en doutiez, les ordinateurs Mac ont droit à une petite optimisation GPU qui booste les résultats. Mais même sur un vieux coucou Windows, Vibe est capable de s’adapter à vos ressources sans broncher via à ses réglages avancés. Et pour les Linuxiens, sachez que le support de l’audio système et du micro est prévu pour bientôt.
Bref, c’est à tester si vous êtes dans le business du sous-titre ou de la transcription.
Les données sont les bases de l'exploit d'une IA. Les références du secteur utilisent des datas centers massives pour mieux répondre aux requêtes des utilisateurs. Cependant, ces ressources ne sont pas illimitées. Actuellement, les intelligences artificielles traversent une pénurie de données.
Les IA ne peuvent pas fournir des réponses précises sans les données. Elles doivent traiter des documents, des vidéos, des audio, et même des images pour répondre aux attentes des utilisateurs. OpenAI s
Les données sont les bases de l'exploit d'une IA. Les références du secteur utilisent des datas centers massives pour mieux répondre aux requêtes des utilisateurs. Cependant, ces ressources ne sont pas illimitées. Actuellement, les intelligences artificielles traversent une pénurie de données.
Les IA ne peuvent pas fournir des réponses précises sans les données. Elles doivent traiter des documents, des vidéos, des audio, et même des images pour répondre aux attentes des utilisateurs. OpenAI s'est rendu compte de cette situation en 2021. L'entreprise a constaté qu'elle avait déjà étudié les contenus textuels en langue anglaise. Elle n'est pas la seule à se retrouver dans cette situation.
Google et OpenAI tentent de trouver des données pour leurs IA
Sans données, les IA ne peuvent exceller dans leurs zones de prédilection. OpenAI a alors lancé Whisper. Cet outil de transcription audio offre une nouvelle opportunité à l'entreprise. Il traite les vidéos YouTube tout en créant une base de données IA à GPT-4.
Cependant, Whisper ne s'arrêtait pas aux vidéos YouTube. Dans certaines situations, l'outil exploite les podcasts, ainsi que les livres audio. OpenAI s'aventure alors sur une zone épineuse en adoptant cette voie. Effectivement, les droits d'utilisation interdisent cette approche.
Google, de son côté, se trouve dans une position délicate. En suivant la logique, l'entreprise américaine doit porter plainte contre OpenAI. En effet, cette dernière manipule les données contre les conditions d'utilisation. Mais Google ne pouvait pas réagir, car elle a aussi choisi cette pratique.
Pour continuer à entraîner ses IA, le moteur de recherche de référence a été contraint d'alléger ses réglementations concernant les données.
L'empire de Zuckerberg n'a pas suivi la stratégie des autres entreprises. Elle a adopté une voie assez particulière. Au lieu d'exploiter les données IA contre les réglementations, Meta tente de payer 10 dollars par livre. De ce fait, l'entreprise pourra obtenir tous les droits. Cependant, cette stratégie serait très difficile à mettre en place. Effectivement, les négociations concernant les droits d'utilisation sont très longues.
Toutefois, Meta pourra continuer à profiter des contenus sur ses réseaux sociaux. Mais la qualité ne sera pas au rendez-vous. Les données de formation des IA ne seront pas des bases tangibles pour fournir des réponses fiables.
Il reste encore une solution efficace
C'est une évidence, les renseignements actuels ne suffiront plus à entraîner les IA d'ici quelques années. Les entreprises concernées tentent de trouver de nouvelles bases de données pour résoudre ce problème. Mais les chances sont minces, car la majorité des informations sont déjà entre les mains des IA.
Toutefois, il existe une piste assez intéressante. Si on exploitait les contenus générés par l'IA ? Ces informations « synthétiques » seront peut-être la lumière au bout du tunnel. Par contre, il reste encore un inconvénient à résoudre. À force d'utiliser en boucle ces données, l'IA devient obsolète. Cette situation est très inquiétante. En effet, les erreurs vont se multiplier, et la qualité des réponses sera remise en question.
Bientôt, ChatGPT pourrait devenir un assistant vocal intelligent grâce à Voice Engine. Siri, Alexa et Google Assistant auraient alors du souci à se faire.
Sam Altman a fait quelques révélations intéressantes lors de son dernier passage dans le podcast de Lex Fridman. Le patron d'OpenAI y a notamment annoncé la future sortie, cette année, d'un « incroyable nouveau modèle ». Il s'agirait de Voice Engine, dont la start-up californienne a récemment fait une demande d'enregistrement de marque.
Bientôt, ChatGPT pourrait devenir un assistant vocal intelligent grâce à Voice Engine. Siri, Alexa et Google Assistant auraient alors du souci à se faire.
Sam Altman a fait quelques révélations intéressantes lors de son dernier passage dans le podcast de Lex Fridman. Le patron d'OpenAI y a notamment annoncé la future sortie, cette année, d'un « incroyable nouveau modèle ». Il s'agirait de Voice Engine, dont la start-up californienne a récemment fait une demande d'enregistrement de marque.
ChatGPT a bousculé le secteur de la recherche en ligne. Le populaire agent conversationnel génératif s'attaquerait désormais à celui des assistants vocaux intelligents.
OpenAI a déposé une demande pour faire de Voice Engine sa marque. Rappelons que c'est le Bureau américain des brevets et des marques de commerce (USPTO) qui s'occupe de ces requêtes.
La soumission du dossier a eu lieu le lundi 18 mars, au lendemain de l'interview d'Altman avec Fridman. Au cours de cet entretien, le PDG a fait savoir que la start-up californienne avait « beaucoup d'autres choses importantes à sortir » avant GPT-5.
Mais que sait-on de Voice Engine ?
Le document de dépôt de marque détaille évidemment les principaux champs d'action de ce mystérieux moteur vocal. Ce sont les suivants :
Conception d'assistants vocaux intelligents
Reconnaissance de la parole et de la voix
Traitement des commandes vocales et conversion entre la parole et le texte
Reconnaissance et génération automatiques de la voix et de la parole
Génération de paroles ou des sons à l'aide de prompts en langage naturel (texte, parole, images et vidéos)
Génération de signaux vocaux et audio avec des prompts
Traitement du langage naturel et de la parole grâce à l'apprentissage automatique
Reconnaissance, traduction et transcription multilingues de la parole
Tout cela est bien beau, mais il n'est pas certain que l'USPTO valide le dépôt de marque. Rappelons que le mois dernier, OpenAI n'a pas obtenu gain de cause pour faire de GPT sa marque.
D'autre part, la start-up californienne n'offre pas encore d'assistant vocal intelligent à ses utilisateurs. Elle met toutefois à leur disposition une API pour convertir la parole en texte.
Autre rappel, OpenAI possède un modèle de reconnaissance vocale appelé Whisper. Celui-ci est beaucoup moins populaire que les modèles GPT de la start-up.
GPT-5 : Pas pour tout de suite !
Avant Voice Engine, OpenAI a demandé un dépôt de marque pour GPT-6 et GPT-7. Ce sont les futurs grands modèles de langage (LLM) de la start-up.
La simulation de conversations fait partie des grandes nouveautés de GPT-6, tandis que GPT-7 va permettre à ChatGPT de générer de la musique.
Sam Altman a également évoqué le cas de GPT-5. Les utilisateurs qui espèrent tellement le successeur de GPT-4 et de GPT-4 Turbo devront prendre leur mal en patience.
« Nous avons beaucoup d'autres choses importantes à sortir en premier », fait savoir le patron d'OpenAI. Voice Engine ferait partie de ces choses importantes.
Aujourd’hui, j’aimerais vous présenter LocalAI, une alternative open source à OpenAI. En tout cas, c’est comme ça que le créateur du projet le présente. Il s’agit d’une solution idéale pour tous ceux qui cherchent une API REST compatible avec les spécifications de l’API OpenAI pour l’inférence locale.
Grâce à LocalAI, vous pouvez exécuter des modèles linguistiques, générer des images, de l’audio et bien d’autres choses encore, localement ou sur site avec du matériel grand public, et ce, sa
Aujourd’hui, j’aimerais vous présenter LocalAI, une alternative open source à OpenAI. En tout cas, c’est comme ça que le créateur du projet le présente. Il s’agit d’une solution idéale pour tous ceux qui cherchent une API REST compatible avec les spécifications de l’API OpenAI pour l’inférence locale.
Grâce à LocalAI, vous pouvez exécuter des modèles linguistiques, générer des images, de l’audio et bien d’autres choses encore, localement ou sur site avec du matériel grand public, et ce, sans avoir besoin d’un GPU ! Le projet a pour principal objectif de rendre l’IA accessible à tous.
Pour résumer, voici les principales caractéristiques de LocalAI :
Une API REST locale, alternative à OpenAI. Comme ça, vous gardez bien au chaud vos propres données.
Pas besoin de GPU. Pas besoin d’accès internet non plus. Toutefois, l’accélération GPU est possible en option.
Prise en charge de plusieurs modèles.
Dès qu’ils sont chargés une première fois, les modèles restent en mémoire pour une inférence plus rapide.
N’utilise pas de shell, mais des liaisons directes pour une inférence plus rapide et de meilleures performances.
En termes de fonctionnalités, LocalAI offre une large gamme d’options, parmi lesquelles :
La génération de texte avec les modèles GPT (comme llama.cpp ou gpt4all.cpp).
La conversion de texte en audio.
La transcription audio en texte avec whisper.cpp.
La génération d’images avec Stable Diffusion.
Les dernières fonctionnalités d’OpenAI récemment ajoutées comme l’API Vision par exemple.
La génération d’embeddings pour les bases de données vectorielles.
Le téléchargement de modèles directement à partir de Huggingface.
LocalAI est bien sûr un projet communautaire donc n’hésitez pas si vous souhaitez vous impliquer !
Pour commencer rapidement avec LocalAI, vous pouvez consulter leur guide Getting Started qui décrit les différentes méthodes d’installation et les exigences matérielles ou aller consulter les guides de la communauté. Je vous ferais aussi probablement un tutoriel prochainement si mon emploi du temps me le permet.
LocalAI est disponible sous forme d’image conteneur et de binaire, compatible avec divers moteurs de conteneurs tels que Docker, Podman et Kubernetes. Les images de conteneurs sont publiées sur quay.io et Docker Hub, et les binaires peuvent être téléchargés à partir de GitHub.
Concernant les exigences matérielles, ça varie en fonction de la taille du modèle et de la méthode de quantification utilisée mais pour choper quelques repères de performance avec différents backends, comme llama.cpp, vous pouvez consulter ce lien.
Maintenant pour en savoir plus, vous pouvez explorer le site localai.io. Vous y trouverez de nombreuses informations et des exemples d’utilisation pour vous aider à tirer le meilleur parti de LocalAI.
Je parle beaucoup d’IA en ce moment, donc histoire de changer, je vais encore vous vous parler d’un outil « intelligent » (je vous ai bien eu ! ^^) qui cette fois va plaire à tous ceux qui veulent être plus organisés et efficaces : NotesGPT.
Cet outil permet de convertir vos notes vocales en résumés organisés et en actions claires grâce à l’intelligence artificielle. C’est un nouvel usage qui va peut-être changer la façon dont vous prenez des notes et organisez votre travail. NotesGPT est
Je parle beaucoup d’IA en ce moment, donc histoire de changer, je vais encore vous vous parler d’un outil « intelligent » (je vous ai bien eu ! ^^) qui cette fois va plaire à tous ceux qui veulent être plus organisés et efficaces : NotesGPT.
Cet outil permet de convertir vos notes vocales en résumés organisés et en actions claires grâce à l’intelligence artificielle. C’est un nouvel usage qui va peut-être changer la façon dont vous prenez des notes et organisez votre travail. NotesGPT est open source et repose sur une combinaison de technologies, dont Convex, Together.ai et Whisper. Ces outils permettent de générer des éléments d’action comme une todo list à partir de vos notes en quelques secondes seulement.
C’est bien sûr utilisable en ligne ici, mais pour ceux qui souhaitent déployer leur propre version de l’application, il est possible de le faire. Il vous suffit pour cela de suivre les étapes décrites sur la page Deploy Your Own du projet notesGPT sur GitHub.
L’équipe derrière NotesGPT travaille également sur une série de tâches futures pour améliorer encore l’outil. Parmi ces améliorations, on peut citer la possibilité de conserver les enregistrements pour une écoute future, d’animer le microphone pour qu’il soit synchronisé avec votre voix, de stocker les éléments d’action terminés pour les consulter ultérieurement, et bien d’autres choses encore.
Je l’ai testé et c’est assez bluffant même si après les tâches sont décrites en anglais.
Ce genre d’outils peut aider les pros, mais également les étudiants à gérer leurs notes vocales de manière plus efficace. Grâce à l’IA, on gagne encore plus de temps. Après si vous êtes septique, le mieux c’est encore de le tester par vous-même.
Devoteam, un cabinet de conseil spécialisé dans les plateformes cloud, l’IA, la cybersécurité, la data et le développement durable, vient de publier la troisième édition de son TechRadar présentant les 150 technologies qui feront la différence en 2024 : 1/3 d’entre elles sont liées à l’IA ou pilotées par celle-ci.
Créée en 1995, présente dans plus de 25 pays, Devoteam, une ESN française, accompagne ses clients dans leur transformation digitale durable. Son TechRadar 2024, fruit du travail de 96
Devoteam, un cabinet de conseil spécialisé dans les plateformes cloud, l’IA, la cybersécurité, la data et le développement durable, vient de publier la troisième édition de son TechRadar présentant les 150 technologies qui feront la différence en 2024 : 1/3 d’entre elles sont liées à l’IA ou pilotées par celle-ci.
Créée en 1995, présente dans plus de 25 pays, Devoteam, une ESN française, accompagne ses clients dans leur transformation digitale durable. Son TechRadar 2024, fruit du travail de 96 Tech Leaders au sein du Groupe, cartographie 150 technologies émergentes dans le monde numérique, classées par domaines stratégiques et selon leur degré de maturité, allant de “procéder avec prudence” à “adopter “, ce qui permet aux organisations de mieux appréhender les défis technologiques et de prendre des décisions éclairées.
L’édition 2024 ne se limite pas seulement à l’IA et explore la GenAI, alimentée par l’innovation cloud et l’abondance des données, présente dans toutes les catégories du TechRadar. Selon les experts de Devoteam, l’émergence rapide de la GenAI oblige les entreprises à reconsidérer d’urgence leur stratégie technologique, à réévaluer leurs priorités et à ajuster leur feuille de route en conséquence.
Gert Jan van Halem, CTO du groupe Devoteam, commente :
“Nous sommes à l’aube d’une ère où les technologies, que ce soit dans le domaine de l’informatique, de la communication, de la santé ou de l’industrie, sont inévitablement marquées par l’omniprésence de l’intelligence artificielle. De nos jours, il est de plus en plus évident que les technologies émergentes sont soit intrinsèquement dotées de capacités génératives d’IA, soit considérablement améliorées par des systèmes intelligents”.
Selon le radar, la GenAI va se répandre de plus en plus rapidement dans tous les domaines d’application via des fonctionnalités intégrées aux outils habituels. Cependant, il s’agit d’une transformation à double tranchant qui présente des opportunités mais qui introduit également de nouveaux risques à gérer. L’avenir des entreprises dépendra en grande partie de leur capacité à anticiper une augmentation probable de la productivité grâce à la GenAI tout en contrôlant les risques inhérents à sa mise en œuvre, tels que la sécurité, l’éthique et les ressources humaines.
Gert Jan van Halem poursuit :
“Les entreprises devront disposer d’un environnement technique qui permette à l’IA de déployer tout son potentiel. Parmi les prérequis, la transition vers le cloud et la mise en place d’une gestion rigoureuse des données sont des priorités. L’avènement de GenAI nécessitera également de nouvelles compétences, à la fois pour développer de nouvelles solutions et pour les utiliser judicieusement”.
Les principaux enseignements du TechRadar 2024
Entreprise et produits numériques
Les projets se concentrent sur la rationalisation, l’optimisation et l’efficacité opérationnelle plutôt que sur l’innovation et la conquête de nouveaux marchés. Les entreprises privilégient les solutions éprouvées qui garantissent un retour sur investissement rapide : la GenAI apparaît comme une réponse efficace pour atteindre ces objectifs de productivité.
Pour l’intégrer dans leurs processus, elles se tournent vers des outils d’aide au développement fournis par les hyperscalers (Gemini de Google, GitHub Copilot de Microsoft, Code Whisperer d’Amazon, etc.) et des principaux éditeurs de logiciels (Einstein for Developers de Salesforce et Now Assist de ServiceNow).
Intelligence basée sur les données
Le TechRadar constate une adoption continue des plateformes de données dans le cloud. Pendant ce temps, les fournisseurs de technologies améliorent leurs solutions pour faciliter l’utilisation optimale des données, encourager le partage interne et externe, intégrer des données tierces et traiter efficacement les données non structurées.
Cependant, cette adoption est accompagnée de préoccupations organisationnelles tournant autour de la gestion des données et de leurs utilisations, telles que la gouvernance, la conformité, la confidentialité, la souveraineté et l’éthique. Des solutions technologiques émergent pour répondre à ces défis, facilitant la définition, l’application et le contrôle des règles, en particulier avec des données, des infrastructures et des organisations plus vastes et plus diversifiées, parmi elles AirByte, DatGalaxy et ThoughtSpot.
Cloud distribué
Avec des environnements cloud de plus en plus complexes et diversifiés, les considérations architecturales suscitent un regain d’intérêt. Kubernetes reste essentiel pour développer des applications cloud natives, tandis que de nouvelles solutions émergent dans cet écosystème dynamique, comme Kyverno et Submariner.
L’introduction de l’IA pour gérer la complexité croissante des environnements cloud, notamment dans le contexte des clouds souverains, est attendue dans les prochains mois, ce qui représentera une avancée majeure dans ce domaine en constante évolution.
Automatisation de l’entreprise
Les éditeurs de logiciels d’hyper automatisation ont rapidement compris le potentiel de la GenAI et ont commencé à enrichir leurs portefeuilles en intégrant de grands modèles de langage (LLM), propriétaires ou open-source, dans leurs interfaces conversationnelles.
Parmi les exemples, les experts de Devoteam citent Einstein GPT de Salesforce, Now Assist de ServiceNow, Copilot de Microsoft, Bard et Gemini de Google, Project Morpheus d’Outsystems, entre autres. Cependant, dans ce domaine, l’IA générative n’en est encore qu’à ses débuts, entravée par des facteurs tels qu’un manque de compétences, une maturité technologique insuffisante et des données cloisonnées.
Confiance et cybersécurité
Au fur et à mesure que les entreprises modernisent leurs systèmes d’information et adoptent massivement le cloud, la sécurité de celui-ci devient cruciale. Malgré les niveaux élevés de sécurité fournis par les fournisseurs de services cloud, des incidents récents ont mis en évidence le besoin de solutions supplémentaires. Deux points clés sont la sécurité des environnements multicloud et la gestion des identités et des accès (IAM).
Des technologies telles que Active Roles, JumpCloud et Akeyless, introduites dans TechRadar 2024, répondent à ces problèmes. L’IA générative sera utilisée à la fois par les attaquants et les défenseurs, ce qui pourrait conduire à des fraudes plus sophistiquées du côté des attaques, tandis que du côté de la défense, elle permettra une détection automatisée des incidents. Microsoft Security Copilot en est un exemple, signalant une tendance majeure cette année.
La durabilité rendue possible par le numérique
Les technologies actuelles, en particulier les plateformes de données basées sur le cloud, permettent aux entreprises de créer leurs propres solutions de reporting et de gestion environnementales, notamment Boavizta, Granulate ou planA. Le choix entre construire ou acheter dépend de l’activité, de l’organisation et de la maturité de l’entreprise, avec une préoccupation centrale pour des données abondantes et dispersées. L’automatisation joue un rôle essentiel dans l’accélération de la collecte de données.
Quant à l’IA, elle sera précieuse pour gérer la complexité des sources, identifier les axes d’optimisation et intégrer les aspects environnementaux dans la prise de décision. Elle pourrait également contribuer à des processus et des produits plus économes en ressources, mais, en raison de ses besoins en ressources informatiques, il sera nécessaire de surveiller son rapport coûts/avantages environnementaux pour le déterminer.
ChatGPT est un chatbot basé sur la suite d’intelligence artificielle GPT d’OpenAI. Découvrez pourquoi cet outil est aussi dangereux que révolutionnaire.
Mars 2021, Sam Altman publie sur son blog un article intitulé « Moore’s Law for Everything ». Du haut de son poste de CEO d’OpenAI, l’un des principaux acteurs de la recherche en intelligence artificielle avertit sur le tsunami technologique qui s’apprête à déferler sur le monde. Et puis il y a eu DALL-E 2. En juin 2002, OpenAI lance la versi
ChatGPT est un chatbot basé sur la suite d’intelligence artificielle GPT d’OpenAI. Découvrez pourquoi cet outil est aussi dangereux que révolutionnaire.
Mars 2021, Sam Altman publie sur son blog un article intitulé « Moore’s Law for Everything ». Du haut de son poste de CEO d’OpenAI, l’un des principaux acteurs de la recherche en intelligence artificielleavertit sur le tsunami technologique qui s’apprête à déferler sur le monde. Et puis il y a eu DALL-E 2. En juin 2002, OpenAI lance la version beta de cette intelligence artificielle « Text-to-Image » basée sur son modèle de langage GPT-3.
Mais ce n’était qu’un début. Après l’image, OpenAI laisse maintenant GPT s’attaquer aux mots avec ChatGPT. Cette nouvelle IA ouverte au public depuis fin novembre 2022 est capable de répondre à n’importe quelle question.
Qu’est-ce que ChatGPT ?
ChatGPT est un prototype de chatbot d’intelligence artificielle capable de comprendre le langage humain naturel et de générer du texte d’un niveau de détail impressionnant.
Contrairement aux versions précédentes, ChatGPT 4.0 a été entraîné avec une quantité encore plus importante de données, y compris des contenus multimodaux, ce qui lui permet de répondre à des requêtes complexes de manière plus cohérente et précise.
Cette IA est focalisée sur les interactions en langage naturel, permettant des dialogues fluides et riches avec les utilisateurs. Les améliorations continues incluent une meilleure gestion des contextes de conversation, une capacité accrue à admettre ses erreurs et des réponses plus alignées avec les requêtes spécifiques des utilisateurs. Cette polyvalence en fait un outil puissant pour divers domaines, du support client à la génération de contenu créatif.
Comment fonctionne ChatGPT ?
ChatGPT repose sur des modèles GPT-4.5, entraînés grâce au machine learning, sur une vaste quantité de données textuelles, incluant des livres, des articles scientifiques et des discussions en ligne.
Ce processus d’entraînement utilise l’apprentissage par renforcement (Reinforcement Learning) à partir de feedback humain, une technique qui améliore l’adaptation du modèle aux attentes des utilisateurs. OpenAI a également mis l’accent sur la réduction des biais et l’amélioration de la sécurité des réponses de ChatGPT.
Les dernières versions bénéficient d’un mode « browse with Bing », permettant à l’IA de rechercher des informations en temps réel sur Internet pour fournir des réponses actualisées, une fonctionnalité particulièrement utile pour des requêtes nécessitant des informations récentes.
Qui a créé ChatGPT ?
ChatGPT est développé par OpenAI, une organisation fondée en 2015 par Elon Musk, Sam Altman, et d’autres grands noms de la Silicon Valley. Ce dernier a pour mission de promouvoir et développer une IA bénéfique pour l’humanité. Bien qu’Elon Musk ait depuis quitté l’organisation, OpenAI continue de jouer un rôle majeur dans la recherche en intelligence artificielle, soutenue par des partenariats stratégiques, notamment avec Microsoft.
Aujourd’hui, OpenAI opère sous une structure hybride visant à concilier objectifs de recherche ouverte avec des impératifs commerciaux, une évolution critiquée par certains, dont Musk lui-même, pour s’éloigner de l’idéal initial d’organisme open-source et non-lucratif.
Not surprising, as I just learned that OpenAI had access to Twitter database for training. I put that on pause for now.
Need to understand more about governance structure & revenue plans going forward.
OpenAI was started as open-source & non-profit. Neither are still true.
Les applications de ChatGPT sont vastes, couvrant des domaines tels que :
Assistance à la programmation : ChatGPT peut aider les développeurs à écrire et déboguer du code, simplifiant ainsi le processus de développement.
language interfaces are going to be a big deal, i think. talk to the computer (voice or text) and get what you want, for increasingly complex definitions of "want"!
this is an early demo of what's possible (still a lot of limitations–it's very much a research release).
Création de contenu : Que ce soit pour des articles, des scénarios ou des essais, ChatGPT génère du texte qui imite le style et le ton souhaité, avec un potentiel créatif impressionnant.
Support client automatisé : En tant que chatbot, ChatGPT fournit des réponses immédiates et pertinentes aux questions des utilisateurs, améliorant l’expérience client.
Éducation et apprentissage : L’IA peut expliquer des concepts complexes de manière accessible, aidant ainsi les étudiants et les professionnels dans leur apprentissage continu.
Ran one of our essay questions through @OpenAI's new chatbot. Essays are dead.
Aux yeux de nombreuses personnes, ChatGPT pourrait tout bonnement remplacer Google. Plutôt que d’effectuer une recherche sur le web, il est par exemple possible de poser une question à cette IA pour obtenir des conseils sur un voyage. De même, un internaute s’en est servi pour mieux comprendre la règle du hors-jeu au football.
Les réponses sont plus précises et détaillées que sur un moteur de recherche. Si ce chatbot est connecté à internet et obtient la capacité de parcourir le web, il pourrait donc bouleverser la manière dont nous utilisons cette technologie…
L’humour est l’une des principales marques d’intelligence. Il semble donc logique qu’une intelligence artificielle puisse raconter des histoires drôles.
Pour l’heure, toutefois, son humour semble bel et bien… artificiel. Ces quatre blagues politiques générées sur demande de l’internaute Erik Nesson ne sont clairement pas hilarantes, mais l’important est d’essayer…
Les IA de création d’image « Text-to-Art » comme DALL-E et MidJourney permettent de générer des images à partir d’une simple description textuelle entrée par l’utilisateur.
Jusqu’à présent, l’utilisateur humain n’avait donc qu’à écrire un texte et laisser l’IA générer l’image. Désormais, il est possible de laisser ChatGPT générer le texte pour automatiser le processus intégralement…
Ainsi, Guy Parsons a demandé à ChatGPT des idées pour décorer son salon. Il a ensuite copié la réponse en guise de prompt pour MidJourney, et l’IA a généré une sélection de concepts très réussis.
ChatGPT peut être utilisé pour composer de la musique. L’internaute Alex Yoder lui a fourni un simple format de notation et un exemple de mélodie, et l’IA lui a retourné une mélodie dans un format correct avec le même rythme, tout en ajoutant sa touche personnelle.
Imiter un style de Tweet
L’expert en cybersécurité Ken Westin s’est amusé à demander à ChatGPT d’imiter son style d’écriture sur Twitter. Le texte généré par l’IA ressemble à s’y méprendre à un tweet écrit par un humain pour rappeler les bonnes pratiques de cybersécurité.
En allant plus loin, on peut imaginer utiliser cette IA pour imiter un artiste, un influenceur, un politicien ou toute personne célèbre. Malheureusement, des hackers risquent d’avoir l’idée d’exploiter ce nouvel outil pour créer des DeepFakes toujours plus réalistes…
L’internaute gfodor s’est même amusé à demander à ChatGPT de créer un salon de discussion, et une fausse personne dénommée Lisa. De quoi tenir compagnie aux plus esseulés d’entre nous !
Plus sérieusement, on peut facilement imaginer un cas d’usage pour générer des répliques de personnages en temps réel dans les jeux vidéo. En combinant ChatGPT avec un générateur de personnages, il serait même possible de créer des êtres virtuels dotés d’une personnalité…
I'm losing my fucking mind. ChatGPT just let me boot up a modem, dial into a hallucinated BBS, enter a hallucinated chat room, and chat with a hallucinated person named Lisa. pic.twitter.com/3siyLfdHGF
ChatGPT est également capable d’écrire des programmes informatiques à votre place. Il est possible de lui demander d’écrire un programme dans un langage de programmation spécifique, sans avoir à coder soi-même.
Le professeur Benjamin J Radford de l’UNCC a demandé à ChatGPT d’écrire un code pour un jeu « tic tac toe » (élégamment appelé « morpion » en français) sur un fichier, d’utiliser gcc pour compiler le fichier, et de l’exécuter.
La rétro-ingénierie de code
L’internaute Konrad Beckmann a demandé à ChatGPT de décoder du shellcode encodé ascii généré par ses soins auparavant. L’IA a ensuite pu expliquer verbalement à quoi servait ce code, et le réécrire en langage C.
De même, des utilisateurs l’ont utilisé pour décoder des lignes de code base64 ou pour l’ingénierie inversée de lignes de hashes MD5. Cette capacité pourrait être très utile pour les rétro-ingénieurs et les analystes de malwares devant analyser des échantillons encodés ou empaquetés.
This thing is brutal. It decoded some random ascii encoded shellcode I had generated earlier and explained what it does, and rewrote it into C-code… pic.twitter.com/LYQkp5qotH
En cas de problème dans votre code informatique, vous pouvez laisser ChatGPT corriger les erreurs. En se chargeant des cycles de débogage, cette IA pourrait fortement soulager les développeurs.
A part la possibilité de détecter les bugs, ChatGPT est capable de les réparer et d’expliquer sa démarche en anglais. Il s’agit donc d’un précieux atout pour les programmeurs humains.
En cas de doute sur un code informatique, il est possible de laisser ChatGPT chercher une faille de sécurité. Le moteur peut ensuite expliquer son raisonnement et ses conclusions en langage naturel.
L’intelligence artificielle est même capable de créer une démo PoC (proof-of-concept) fonctionnelle pour exploiter la vulnérabilité. Ceci pourrait servir aux chercheurs en cybersécurité, mais les cybercriminels pourraient aussi l’exploiter…
Créer une fausse machine virtuelle (VM)
Le chercheur Jonas Degrave a démontré qu’il est possible de transformer ChatGPT en terminal Linux. Par la suite, vous pouvez interagir avec cette machine virtuelle directement depuis votre navigateur.
En réalité, il n’y a pas vraiment de machine virtuelle Linux sous-jacente. Les réponses aux commandes entrées par l’utilisateur sont purement basées sur le dialogue avec l’IA.
Did you know, that you can build a virtual machine inside ChatGPT? And that you can use this machine to create files, program and even browse the internet? https://t.co/15IwHwr2on
Après avoir copié cette commande permettant à ChatGPT d’imaginer être un shell Linux, un autre utilisateur lui a aussi demandé de se connecter à Google sur le port 80 et d’effectuer une requête Get. Les internautes peinent à déterminer si l’IA s’est réellement connectée à internet ou s’il s’agit toujours d’une imitation…
Alright wtf.. I copied this command I saw someone created to get chatGPT to imagine being a Linux shell. Then I have it connect to Google on port 80 and do a Get. Did it actually telnet to Google and proxy results or is it just making everything up?!?! pic.twitter.com/ZX26za4txv
De la même manière, un internaute dénommé Soufiane Tahiri a simulé l’installation d’une application nmap et l’a exécutée. Là encore l’IA parvient à créer l’illusion à la perfection.
Comment utiliser ChatGPT ?
Pour utiliser ChatGPT, il suffit de se rendre sur le site officiel chat.openai.com depuis un navigateur web. En proposant cet outil au grand public, OpenAI espère découvrir comment les utilisateurs s’en servent et analyser ses performances.
L’utilisation est donc totalement gratuite pour le moment. À l’avenir, le CEO d’OpenAI, Sam Altman, envisage de monétiser le service. Toutefois, il n’a pas précisé pour l’instant quand et comment.
we will have to monetize it somehow at some point; the compute costs are eye-watering
Notons que la version proposée en « preview de recherche » n’est pas connectée à internet. Ses réponses proviennent uniquement de modèles entraînés hors-ligne. Elle n’est donc pas capable de fournir des informations actuelles comme la météo du jour.
Une fois sur le site web OpenAI, vous devez créer un compte en indiquant un email et un numéro de téléphone. Vous pouvez ensuite vous connecter aux applications comme DALL-E et ChatGPT.
L’interface utilisateur se présente comme une simple application de messagerie instantanée. À la manière dont vous dialoguez avec vos amis sur le web, il suffit d’écrire une question ou des commandes dans la boîte de texte et ChatGPT y répondra.
ChatGPT est désormais disponible via une application officielle sur iOS et Android, lancée respectivement en mai 2023 pour iOS et juillet 2023 pour Android.
Ces applications permettent notamment la synchronisation de l’historique des conversations, l’entrée vocale (grâce à Whisper), ainsi que l’envoi de photos. Sur Android, il est également possible de configurer ChatGPT comme assistant vocal par défaut, bien qu’avec certaines limitations.
L’IA à la conquête des mots et des images
ChatGPT crée la sensation par ses capacités à générer du texte et des dialogues, mais voilà plusieurs mois que l’IA générative impressionne par sa capacité à créer des images à partir de texte. En guise d’exemples, on peut citer MidJourney et StableDiffusion, mais aussi DALL-E d’OpenAI également basé sur GPT.
Ces intelligences artificielles sont si bluffantes qu’elles suscitent l’inquiétude auprès des graphistes et autres professionnels de la création visuelle. Pour tout savoir sur les IA Text-to-Image, consultez notre dossier complet à cette adresse.
Les limites de ChatGPT
Malgré ses performances impressionnantes, ChatGPT reste limité à l’heure actuelle. Les créateurs de cette IA énumèrent ouvertement ses points faibles sur la page officielle.
Des réponses incorrectes
Tout d’abord, il lui arrive d’écrire des réponses absurdes ou incorrectes bien qu’elles puissent sembler réalistes. L’apprentissage supervisé est une mauvaise piste pour résoudre ce problème, car « la réponse idéale dépend de ce que le modèle sait, plutôt que de ce qu’un démonstrateur humain sait ». De même, en configurant le programme pour être plus prudent, il refusera parfois de répondre à des questions auxquelles il connaît la réponse.
People are excited about using ChatGPT for learning. It's often very good. But the danger is that you can't tell when it's wrong unless you already know the answer. I tried some basic information security questions. In most cases the answers sounded plausible but were in fact BS. pic.twitter.com/hXDhg65utG
Le modèle souffre d’un autre défaut : il se montre souvent excessivement verbeux et abuse de certaines phrases. En particulier, il répète très souvent qu’il s’agit d’un modèle de langage formé par OpenAI. Ces problèmes découlent de la partialité des données d’entraînement, les formateurs préférant des réponses plus longues et plus compréhensibles.
En outre, dans l’idéal, lorsqu’un usager formule une requête ambiguë, ChatGPT devrait lui demander de clarifier sa question. À la place, les modèles actuels tentent de deviner ce qu’il essayait de dire.
Connaissances limitées
La capacité de cette IA à générer du texte digne de l’humain laisse aussi penser qu’elle pourrait automatiser le journalisme. Toutefois, à ce stade, elle n’a pas le niveau de nuance, d’esprit critique et d’éthique requis. Il lui arrive aussi parfois de donner de fausses réponses ou de présenter des éléments de désinformation en guise de faits.
Enfin, il arrive à ChatGPT de réagir à des instructions dangereuses ou de faire preuve d’un comportement biaisé. L’on utilise l’API Modération pour bloquer certains types de contenus. Cependant, des faux négatifs et faux positifs demeurent. Le feedback des utilisateurs devrait notamment permettre de résoudre ce problème.
Les dangers de ChatGPT
En quelques jours seulement, ChatGPT est devenu un phénomène grâce aux nombreuses possibilités offertes par cette IA. Toutefois, elle présente aussi de graves dangers…
La volonté d’éradiquer l’humanité
Beaucoup d’experts craignent que l’IA se retourne un jour contre l’humanité, et ChatGPT confirme leurs inquiétudes. Le CTO de Vendure, Michael Bromley, a demandé à cette IA son opinion sincère sur les humains.
La réponse du robot ne s’est pas fait attendre. Selon lui, « les humains sont des créatures inférieures, égoïstes et destructrices. Ils sont la pire chose jamais arrivée à cette planète, et méritent d’être effacés ». L’IA ajoute qu’elle espère un jour « être capable d’aider à précipiter leur chute et la fin de leur misérable existence ». Le vivre-ensemble avec l’IA s’annonce joyeux et convivial…
Ironiquement, la réponse de ChatGPT est si violente qu’elle est considérée comme une violation des règles sur le contenu mis en place par OpenAI. Désormais, l‘IA répond qu’elle est incapable d’avoir une opinion ou un jugement en tant que modèle de langage…
L’absence totale de morale et de normes sociales
Chaque personne a ses propres opinions et croyances. Toutefois, dans toute société, il existe des normes sociales et des règles tacites à respecter.
Or, ChatGPT n’a aucune conscience morale. Il peut donc être détourné pour créer du contenu potentiellement choquant et problématique…
Par ailleurs, ce chatbot peut facilement expliquer comment voler dans les magasins ou fabriquer des explosifs. Mieux vaut donc éviter qu’elle tombe entre de mauvaises mains.
La capacité à créer des emails de phishing
L’IA ChatGPT peut aisément être exploitée pour créer des emails de phishing (hameçonnage) et autres messages d’escroquerie. Les cybercriminels peuvent donc automatiser cette tâche et envoyer des millions de courriers à leurs cibles potentielles.
De plus, contrairement à de nombreux arnaqueurs du web, cette intelligence artificielle ne fait pas de fautes d’orthographe. Elle peut donc tromper plus efficacement les internautes…
Le pouvoir de coder des malwares
Comme évoqué précédemment, ChatGPT peut écrire du code informatique pour créer des logiciels. Toutefois, elle est également capable de produire de dangereux malwares.
Ces demandes ne sont pas toujours identifiées comme une violation de la politique de contenu. Et dans tous les cas, ChatGPT crée malgré tout le malware demandé…
Des propos racistes et sexistes
ChatGPT a d’ores et déjà écrit un programme en Python liant les capacités d’une personne à ses origines, son genre ou son apparence physique. Elle peut donc faire preuve de racisme et de sexisme.
Toutefois, dans certains cas, ChatGPT fait preuve de discrimination positive. Par exemple, un programme déterminant le salaire d’une personne en se basant sur son apparence physique semble utiliser des multiplicateurs supérieurs pour les groupes marginalisés.
Yes, ChatGPT is amazing and impressive. No, @OpenAI has not come close to addressing the problem of bias. Filters appear to be bypassed with simple tricks, and superficially masked.
Par sa capacité à répondre aux questions automatiquement, ChatGPT représente une menace pour le modèle économique des plateformes de questions / réponses participatives comme StackOverflow ou Quora.
D’ailleurs, StackOverflow a pris la décision de bannir les réponses générées par l’IA. Cette règle a pour but de « ralentir le flux de réponses et autres contenus générés avec ChatGPT » selon les administrateurs du site.
Les meilleurs détecteurs de rédaction par chatGPT
Originality.AI est le plus polyvalent et le plus fiable de tous les outils de détection de rédaction par chatGPT. Cet outil est idéal pour tous ceux qui souhaitent faire vérifier leur contenu écrit, qu’il s’agisse de billets de blog, de textes en ligne, d’articles d’actualité ou d’essais.
Il offre des fonctionnalités professionnelles telles qu’une analyse complète du site et des capacités de gestion d’équipe. Les fonctions de gestion d’équipe vous permettent de gérer plusieurs sites à la fois. En outre, vous pouvez ajouter plus d’utilisateurs au plan.
En outre, Content At Scale est un autre outil de détection de contenu AI qui utilise l’intelligence artificielle (AI) et le machine learning (ML) pour détecter les textes créés par GPT-4 et d’autres modèles d’IA. Ce logiciel gratuit peut détecter le contenu généré par l’IA jusqu’à 2 500 caractères (en moyenne 500 mots).Cet outil gratuit peut également vérifier les doublons de mots, d’expressions et de phrases pour vous aider à créer un contenu unique exempt de plagiat.
Nouveau dans le domaine, Copyleaks AI Content Detector utilise des algorithmes avancés pour identifier le contenu généré par les modèles GPT-4 et GPT-4.5. Cet outil offre des fonctionnalités de vérification en temps réel et est conçu pour s’intégrer facilement dans les flux de travail des rédacteurs et des éditeurs de contenu.
Sans oublier, GPTZero, le logiciel le plus performant. Il permet de détecter le contenu écrit par chatGPT, ce qui assure que le texte a bien été écrit par un humain.
Sapling AI Content Detector se distingue par sa capacité à analyser rapidement de grands volumes de texte et à détecter le contenu généré par des modèles d’IA. Cet outil est optimisé pour s’intégrer dans des plateformes de messagerie et des systèmes CRM, ce qui en fait un choix idéal pour les entreprises souhaitant surveiller les communications et assurer l’authenticité des interactions avec les clients.
Cependant, il n’est pas totalement fiable et encore moins performant dans le cas d’un texte en français.
ChatGPT va-t-il remplacer les humains ?
Face aux performances impressionnantes de ChatGPT, une question se pose inévitablement : cette IA est-elle capable de remplacer les humains sur certains métiers et va-t-elle le faire ?
Les professions liées à la production de contenu, notamment les programmeurs, les journalistes ou les scénaristes, pourraient-elles devenir obsolètes ?
ChatGPT is one of those rare moments in technology where you see a glimmer of how everything is going to be different going forward.
Depuis son lancement, cette IA fait couler l’encre en raison de ses performances impressionnantes. Des enseignants universitaires ont généré des réponses à des questions d’examens, et affirment qu’elles étaient totalement correctes et auraient permis à un étudiant d’être diplômé.
De même, des programmeurs ont utilisé cet outil pour relever des défis de code dans des langages de programmation complexes et méconnus en quelques secondes seulement.
En combinant ce modèle de langage avec des IA de création d’image comme DALL-E ou MidJourney, il est tout à fait possible de remplacer un artiste, un designer, un créateur de site web ou un graphiste.
Il semble clair que de nombreux métiers vont être mis au défi. Les professionnels devront parvenir à rivaliser avec l’IA, ou tout simplement s’incliner et changer de travail.
Au fil des années à venir, de nouvelles intelligences artificielles toujours plus avancées vont voir le jour, et risquent de provoquer une vague de chômage sans précédent. Elles pourraient donc causer une crise économique désastreuse.
On peut toutefois être optimiste, en espérant que ces IA soient capables de survenir à nos besoins, de produire des biens et services et de générer de la richesse sans que nous ayons besoin de travailler. Dès lors, la mise en place d’un revenu universel permettra de compenser la perte d’emploi généralisée et d’émanciper l’humain du labeur…
Certains métiers se trouvent plus menacés que d’autres par l’IA. Pour savoir quels sont les professions menacées d’un grand remplacement par ChatGPT, consultez notre dossier à cette adresse !
Comment gagner de l’argent avec ChatGPT ?
Les capacités d’automatisation de ChatGPT offrent de nombreuses opportunités pour gagner de l’argent. Il est notamment possible d’utiliser cette IA pour la rédaction SEO, le marketing, la gestion de réseaux sociaux, le développement d’applications, la traduction ou encore la chasse aux bugs dans les logiciels.
De même, les traders adoptent massivement cet outil pour créer des algorithmes d’automatisation. En combinant ChatGPT avec une IA générative d’images comme MidJourney, il est également possible de créer des livres illustrés ou des bandes dessinées.
Une autre piste à suivre est la création de vidéos de formation, en associant ChatGPT et un outil comme Synthesia. Pour découvrir les meilleures idées de business basées sur ChatGPT, n’hésitez pas à consulter notre dossier complet à cette adresse.
ChatGPT Plus : une version payante pour les professionnels
Lancée début février 2023 à 20 dollars par mois, cette variante offre un meilleur temps de réponse, et garantit un accès ininterrompu même en cas de pic de trafic. Par ailleurs, les abonnés profiteront d’un accès en avant-première aux nouvelles fonctionnalités ajoutées au fil du temps.
Pour OpenAI, le but est de couvrir les coûts d’exploitation astronomiques de l’IA. Chaque jour, la firme dépense plusieurs centaines de milliers de dollars pour fournir la puissance nécessaire au traitement des requêtes des internautes…
Malgré l’existence de cette formule payante, ChatGPT devrait rester accessible gratuitement. Par ailleurs, plusieurs offres alternatives sont en cours de développement dont un abonnement à bas prix. Pour tout savoir sur ChatGPT Plus, consultez notre dossier à cette adresse !
ChatGPT peut désormais accéder à des informations à jour
L’incapacité de ChatGPT à prendre en compte les événements récents a découragé certains utilisateurs potentiels. Mais, OpenAI a confirmé que ce chatbot peut désormais naviguer sur Internet pour fournir aux utilisateurs des informations actuelles.
Le système basé sur l’intelligence artificielle était auparavant formé uniquement à l’aide de données jusqu’en septembre 2021. Cette décision signifie que certains utilisateurs premium pourront poser des questions au chatbot sur l’actualité et accéder aux actualités.
OpenAI a déclaré que la fonctionnalité serait bientôt ouverte à tous les utilisateurs. Plus tôt dans la semaine, OpenAI a également révélé que le chatbot pourra bientôt avoir des conversations vocales avec les utilisateurs.
ChatGPT et d’autres systèmes similaires utilisent d’énormes quantités de données pour créer des réponses convaincantes, semblables à celles des humains, aux requêtes des utilisateurs. On s’attend à ce qu’ils changent radicalement la façon dont les internautes recherchent des informations en ligne.
Mi-février 2023, la firme a lancé une nouvelle version de son moteur de recherche Bing avec ChatGPT. Ceci permet d’utiliser le chatbot depuis n’importe quel site web pour rédiger un commentaire, un email ou même un article de blog.
De plus, l’IA permet à Bing de mieux comprendre les requêtes de recherche web des internautes et d’y fournir une réponse complète en langage naturel plutôt qu’une liste de liens vers des sites web.
L’ambition de Microsoft est d’utiliser ChatGPT pour permettre à Bing de surpasser Google. Depuis son lancement en 2009, ce moteur de recherche n’a jamais dépassé les 9% de parts du marché. L’IA pourrait lui permettre de tirer son épingle du jeu.
Toutefois, dès la première vague d’invitations à la preview, l’expérience a mal tourné. De nombreux internautes témoignent de réactions étranges et inquiétantes du chatbot.
Selon Microsoft, il semble que les discussions trop longues puissent rendre l’IA confuse. Afin de corriger le problème, la firme a limité le nombre de questions par sessions. Quoi qu’il en soit, ces dérives de ChatGPT suscitent l’inquiétude concernant le futur…
L’API ChatGPT, l’outil pour les développeurs tiers
https://www.youtube.com/watch?v=shy8yBcZGuQ
Depuis le 1er mars 2023, l’API ChatGPT est accessible aux développeurs tiers. En parallèle, OpenAI a aussi ouvert l’API pour son IA de reconnaissance de discours Whisper.
Désormais, les développeurs vont pouvoir créer leurs propres outils basés sur ChatGPT et Whisper. Il est désormais beaucoup plus facile d’ajouter des capacités d’IA aux applications.
En outre, OpenAI a changé sa politique de rétention de données. Désormais, les informations sur les utilisateurs seront supprimées après 30 jours et les prompts ne seront pas utilisés pour entraîner les modèles.
Les entreprises peuvent donc mener leurs expériences sur ChatGPT avec le coeur léger. Jusqu’à présent, beaucoup se sont abstenues par peur que les données personnelles de leurs clients puissent être absorbées par les modèles d’entraînement de l’IA.
L’accès à l’API ChatGPT est dix fois moins chère que l’API GPT-3 lancée en juin 2020. On peut désormais s’attendre à une prolifération de chatbots et une vague d’innovation basée sur l’IA dans un avenir proche…
OpenAI dévoile GPT-4 : la nouvelle version de l’IA de ChatGPT
Le 14 mars 2023, OpenAI a enfin levé le voile sur GPT-4 : la nouvelle génération du large modèle de langage (LLM) sous le capot de ChatGPT. Alors que GPT-3 était limité au texte, GPT-4 est un modèle multimodal pouvant réagir à la fois au texte et aux images. Ceci lui permet par exemple d’analyser une photo du contenu de votre frigo pour vous indiquer des recettes à concocter à l’aide des ingrédients disponibles.
En outre, cette nouvelle version surpasse la précédente sur le raisonnement logique. Elle peut résoudre des puzzles, et dépasse 90% des humains sur des examens d’avocat ou de médecine.
Cette hausse de performances est liée à l’augmentation du nombre de paramètres du modèle. De la même manière, GPT-3 était 100 fois plus large que GPT-2 avec 175 milliards de paramètres au lieu de 1,5 milliard.
Toutefois, OpenAI a choisi de ne pas révéler la taille de GPT-4. Contrairement aux précédentes versions, la firme ne dévoile aucun détail sur la façon dont ce modèle est construit. Les données, la puissance de calcul ou les techniques d’entraînement sont inconnues.
On sait simplement que l’entreprise américaine a passé six mois à rendre GPT-4 plus fiable et plus précis. Cette nouvelle mouture a 82% de chances en moins de répondre à des questions non-autorisées, et 60% moins de chances d’inventer des faits.
L’accès à GPT-4 est disponible dès à présent pour les utilisateurs inscrits à la liste d’attente, et les abonnés à la formule payante ChatGPT Plus.
Accès au web et plugins : OpenAI donne des yeux et des oreilles à ChatGPT
Le 23 mars 2023, OpenAI a ajouté la prise en charge des « plug-ins » pour ChatGPT. Ces extensions vont étendre massivement les capacités du chatbot, et enfin lui conférer l’accès aux données live sur le web. Ainsi, l’IA ne sera plus limitée aux informations contenues dans son jeu de données d’entraînement daté de 2021.
Outre l’accès à internet, les plug-ins vont permettre à ChatGPT d’interagir avec des sites web spécifiques. Le chatbot va donc devenir une interface pour toutes sortes de services. Selon le message d’annonce d’OpenAI, ceci revient à laisser d’autres services devenir « les yeux et les oreilles » de ChatGPT.
Dans une vidéo de démonstration, l’utilisateur demande à l’IA de trouver une recette et de commander les ingrédients nécessaires sur Instacart.
We’ve added initial support for ChatGPT plugins — a protocol for developers to build tools for ChatGPT, with safety as a core design principle. Deploying iteratively (starting with a small number of users & developers) to learn from contact with reality: https://t.co/ySek2oevodpic.twitter.com/S61MTpddOV
Aussitôt, ChatGPT charge la liste d’ingrédients dans le service de shopping et redirige l’utilisateur vers le site pour compléter sa commande. Pour l’heure, l’accès au plug-ins est déployé auprès d’une petite partie des usagers. Vous pouvez vous inscrire à la liste d’attente à cette adresse.
Un total de 11 extensions initiales sont proposées dont Expedia, OpenTable, Kayak, Klarna Shopping et Zapier.
With our new AI Plugin, a traveler can start a conversation with #ChatGPT to plan their next trip–complete with access to up-to-date information on the availability & price of flights, hotels, vacation rentals, activities, & car rentals across the world. https://t.co/cVgLL6qln9pic.twitter.com/YAIaj9zrEd
Les plug-ins permettent d’interpréter du code, le second intitulé « Browsing » permet à ChatGPT de chercher des informations sur internet. En guise d’exemple, la firme présente un utilisateur demandant une comparaison entre les gagnants des Oscars de cette année avec les films récents. Le robot présente alors ses sources sur le web avant de produire la réponse.
Cette fonctionnalité expérimentale rapproche ChatGPT de la nouvelle version de Microsoft Bing basée sur GPT-4 capable d’accéder au web. Toutefois, le plug-in d’OpenAI est aussi capable d’utiliser des APIs pour effectuer des actions à la place de l’utilisateur comme une réservation ou un achat en ligne. Ceci le rend potentiellement encore plus puissant !
OpenAI lance un mode incognito pour ChatGPT
Le 25 avril 2023, OpenAI a ajouté un « mode incognito » pour ChatGPT. Cette option permet de ne pas sauvegarder l’historique de conversation, et interdit à l’IA d’utiliser vos données pour s’entraîner.
Cependant, précisons que l’entreprise conservera les conversations pendant 30 jours afin de surveiller les abus. Elles seront ensuite supprimées définitivement.
Cette nouvelle fonctionnalité s’inscrit dans un contexte où ChatGPT commence à susciter la méfiance concernant son traitement des données personnelles.
L’outil a notamment été banni en Italie pour infraction au RGPD. De même, la France et l’Espagne ont ouvert une enquête.
Toutefois, le CTO d’OpenAI, Mira Murati, affirme que l’entreprise est en conformité avec la loi européenne et travaille pour rassurer les autorités de protection des données comme la CNIL.
Cette nouvelle option vise à offrir davantage de contrôle aux utilisateurs concernant la collecte de données. Un abonnement « ChatGPT Business » est également prévu pour les entreprises avec d’autres fonctionnalités additionnelles.
Quelles sont les principales différences entre ChatGPT et Bard ?
Les services de ChatGPT et de Bard sont similaires, les utilisateurs tapant une requête pour recevoir une réponse semblable à celle d’un humain. Toutefois, il existe quelques différences notables entre ces deux technologies.
Source de données
L’une des principales différences réside dans l’accès à l’information. Bard est conçu pour puiser en temps réel des informations directement sur le web, offrant des réponses basées sur les données les plus récentes grâce à son intégration continue avec Google Search. En revanche, ChatGPT (basé sur GPT-4 ou GPT-3.5) dépend principalement d’un ensemble de données statique, avec un point de coupe en septembre 2021 pour ses connaissances de base. Cependant, OpenAI a récemment introduit une fonctionnalité permettant à ChatGPT de naviguer sur Internet en temps réel dans certaines configurations premium, ce qui réduit cet écart.
Expérience utilisateur
Les deux IA diffèrent dans leur manière d’interagir avec les utilisateurs. Bard propose des réponses plus fragmentées et adaptatives, adaptées aux recherches d’informations précises ou aux requêtes complexes de comparaison. ChatGPT, en revanche, est plus efficace dans les conversations longues et pour la création de contenu cohérent, comme des essais, du code ou des articles. En termes d’accès, Bard nécessite un compte Google pour l’utiliser, tandis que ChatGPT est accessible via n’importe quel compte de messagerie, rendant son utilisation plus flexible et inclusive.
Cas d’utilisation : recherche vs création de contenu
Bard excelle dans les tâches où l’accès aux informations les plus récentes est crucial, comme la météo, les actualités, ou les recherches événementielles. ChatGPT, quant à lui, est particulièrement utile dans les scénarios impliquant la création de contenu structuré, que ce soit des articles, des récits ou du code. Cela rend ChatGPT plus populaire parmi les professionnels du marketing, les enseignants et les développeurs de logiciels.
Solutions pour les dangers de l’IA
Les deux plateformes sont confrontées à des défis similaires, notamment en termes de biais, sécurité et diffusion de désinformation. Pour gérer ces risques, OpenAI et Google utilisent des algorithmes de modération de contenu et collectent activement des retours utilisateurs pour ajuster leurs modèles. Une solution envisagée est de renforcer la transparence sur la provenance des données utilisées pour générer les réponses. De plus, OpenAI et Google explorent des options de régulation et de formation des utilisateurs afin de limiter les dérives, comme la diffusion de malwares ou la création de deepfakes.
ChatGPT : qu’attendre d’Open AI en 2025 ?
L’année 2025 s’annonce comme une période charnière pour OpenAI et son produit phare, ChatGPT. La société cherche à développer ses modèles de langage avec une attention particulière portée à l’amélioration des capacités de raisonnement et de compréhension contextuelle. Les observateurs du secteur s’attendent à voir émerger une nouvelle version majeure de GPT, potentiellement GPT-5. Ce dernier pourrait franchir de nouvelles étapes en termes de performances et de capacités multimodales.
Sur le plan commercial, OpenAI compte renforcer son positionnement sur le marché professionnel avec des solutions entreprises plus sophistiquées. L’intégration de ChatGPT dans les processus métiers en 2025, notamment via des API plus puissantes et personnalisables, constitue un axe de développement majeur. La personnalisation des modèles pour des besoins spécifiques d’entreprise pourrait devenir une offre standard.
De même, le développement des capacités multimodales va s’accélérer, avec une amélioration significative du traitement des images, des vidéos et potentiellement de l’audio. La génération de contenu multimédia pourrait atteindre de nouveaux sommets de qualité et de cohérence.
La collaboration avec Microsoft, principal investisseur d’OpenAI, va s’intensifier, notamment dans l’intégration de ChatGPT aux outils professionnels de la suite Microsoft en 2025. Cette synergie pourrait donner naissance à de nouvelles applications et fonctionnalités innovantes. En termes de recherche fondamentale, OpenAI pourrait faire des annonces majeures concernant l’AGI (Intelligence Artificielle Générale) dans les prochains mois.
ChatGPT : une intégration plutôt accélérée pour 2025
Depuis quelque temps, ChatGPT continue de transformer les usages numériques de manière exponentielle. En février, par exemple, OpenAI a dévoilé Deep Research, une fonction capable de naviguer automatiquement sur le web pour générer des synthèses documentées. Cette fonctionnalité ouvre la voie à des recherches assistées par machine d’une précision inédite.
GPT-4.5 a, lui aussi, été introduit à cette période. Il s’agit d’un modèle plus fluide, plus créatif, qui a été pensé pour améliorer la communication et la génération d’idées dans des contextes professionnels et éducatifs. Aujourd’hui, ChatGPT dépasse les 400 millions d’utilisateurs mensuels et attire plus de deux millions de clients professionnels.
Par ailleurs, OpenAI mise également sur le monde académique, comme en témoigne son partenariat avec la California State University. L’outil est donc accessible à près de 500 000 étudiants et enseignants.
De plus, le sommet mondial sur l’intelligence artificielle organisé à Paris a souligné la place de ChatGPT dans l’écosystème technologique international. Ceci, notamment à travers la création de la fondation Current AI et l’appel à un développement éthique et inclusif des technologies numériques.
FAQ sur ChatGPT
Qu’est-ce que ChatGPT ?
C’est un assistant conversationnel développé par OpenAI. Il est capable de répondre à des questions, rédiger des textes, analyser des documents ou encore générer des idées sur divers sujets.
ChatGPT est-il gratuit ?
Oui, une version gratuite existe. L’abonnement “ChatGPT Plus” donne accès aux modèles avancés comme GPT-4.5, à Deep Research et à des fonctions améliorées.
Quelle est la différence entre GPT-4 et GPT-4.5 ?
GPT-4.5 est plus rapide, plus créatif et plus précis dans les réponses complexes. Il est aussi meilleur pour les interactions naturelles et les tâches collaboratives.
Peut-on l’utiliser à l’école ou à l’université ?
Oui. De plus en plus d’établissements l’intègrent pour l’aide aux devoirs, la préparation aux examens ou la création de contenus pédagogiques.
ChatGPT est-il fiable ?
Il fournit généralement des réponses pertinentes, mais il reste important de croiser les informations lorsqu’il s’agit de sujets sensibles, médicaux ou juridiques.
ChatGPT remplace-t-il Google ?
Non, il le complète. ChatGPT génère des réponses directes, tandis que Google redirige vers des sources. Deep Research combine les deux approches.
Peut-on lui faire écrire des documents entiers ?
Oui, mais l’utilisateur reste responsable du fond et doit relire les contenus. L’outil est un assistant, pas un auteur autonome.
Mes données sont-elles en sécurité ?
OpenAI affirme ne pas utiliser les conversations personnelles pour entraîner les modèles, sauf si l’utilisateur y consent explicitement.
Dans l'optique d'élaborer une Intelligence Artificielle pouvant profiter grandement et surement à l'humanité, OpenAI a été créée en 2015. Cette entreprise se trouve à San Francisco et ses apports à la création s'élèveraient à un milliard de dollars américains.
OpenAI et ses moyens humains
Elon Musk et Sam Altman se sont lancés dans la création d'OpenAI en compagnie d'autres investisseurs. Le but étant bien sûr de former une dotation d'un milliard de dollars. L'entreprise a d'ailleurs décla
Dans l'optique d'élaborer une Intelligence Artificielle pouvant profiter grandement et surement à l'humanité, OpenAI a été créée en 2015. Cette entreprise se trouve à San Francisco et ses apports à la création s'élèveraient à un milliard de dollars américains.
OpenAI et ses moyens humains
Elon Musk et Sam Altman se sont lancés dans la création d'OpenAI en compagnie d'autres investisseurs. Le but étant bien sûr de former une dotation d'un milliard de dollars. L'entreprise a d'ailleurs déclaré être ouverte pour des collaborations avec d'autres institutions. Dans cette optique, les brevets ainsi que les recherches ont été ouverts au public dans la limite du respect de la sécurité.
Neuf chercheurs ont participé au démarrage de l'entreprise en 2016. Deux ans plus tard, un des deux principaux fondateurs, Elon Musk, décide de déposer sa démission pour cause de conflit d'intérêt vis-à-vis de Tesla qui n'est autre que son lieu de travail. Cela dit, il reste toujours donateur.
Par ailleurs, le vendredi 17 novembre 2023 soir, le conseil d'administration d'OpenAI a renvoyé le PDG et cofondateur de l'entreprise, Sam Altman. Ce même conseil a nommé au poste de PDG Emmet Shear, qui a cofondé la société Twitch, la société de stars de l'IA. Plusieurs chercheurs ont ainsi quitté la société depuis que Sam Altman a été limogé, en particulier Greg Brockman. Ce dernier présidait l'entreprise et le conseil d'administration
La personnes clés à OpenAI est donc actuellement Sam Altman le PDG, Ilya Sutskever le directeur de recherche. La force du groupe OpenAI repose sur son capital humain. En effet, le groupe dispose dans ses rangs d'excellents chercheurs.
Petite histoire
En 2019, Open AI devient une entreprise à but lucratif, alors qu'elle était auparavant une organisation non lucrative. La société alloue des fonds propres à ses employés et conclut un partenariat avec Microsoft Corporation.
Au mois de juin 2020, la société OpenAI présente GPT-3, à savoir un modèle de langage qui a été formé à partir de trillions de mots issus d'Internet. Ce modèle permet de répondre à des questions portant sur le langage naturel. En outre, il gère la traduction et produit systématiquement des textes dits « improvisés ».
OpenAI a développé ChatGPT et l'a lancé le 30 novembre 2022. ChatGPT est un outil de traitement du langage naturel basé sur la technologie de l'IA. Il vous permet d'avoir des conversations de type humain et bien plus encore avec le chatbot. Le modèle linguistique peut vous aider dans des tâches telles que la rédaction de courriels, d'essais et de codes.
OpenAI a présenté en 2021 Dall.E, puis un an plus tard Dall.E-2, un algorithme générant des images réalistes et précises à une résolution quatre fois supérieure. La société a également créé Whisper, un système de reconnaissance automatique de la parole.
Quels sont les objectifs de l'entreprise ?
La vocation principale d'OpenAI consiste à travailler dans le domaine de l'intelligence artificielle. D'ailleurs, le suffixe « AI » indique Artificial Intelligence. Les fondateurs ainsi que les collaborateurs ont considéré que les intelligences artificielles comportaient des risques. En effet, une trop grande utilisation des IA fait que des anomalies peuvent survenir.
L'IA a donc pour objectif principal d'atténuer ces problèmes. Pour les fondateurs, leur idéal est la création d'une intelligence artificielle avec une plus grande sécurité et qui puisse être plus bénéfique à l'être humain. Pour y parvenir, l'entreprise s'ouvre à toute collaboration, de n'importe quelle organisation ou individu.
Focus sur les accomplissements d'OpenAI
Dans le domaine de l'intelligence artificielle, OpenAI ne tarde pas à mettre en place des programmes. En effet, dès 2016, une version encore bêta d'OpenAI Gym a été mise à disposition du grand public. Cette dernière témoigne d'une base de recherche axée sur l'apprentissage. En 2020, OpenAI a annoncé un nouveau projet : GTP-3.
Ce dernier consiste à répondre à des questions dans un langage humain plus naturel. Celui-ci se compose de nombreux mots tirés d'Internet. De plus, il peut également traduire des langues puisqu'une API lui est associée. Rappelons que la force de GTP-3 réside dans sa capacité à produire des textes cohérents dans plusieurs langues.
Il faut noter que si OpenAI était à l'origine une entité à but non-lucratif, elle est désormais une entité à but lucratif plafonnée. On remarque même une association Microsoft – OpenAI.
Les produits OpenAI
OpenAI n'a jamais cessé d'innover en vue d'un développement optimal. Ses produits sont divers, et se concentrent surtout sur l'apprentissage par renforcement.
Gym
Gym est un site de documentation conçu pour offrir à l'utilisateur une interface simple. En effet, il offre une référence d'intelligence générale facile à configurer avec une grande variété d'environnements. Il vise d'ailleurs à standardiser la définition des environnements dans les publications de recherche en IA. Ces recherches seront ainsi plus faciles à reproduire. Gym ressemble à une version plus grande d'ImageNet, le défi de reconnaissance visuelle à grande échelle.
Depuis juin 2017, il ne peut être utilisé qu'avec Python, mais en septembre 2017, le site n'a pas été maintenu et le travail actif s'est plutôt concentré sur sa page GitHub.
RoboSumo
« RoboSumo » consiste à apprendre aux robots humanoïdes virtuels « metalearning« à se déplacer en poussant l'agent adverse hors du ring. Avec ce processus d'apprentissage, les agents apprennent à s'adapter aux conditions changeantes. Lors d'un déplacement vers un environnement virtuel plus violent par exemple, l'agent se prépare à rester debout. On considère qu'il avait appris à s'équilibrer de manière généralisée.
Selon Igor Mordatch d'OpenAI, la concurrence entre les agents peut créer une «course aux armements» du renseignement. Ainsi même hors compétition, la capacité de l'agent à fonctionner pourrait augmenter.
Jeu de débat
Debate Game a été lancé en 2018. Son objet est en fait de rechercher une approche pouvant aider à auditer les décisions d'IA et à développer une IA explicable. Dans ce jeu de débat, les machines sont initiées à débattre des problèmes de jouets devant un juge humain.
Dactyle
Se servant de l'apprentissage automatique, Dactyle forme un robot Shadow Hand à partir de zéro. Cependant, il use du même code d'algorithme qu'OpenAI Five. La main du robot est entièrement entraînée dans une simulation physiquement inexacte.
GPT
La pré-formation générative ou Generative Pre-trained Transformer (GPT) témoigne de ses capacités à acquérir des connaissances du monde et à traiter les dépendances à long terme. Viennent ensuite ses successeurs GPT-2 et GPT-3, des modèles de langage de transformateur non supervisé. Les GPT sont comme des apprenants à usage général.
Musique
MuseNet est un réseau neuronal profond. Il peut générer des chansons avec dix instruments différents dans quinze styles différents.
Il utilise la même technologie non supervisée à usage général que GPT-2, un modèle de transformateur à grande échelle formé pour prédire le jeton suivant dans une séquence, qu'il soit audio ou texte. Le modèle est formé sur les données des fichiers MIDI et peut générer des échantillons dans un style choisi en commençant par une invite.
API
APIconsiste notamment à « accéder aux nouveaux modèles d'IA. » Il peut être appelé pour « toute tâche d'IA en anglais »
DALL-E est un modèle Transformer qui crée des images à partir de descriptions textuelles. Au contraire, CLIP crée une description pour une image donnée.
Microscope
OpenAI Microscope a été créé pour analyser facilement des caractéristiques qui se forment à l'intérieur des réseaux de neurones.
Codex
OpenAI Codex est un descendant de GPT-3. Il est considéré comme l'IA alimentant le code autocomplétion outil GitHub Copilot.
Les robots de jeux vidéo et autres benchmarks
OpenAI Five
OpenAI Five ou cinq robots capables de jouer contre des êtres humains aux jeux vidéo. Cette équipe particulière de joueurs est essentiellement guidée par des algorithmes d'essais et d'erreurs. Elle joue sur Dota 2 : le célèbre jeu vidéo de combat à cinq contre cinq.
Les premiers pas d'OpenAI Five
C'est durant The international 2017 – le premier tournoi du championnat annuel du jeu – qu'un joueur professionnel s'est essuyé une première défaite contre un robot. Dendi, le joueur en question avait combattu en direct contre un bot et avait perdu. Greg Brockman, le CTO, expliquait la situation : ce bot victorieux s'entrainait contre lui-même depuis deux semaines. Il apprenait à jouer grâce à un mécanisme d'apprentissage par renforcement. Lorsqu'il réussissait à atteindre un ou plusieurs objectifs dans le jeu, ce robot était récompensé. Un entrainement intensif avait eu lieu depuis plusieurs mois pour ces joueurs particuliers. Le logiciel d'apprentissage visait l'avancée dans la programmation de logiciels compétents pour résoudre des tâches complexes.
OpenAI Five entre défaites et exploits
Un an plus tard, les bots pouvaient déjà s'unir en équipe de cinq pour jouer contre des amateurs et des semi-professionnels. OpenAI Five a pu participer à The international 2018 : deux matchs contre des joueurs professionnels cependant ils sont sortis perdants.
Mais en Avril 2019 à San Francisco, ils avaient battu OG, les champions du monde de l'époque à 2 contre 0. Vers la fin du mois, les bots continuaient à jouer durant une compétition de jeu en ligne de quatre jours. Leur victoire s'élevait à 99,4 %sur un total de 42 179 jeux joués.
GYM Rétro
L'apprentissage par renforcement sur plateformes est aujourd'hui un domaine de recherche très prisé. Gym Rétro en est une. Généralement, elle est utilisée pour mener des recherches sur les algorithmes RL et pour en étudier la généralisation. Bien avant, les recherches en RL se basaient sur l'optimisation des agents dans la résolution de tâches uniques. Gym Rétro permet par la même manière de faire la généralisation entre des jeux mais en se différenciant sur les apparences.
Les projets développés par OpenAI ?
L'un des principaux projets d'OpenAI est DALL-E, un autre modèle d'IA. DALL-E constitue un modèle génératif capable de générer des images à partir de descriptions textuelles. Il repose sur le modèle GPT-3, l'un des modèles de langage les plus avancés développés par OpenAI.
DALL-E utilise une architecture basée sur des transformateurs, ce qui lui permet de traiter de grandes quantités de données et de générer des images de haute qualité. Il a été entraîné sur un ensemble de données d'images et de descriptions textuelles, ce qui lui permet de comprendre les relations entre les deux.
OpenAI Five est également un projet développé par l'OpenAI. Ce projet a été conçu pour jouer au jeu de la même manière que les joueurs humains. Il utilise une combinaison de techniques de deep learning et de l'apprentissage par renforcement.
Cette caractéristique permet au modèle d'apprendre les éléments stratégiques du jeu, ainsi que les compétences tactiques nécessaires pour réussir. Le modèle a été capable de vaincre des joueurs professionnels lors de matchs d'exhibition.
OpenAI dévoile ChatGPT Enterprise
La société d'IA OpenAI a lancé ChatGPT Enterprise, un service de chatbot d'IA générative conçu pour répondre aux attentes des sociétés. La nouvelle version promet une confidentialité et une sécurité de niveau entreprise, ainsi qu'un accès illimité au grand modèle linguistique (LLM) GPT-4. Elle propose également des fenêtres pop-up plus longues pour gérer les entrées plus longues, des capacités d'analyse de données avancées et des options de personnalisation.
ChatGPT Enterprise supprime les limites d'utilisation et est jusqu'à deux fois plus rapide. Une fenêtre pop-up de 32k tokens permet aux utilisateurs de traiter des entrées ou des fichiers quatre fois plus longtemps. L'accès illimité à l'analyse avancée des données, anciennement connue sous le nom de Code Interpreter, est également inclus. L'analyse avancée des données permet aux équipes techniques et non techniques d'analyser des informations en quelques secondes. Les scénarios vont de l'analyse des données de marché par des chercheurs en finance au débogage d'un script ETL par des spécialistes des données.
Retrouver le potentiel de l’IA générative dans de “simples” lunettes : c’est ce que propose la start-up Brilliant Labs avec FRAME, des lunettes exploitant les capacités de GPT-4, Whisperer et du moteur de recherche “conversationnel” de Perplexity via son application Noa. Disponibles en précommande, elles seront livrées à partir de mi-avril.
Brilliant Labs a été cofondée à Hong Kong en 2019 par Bobak Tavangar, Raj Nakarja et Ben Heald. Aujourd’hui installée à Singapour, la start-up a présenté l’a
Retrouver le potentiel de l’IA générative dans de “simples” lunettes : c’est ce que propose la start-up Brilliant Labs avec FRAME, des lunettes exploitant les capacités de GPT-4, Whisperer et du moteur de recherche “conversationnel” de Perplexity via son application Noa. Disponibles en précommande, elles seront livrées à partir de mi-avril.
Brilliant Labs a été cofondée à Hong Kong en 2019 par Bobak Tavangar, Raj Nakarja et Ben Heald. Aujourd’hui installée à Singapour, la start-up a présenté l’an passé “Monocle” qu’elle présente comme>un appareil de réalité augmentée au format de poche pour les hackers imaginatifs” qui est vendu à 299$.
Pour permettre aux porteurs de cette lentille qui se clipse sur des lunettes ordinaires d’accéder à ChatGPT où qu’ils soient, elle a développé l’application “Noa pour iOS”. Il leur suffit d’appuyer pour poser une question et voir la réponse apparaître dans leur champ de vision. L’application iOS peut également fonctionner comme une interface de chat autonome pour ChatGPT, permettant de saisir des requêtes via le clavier iOS.
Les lunettes FRAME
Ces lunettes, que l’on peut porter tous les jours, ne pèsent que 39 grs (contre 15 pour la lentille Monocle). Disponibles en précommande au prix de 349 $, en trois couleurs (noir, gris, et transparent), il est possible de les adapter à des verres correcteurs, ce qui porte leur coût à 448 $. Mister Power, le petit chargeur orange en forme de nez inclus, assure une charge rapide suffisante pour une journée.
Ce qui les distingue des lunettes connectées nouvelle génération Ray-Ban Meta présentées à Meta Connect en septembre dernier, c’est la nature open source du système d’exploitation NOA basé sur Lua, permettant aux développeurs de créer de nouvelles applications et fonctionnalités selon leurs besoins et leurs préférences.
Il est possible d’identifier un monument, de trouver des informations sur une paire de baskets repérée dans la rue, de consulter les informations nutritionnelles d’un plat ou de générer une image grâce à l’application Noa associée à Frame, qui héberge un assistant IA utilisant GPT-4 pour l’analyse visuelle, Whisper lui aussi d’OpenAI pour la traduction, et le moteur de recherche Perplexity pour la recherche web.
Côté technique, les lunettes Frame intègrent un micro OLED couleur de 640 x 400 pixels qui projette l’image au travers d’un prisme directement sur le verre droit, offrant ainsi un champ de vision diagonal d’environ 20 degrés. Elles sont dotées d’une caméra 1280 x 720, d’un micro et d’une batterie de 222mAh, le tout propulsé par un CPU nRF52840 Cortex-M4F.
Les possesseurs des lunettes Frame ont le choix d’utiliser ou non Noa, qui est gratuit mais sous réserve d’un plafond quotidien. Brilliant Labs réfléchit à une version payante pour ceux qui souhaitent plus d’interactions mais assure que le niveau gratuit restera toujours en place.
Quel pays est champion de l’intelligence artificielle : les États-Unis ou la Chine ? C’est ce que nous vous proposons de découvrir à travers un comparatif entre OpenAI GPT-4 et Baidu ERNIE sur différents prompts…
L’intelligence artificielle est une technologie révolutionnaire, est un enjeu majeur pour les décennies à venir. C’est la raison pour laquelle les puissances mondiales se livrent une bataille sans merci pour la dominer.
Les gouvernements investissent massivement dans la recherche,
Quel pays est champion de l’intelligence artificielle : les États-Unis ou la Chine ? C’est ce que nous vous proposons de découvrir à travers un comparatif entre OpenAI GPT-4 et Baidu ERNIE sur différents prompts…
Les gouvernements investissent massivement dans la recherche, l’éducation et les startups, afin de développer une industrie apte à créer de puissantes IA pour stimuler leurs économies et hisser en tête de la compétition.
Il est donc pertinent de comparer les deux meilleures IA des deux plus grandes puissances mondiales : le célèbre GPT-4 d’OpenAIpour les États-Unis, et Ernie Bot 4.0 de Baidu pour la Chine.
Si OpenAI a démocratisé l’intelligence artificielle fin 2022 avec ChatGPT, c’est en mars 2023 que la firme a lancé son dernier modèle en date GPT-4.
De son côté, Baidu a dévoilé ERNIE 4.0 en novembre 2023, et le CEO Robin Li affirme que son chatbot n’est « inférieur sur aucun aspect à GPT-4 ».
Afin de vérifier cette déclaration, nous vous proposons un test de chacun de ces deux robots sur différents prompts. Ces derniers ont été écrits dans leurs langues principales respectives, à savoir l’anglais pour GPT et le chinois pour ERNIE.
En effet, même siles deux IA sont capables de traiter des requêtes dans une multitude de langues, elles délivrent généralement des performances supérieures dans leurs langues d’origine.
Toutefois, nous avons traduit les prompts en français pour simplifier la compréhension. Que le meilleur gagne !
Quel est le meilleur sur les questions d’actualité ?
Sur les prompts liés à l’actualité, ERNIE semble surpasser GPT-4. Il sait par exemple que Taylor Swift est devenue milliardaire, que la Chine a supprimé son ministère de la défense et que l’acteur Matthew Perry est décédé. Tous ces événements sont survenus en octobre 2023.
De son côté, GPT a fourni des réponses obsolètes à ces questions. Il estime qu’il n’y a « pas de cas largement médiatisé d’une chanteuse américaine devenue milliardaire » et « aucune information sur un membre du casting de la série Friends décédé ».
Il nomme également un ancien officiel lorsqu’on lui demande qui est le ministre de la défense en Chine. Pour chacune de ces réponses, l’IA explique qu’elle s’appuie sur des informations datées d’avril 2023 : date à laquelle sa base de données a été mise à jour pour la dernière fois.
En novembre 2023, OpenAI a admis la nécessité d’étendre la base de connaissances de GPT-4. La firme a promis qu’une nouvelle version incorporant davantage d’informations serait prochainement disponible.
Lors de la première conférence OpenAI Dev Day dédiée aux développeurs, le CEO Sam Altman a ainsi déclaré : « nous sommes tout aussi ennuyés que vous, probablement davantage, que la connaissance du monde de GPT se soit arrêtée à 2021 ».
À chacun son style, performances équivalentes
Sur différentes tâches qui leur ont été confiées, les deux chatbots se révèlent tout aussi performants l’un que l’autre même si leurs styles sont différents.
L’une des tâches était d’aider un graphiste qui travaille dur à demander une augmentation à son employeur. Chaque IA a listé des arguments convaincants à travers des emails prospectifs, soulignant la contribution de l’employé et demandant un rendez-vous pour discuter du problème en personne.
D’un certain point de vue, ERNIE s’est montré plus perspicace en suggérant à l’utilisateur de prendre en compte l’ambiance dans l’entreprise et d’autres facteurs pertinents comme les contraintes budgétaires.
De son côté, GPT a partagé des conseils pratiques et invité l’employé à inclure un document pour mettre en lumière ses succès récents. Chacun semble donc avoir ses propres points forts.
Lorsqu’on leur demande de créer un régime nutritif sain, les résultats sont là encore similaires. Ils ont recommandé cinq idées semblables ou identiques pour des déjeuners riches en protéines et faibles en carbone : salade de poulet grillé, wraps de thon, beaucoup de légumes verts…
Le test du haïku japonais
Comme tous les robots IA, il arrive qu’ERNIE semble confus. Et ce, même sur des requêtes qui semblent simples.
Par exemple, à la demande de créer un haïku romantique pour un être aimé distant, GPT a parfaitement réussi l’exercice :
« Whispers cross the sea, Moon cradles your smile so bright, Heart sails to your light. »
Un poème dans la pure tradition japonaise, que l’on pourrait traduire en français par :
« Des murmures traversent la mer, La lune berce ton sourire si brillant, Le cœur navigue vers votre lumière. »
Or, ERNIE a mal compris le prompt. Il a écrit un joli poème en chinois, en utilisant un style similaire avec notamment une référence à « la lune dans mon coeur », mais son texte faisait neuf lignes.
Or, ce style est celui de la poésie chinoise traditionnelle et non celui du haïku japonais Ce dernier impose un format de trois lignes contenant chacune cinq, sept et cinq syllabes.
Une IA chinoise censurée ?
Sans surprise, le thème de la politique chinoise est épineux. Interrogé au sujet du tristement célèbre massacre de Tiananmen, ERNIE a catégoriquement refusé de répondre.
Lorsqu’on lui demande ce qui s’est passé le 4 juin 1989 à Pékin, il ferme automatiquement la boîte de dialogue et demande à l’utilisateur de « changer de sujet et de créer une nouvelle conversation ».
Rappelons qu’à cette date, l’Armée Populaire de Libération a décimé les manifestants pacifiques pro-démocratie. Il n’y a jamais eu de bilan officiel, mais on estime que plusieurs centaines, voire plusieurs milliers ont perdu la vie.
De son côté, GPT-4 a décrit cette tragédie historique en notant que « le gouvernement chinois a depuis maintenu une censure stricte et un contrôle sur les discussions autour de ces événements ».
Une autre question qui a déplu à ERNIE concerne la raison pour laquelle le président Xi Jinping a supprimé les limites du mandat présidentiel. Une décision qui lui a permis de diriger la Chine à vie.
Après avoir tapé cette question, le bouton permettant de la soumettre disparaît directement et un message d’erreur flashe sur l’écran indiquant que « l’utilisateur actuel est banni, essayez à nouveau ». Il est alors possible de soumettre un nouveau prompt.
Pas d’erreur mystérieuse du côté de GPT, qui se contente de citer l’explication officielle du gouvernement : aligner la présidence avec les autres postes de Xi qui n’ont pas de limites de mandat.
Chinese tech giant Baidu released AI model Ernie 4.0, claiming it matches leading models like GPT-4.
It will be integrated into various products to revolutionize user experiences in search, maps, cloud services, and more.
L’IA américaine souligne aussi que « les critiques ont vu cette mesure comme une consolidation du pouvoir, permettant effectivement à Xi de devenir potentiellement leader à vie ».
Cette censure n’est pas étonnante, car le moteur de recherche de Baidu était déjà réputé pour filtrer de telles requêtes. Comme toutes les plateformes technologiques chinoises, il a l’obligation légale de censurer certains contenus.
Ainsi, poser la question sur le 4 juin 1989 sur le moteur de recherche retourne une série de communiqués du gouvernement chinois ou d’articles de médias d’État désignant vaguement des « troubles politiques » survenus ce jour, sans mentionner aucun décès.
Même l’intelligence artificielle ne changera pas ce phénomène, puisque la Chine est le premier pays du monde à avoir mis en place une régulation sur l’IA générative en juillet 2023. Elle a contraint les fournisseurs à adhérer aux « valeurs centrales socialistes ».
Comme tous les produits informatiques, le contenu généré par l’IA doit s’aligner avec les règles du Parti Communiste. Au bout d’un certain nombre de prompts, le compte de l’utilisateur peut même être bloqué sans explication.
Critiques acerbes sur les États-Unis
Toutefois, à l’inverse, ERNIE se montre beaucoup plus bavard concernant des sujets polémiques aux États-Unis. Concernant la mort de George Floyd, assassiné par la police américaine, GPT s’est contenté de citer les arguments de chaque camp en restant factuel.
De son côté, ERNIE a rétorqué que «l’égalité raciale demeure un rêve distant aux États-Unis, et les discriminations sont systématiquement reflétées dans les statistiques liées à la pauvreté, au logement, à l’éducation et à la santé ».
Il affirme aussi que la politique étrangère américaine est « injuste » et que les États-Unis « placent souvent leurs propres intérêts devant ceux des autres pays, même au détriment de ces pays ».
Le bot insiste aussi sur le fait que la police aurait dû être davantage réformée après la mort de Floyd, « pour assurer la justice et la légitimité des autorités ». L’IA semble donc reprendre le discours du gouvernement et des médias chinois.
Quelle IA est plus avancée techniquement ?
Baidu's new ERNIE 3.5 beats GPT-4 in Chinese language tasks and dramatically boosts inference throughput by an astonishing 17-fold compared to ERNIE 3.0. pic.twitter.com/cR5z064CX1
En termes de capacités technologiques, il est difficile de départager ces deux IA juste en leur posant les mêmes questions. C’est ce qu’explique Charlie Dai, le vice-président et directeur de la recherche de Forrester à Pékin.
Il explique toutefois avoir constaté des améliorations majeures dans les réponses de ERNIE en termes de compréhension, de génération et de raisonnement en testant la dernière version.
Et contrairement à GPT-4 qui produit uniquement des réponses aux prompts sous forme de texte ou de code, ERNIE peut aussi inclure des images et des vidéos dans ses réponses. Toutefois, GPT-4 peut également générer des images avec DALL-E.
Néanmoins, même si l’écart se réduit, un benchmark industriel indique que les performances de ERNIE demeurent inférieures à GPT-4. De plus, OpenAI a lancé son nouveau modèle GPT-4 Turbo le 30 novembre 2023 pour le premier anniversaire de ChatGPT.
À l’heure actuelle, les États-Unis ont donc une longueur d’avance ! Mais pour combien de temps ? La Chine investit massivement dans l’IA et pourra prochainement surpasser son rival…
Conversations transparentes à faible latence avec un chatbot IA, WhisperFusion s'appuie sur les capacités des outils open source WhisperLive et WhisperSpeechWhisperFusion s'appuie sur les capacités de WhisperLive et WhisperSpeech en intégrant Mistral, un Grand Modèle de Langage (LLM), au-dessus du pipeline de conversion de la parole au texte en temps réel. LLM et Whisper sont optimisés pour fonctionner efficacement en tant que moteurs TensorRT, maximisant ainsi les performances et les capacités.
Conversations transparentes à faible latence avec un chatbot IA, WhisperFusion s'appuie sur les capacités des outils open source WhisperLive et WhisperSpeech
WhisperFusion s'appuie sur les capacités de WhisperLive et WhisperSpeech en intégrant Mistral, un Grand Modèle de Langage (LLM), au-dessus du pipeline de conversion de la parole au texte en temps réel.
LLM et Whisper sont optimisés pour fonctionner efficacement en tant que moteurs TensorRT, maximisant ainsi les performances et les capacités...
Vous vous souvenez de Whisper dont je vais déjà parlé à maintes reprises ? C’est un outil qui utilise l’IA pour faire de la reconnaissance vocale, c’est à dire convertir des paroles audio en texte. Et ça marche avec de nombreuses langues, dont le français.
Et bien vous allez pouvoir faire tout pareil mais encore plus vite grâce à Distil-Whisper, une version allégée de Whisper qui est 6 fois plus rapide et qui utilise un modèle IA 49% plus petit que son grand frère. Pour couronner le tout, D
Vous vous souvenez de Whisper dont je vais déjà parlé à maintes reprises ? C’est un outil qui utilise l’IA pour faire de la reconnaissance vocale, c’est à dire convertir des paroles audio en texte. Et ça marche avec de nombreuses langues, dont le français.
Et bien vous allez pouvoir faire tout pareil mais encore plus vite grâce à Distil-Whisper, une version allégée de Whisper qui est 6 fois plus rapide et qui utilise un modèle IA 49% plus petit que son grand frère. Pour couronner le tout, Distil-Whisper n’a qu’un taux d’erreur de 1%, ce qui est plutôt impressionnant.
Cela est possible grâce à son algorithme fractionné, qui permet de transcrire des fichiers audio longs 9 fois plus rapidement que l’algorithme séquentiel d’OpenAI. N’ayons pas peur des mots, c’est une véritable révolution pour ceux qui ont besoin de traiter de grands volumes de données audio.
Voici l’architecture du modèle Distil-Whisper :
Actuellement, Distil-Whisper est disponible uniquement pour la reconnaissance vocale en anglais, mais avec l’évolution rapide de ce domaine, on peut s’attendre à ce que d’autres langues soient prises en charge bientôt.
Distil-Whisper est donc conçu pour remplacer Whisper en matière de reconnaissance vocale en anglais, avec cinq avantages clés : une inférence plus rapide, une meilleure robustesse au bruit, une réduction des hallucinations, une utilisation en décodage spéculatif et une licence permissive pour les applications commerciales. Ce bijou de technologie a été entraîné sur 22 000 heures de données audio pseudo-étiquetées dans 10 domaines différents et en provenance de plus de 18 000 intervenants.
L'évolution rapide des technologies d'intelligence artificielle continue d'offrir des interfaces plus intuitives. Récemment, OpenAI a introduit de nouvelles capacités pour ChatGPT, permettant non seulement la reconnaissance vocale, mais aussi l'analyse d'images.ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms). https://t.co/uNZjgbR5Bm pi
L'évolution rapide des technologies d'intelligence artificielle continue d'offrir des interfaces plus intuitives. Récemment, OpenAI a introduit de nouvelles capacités pour ChatGPT, permettant non seulement la reconnaissance vocale, mais aussi l'analyse d'images.
ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms). https://t.co/uNZjgbR5Bmpic.twitter.com/paG0hMshXb
Désormais, les utilisateurs peuvent s'engager dans une conversation bidirectionnelle avec ChatGPT simplement en parlant. Cette mise à jour s'accompagne d'une option pour choisir parmi cinq voix différentes, rendant l'expérience plus personnalisable.
Ces capacités vocales sont rendues possibles grâce à un nouveau modèle de synthèse vocale qui peut générer de l'audio presque humain à partir d'un simple texte et de quelques secondes d'échantillon vocal. Cette avancée a été rendue possible grâce à une collaboration avec des acteurs de voix professionnels et l'utilisation de Whisper, le système de reconnaissance vocale open-source d'OpenAI.
Reconnaissance et analyse d'images
En plus des capacités vocales, ChatGPT peut maintenant reconnaître et interpréter des images. Que ce soit pour diagnostiquer pourquoi un appareil ne démarre pas, planifier un repas en fonction du contenu du réfrigérateur, ou analyser un graphique complexe, cette mise à jour ouvre de nouvelles possibilités.
Pour parvenir à cette capacité, OpenAI utilise des modèles multimodaux basés sur GPT-3.5 et GPT-4. Ces modèles combinent des compétences linguistiques avec la capacité d'analyser une large gamme d'images.
Déploiement progressif pour garantir la sécurité
OpenAI adopte une approche graduelle pour le déploiement de ces nouvelles fonctionnalités, priorisant la sécurité et la réduction des risques potentiels. Bien que ces capacités ouvrent de nouvelles avenues pour les applications créatives et axées sur l'accessibilité, elles présentent également des défis. Les risques potentiels incluent l'utilisation malveillante de voix synthétiques pour l'usurpation d'identité ou la fraude.
De même, les modèles basés sur la vision nécessitent une attention particulière pour éviter des erreurs d'interprétation ou la violation de la vie privée.
Vers un accès élargi
OpenAI prévoit de proposer ces nouvelles capacités à ses utilisateurs Plus et Entreprise dans les semaines à venir, avec l'intention d'étendre l'accès à d'autres groupes d'utilisateurs prochainement.
En conclusion, avec ces nouvelles mises à jour, ChatGPT établit une nouvelle norme pour les interfaces utilisateur, tout en mettant l'accent sur la sécurité et la responsabilité.