Vue normale

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.
À partir d’avant-hierFlux principal

OpenAI annonce une fuite de données, voici ce qui s’est réellement passé

Dans un communiqué publié le 26 novembre 2025, la société américaine OpenAI, qui développe notamment ChatGPT, annonce qu’un certain nombre de données d’utilisateurs de son API ont fuité.L’entreprise précise que l’incident provient de l’un de ses fournisseurs d’analyse de données.

  • ✇ActuIA
  • OpenAI Devday 2024 : Vision Fine-tuning, Model Distillation, Prompt Caching et Realtime API au cœur des annonces
    Lors de sa 1ère conférence des développeurs, il y a un peu moins d’un an, les annonces principales d’OpenAI étaient consacrées à GPT-4 turbo, GPT Builder et au GPT Store. Cette année, toujours pas de GPT-5, mais il n’était pas réellement attendu après la présentation d‘OpenAI o1, il y a 3 semaines. Le Devday 2024 a été un événement plus technique, entièrement dédié aux développeurs et à l’exploitation des modèles existants de la start-up, avec de nouveaux ajouts à la plateforme API. Parmi la sér

OpenAI Devday 2024 : Vision Fine-tuning, Model Distillation, Prompt Caching et Realtime API au cœur des annonces

4 octobre 2024 à 10:50

Lors de sa 1ère conférence des développeurs, il y a un peu moins d’un an, les annonces principales d’OpenAI étaient consacrées à GPT-4 turbo, GPT Builder et au GPT Store. Cette année, toujours pas de GPT-5, mais il n’était pas réellement attendu après la présentation d‘OpenAI o1, il y a 3 semaines. Le Devday 2024 a été un événement plus technique, entièrement dédié aux développeurs et à l’exploitation des modèles existants de la start-up, avec de nouveaux ajouts à la plateforme API.

Parmi la série d’outils et fonctionnalités destinés à améliorer l’utilisation et la personnalisation des solutions d’IA d’OpenAI au sein des applications professionnelles, présentés, on retrouve : Realtime API, Vision fine-tuning pour GPT-4o, Model distillation et Prompt caching.

Realtime : Une API conçue pour des expériences vocales instantanées

Realtime a été déployée ce 1er octobre en version bêta publique pour tous les développeurs payants. Ses capacités audio sont alimentées par le nouveau modèle GPT-4o. Elle permet aux développeurs de créer des applications multimodales en temps réel, avec les six voix prédéfinies prises en charge par l’API, distinctes de celles de ChatGPT.

Voici quelques avantages notables de l’API qui prend actuellement en charge le texte et l’audio en entrée et en sortie, (la vision et la vidéo sont déjà prévues), mais également l’appel de fonctions :

  • Parole à parole native : L’absence d’intermédiaire de texte signifie une faible latence et une sortie nuancée ;
  • Voix naturelles et orientables : Les modèles ont une inflexion naturelle et peuvent rire, chuchoter et adhérer à la direction du ton ;
  • Sortie multimodale simultanée : Le texte est utile pour la modération, l’audio plus rapide que le temps réel assure une lecture stable.

OpenAI va également introduire l’audio dans l’API de complétion de chat pour “les cas d’utilisation qui ne nécessitent pas les avantages de faible latence de l’API en temps réel”.
La start-up prévoit également d’augmenter progressivement les limites de débit actuelles (environ 100 sessions simultanées pour les développeurs de niveau 5). L’API Realtime sera intégrée dans les SDK OpenAI pour Python et Node.js et prendra en charge GPT-4o mini dans les futures versions.

Vision Fine-tuning

Cette nouvelle API permet aux développeurs de personnaliser des modèles basés sur GPT-4o en affinant leur compréhension des images. Des applications dans des domaines tels que la détection d’objets pour les véhicules autonomes ou l’analyse d’images médicales sont désormais possibles. OpenAI a cependant précisé que l’utilisation d’images protégées par des droits d’auteur reste interdite.

La start-up a présenté quelques cas d’utilisation pratiques :

  • Amélioration de la cartographie routière : Grab, une entreprise de covoiturage et de livraison alimentaire en Asie du Sud-Est, a utilisé la nouvelle fonctionnalité de vision pour améliorer sa cartographie urbaine. En ajustant GPT-4o avec seulement 100 images, l’entreprise a amélioré de 20 % la précision du comptage des voies et de 13 % la localisation des panneaux de signalisation par rapport à un modèle de base. Cela permet à Grab d’automatiser davantage la création de cartes routières, un processus auparavant manuel ;
  • Automatisation des processus d’affaires : Automat, spécialisé dans l’automatisation des processus métier, a formé GPT-4o pour reconnaître des éléments d’interface utilisateur via des captures d’écran, augmentant le taux de réussite de son système de 272 %. Ce réglage fin a également permis à Automat d’améliorer la précision d’extraction de données à partir de documents non structurés ;
  • Optimisation des sites web : Coframe, une plateforme d’ingénierie de croissance numérique, a affiné GPT-4o pour générer du code à partir d’images existantes d’un site web. Ce réglage fin a permis à GPT-4o de produire des sites web avec une cohérence visuelle accrue de 26 % par rapport au modèle de base.

Vision Fine-Tuning est d’ores et déjà disponible, OpenAI offre gratuitement 1 million de jetons d’entraînement par jour jusqu’au 31 octobre 2024 pour affiner GPT-4o avec des images.

Prompt Caching

La mise en cache des invites, déjà en place chez des concurrents comme Anthropic, permet d’améliorer la latence des réponses et de réduire les coûts d’utilisation des API, en réutilisant les jetons d’entrée récemment utilisés, et ce, sans compromettre la performance.

OpenAI explique : “De nombreux développeurs utilisent le même contexte à plusieurs reprises dans le cadre de plusieurs appels d’API lorsqu’ils créent des applications d’IA, par exemple lorsqu’ils apportent des modifications à une base de code ou qu’ils ont de longues conversations à plusieurs tours avec un chatbot”.

Les appels d’API aux modèles GPT-4o, GPT-4o mini, o1-preview et o1-mini, ainsi qu’aux versions affinées de ces modèles, bénéficieront automatiquement de la mise en cache des invites de plus de 1 024 jetons.

Le système met en cache le préfixe le plus long déjà traité, en commençant à 1 024 jetons et augmente par incréments de 128 jetons. Les développeurs n’ont donc pas besoin de modifier leur intégration API pour bénéficier de cette fonctionnalité. Les caches sont généralement effacés après 5 à 10 minutes d’inactivité et supprimés au plus tard dans l’heure qui suit la dernière utilisation du cache.

Model Distillation

La distillation de modèle consiste à entraîner un modèle plus petit et plus économique en utilisant les résultats d’un modèle plus performant. Cela permet aux développeurs d’obtenir des performances proches de celles du modèle initial (comme GPT-4o) sur des tâches spécifiques, tout en réduisant considérablement les coûts et la latence, en particulier avec des modèles comme GPT-4o mini. OpenAI annonce plusieurs nouveautés pour sa plateforme de distillation de modèles, notamment : Stored completions, Evals et Fine-tuning

  • Achèvements stockés : Capture automatique des paires entrée-sortie générées par des modèles comme GPT-4o, stockées via l’API pour créer des ensembles de données en vue du réglage fin. Cela facilite la création d’ensembles de données issus de la production pour améliorer et évaluer les modèles ;
  • Évaluations (bêta) : Permet de créer et d’exécuter des évaluations sur la plateforme OpenAI pour mesurer la performance des modèles sur des tâches spécifiques. Cela offre un moyen intégré d’évaluer la qualité des modèles sans avoir à créer des scripts manuellement ;
  • Réglage fin : L’intégration complète avec les achèvements stockés et les évaluations permet d’affiner les modèles plus petits avec des ensembles de données réels, tout en mesurant les performances de manière continue.

Model Distillation est disponible pour tous les développeurs sur la plateforme OpenAI. Jusqu’au 31 octobre, OpenAI offre 2 millions de jetons gratuits par jour pour entraîner GPT-4o mini et 1 million de jetons gratuits pour GPT-4o.

En marge du DevDay, OpenAI a également annoncé l’introduction de son nouveau modèle de modération multimodale, omni-modération-latest, qui est intégré dans l’API de modération. Ce modèle, construit sur GPT-4o, améliore considérablement la détection de contenus préjudiciables, notamment dans les langues non-anglophones, avec deux nouvelles catégories de détection.

OpenAI Devday 2024 : Vision Fine-tuning, Model Distillation, Prompt Caching et Realtime API au cœur des annonces

ChatGPT va pouvoir puiser sans limites dans les publications Reddit

Reddit

OpenAI et Reddit ont signé un deal pour que le premier puisse accéder au contenu en temps réel de l'API de données du second. Cela offre à ChatGPT l'opportunité de puiser dans les discussions du site web communautaire.

Nouvelle avancée d’OpenAI avec GPT-4o, un modèle qui fusionne le traitement de l’audio, de la vision et du texte en temps réel

14 mai 2024 à 13:50

Alors que les spéculations allaient bon train sur l’arrivée prochaine de GPT-5, OpenAI crée une fois de plus la surprise en présentant ce 13 mai GPT-4o (“o” pour omni) qu’il présente comme son “nouveau modèle phare qui peut raisonner sur l’audio, la vision et le texte en temps réel”.

GPT-4o, qui fait de ChatGPT un assistant vocal, représente une avancée vers des interactions plus naturelles et fluides entre les humains et les machines. Avec une capacité de traitement des commandes audio en seulement 232 millisecondes et de 320 millisecondes en moyenne, il se rapproche de la vitesse de réaction humaine dans les échanges verbaux.

Il offre des performances comparables à celles de GPT-4 Turbo pour le traitement du texte en anglais et du code, mais des performances nettement améliorées pour les autres langues, le tout à une vitesse accrue. En termes de reconnaissance visuelle et de compréhension audio, GPT-4o dépasse, selon les tests réalisés par OpenAI, les modèles existants.

Les fonctionnalités de traitement de texte et d’image de GPT-4o intégrées dans ChatGPT sont accessibles aux utilisateurs de la version gratuite et, avec des limites de messages jusqu’à cinq fois plus élevées, à ceux de ChatGPT Plus. Les utilisateurs gratuits pourront par exemple lui demander de créer des graphiques, d’analyser les données ou des photos. Il  leur sera également possible de télécharger des fichiers et obtenir de l’aide pour les résumer, rédiger ou les analyser et  d’accéder aux GPT et au GPT Store.

OpenAI prévoit de déployer le mode vocal de GPT-4o en version alpha dans ChatGPT Plus dans les prochaines semaines.

Les développeurs peuvent désormais accéder à GPT-4o via l’API pour le traitement de texte et d’image. Comparé à GPT-4 Turbo, GPT-4o est deux fois plus rapide, deux fois moins cher et propose des limites de débit cinq fois plus élevées. La prise en charge des nouvelles capacités audio et vidéo de GPT-4o dans l’API sera déployée par la start-up à un petit groupe de partenaires de confiance dans les semaines à venir.

La start-up a présenté le nouveau modèle sur son blog et lors d’une vidéo en direct dont elle a partagé des extraits sur X.

Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN

Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx

— OpenAI (@OpenAI) May 13, 2024

Live demo of coding assistance and desktop app pic.twitter.com/GlSPDLJYsZ

— OpenAI (@OpenAI) May 13, 2024

gpt4o
  • ✇ActuIA
  • Microsoft lance DirectSR, une nouvelle API Windows pour améliorer la résolution des jeux vidéo grâce à l’IA
    Joshua Tucker, responsable programmation chez Microsoft, a annoncé DirectSR dans le blog des développeurs DirectX Microsoft. Cette nouvelle API Windows a été conçue en partenariat avec NVIDIA, AMD et INTEL pour permettre une intégration transparente de la Super Résolution (SR), une technique de pointe qui sert à augmenter la résolution et la qualité visuelle des jeux, dans la prochaine génération de jeux. DirectSR ouvre de nouvelles possibilités pour les jeux en offrant une qualité graphique sup

Microsoft lance DirectSR, une nouvelle API Windows pour améliorer la résolution des jeux vidéo grâce à l’IA

12 mars 2024 à 10:00

Joshua Tucker, responsable programmation chez Microsoft, a annoncé DirectSR dans le blog des développeurs DirectX Microsoft. Cette nouvelle API Windows a été conçue en partenariat avec NVIDIA, AMD et INTEL pour permettre une intégration transparente de la Super Résolution (SR), une technique de pointe qui sert à augmenter la résolution et la qualité visuelle des jeux, dans la prochaine génération de jeux.

DirectSR ouvre de nouvelles possibilités pour les jeux en offrant une qualité graphique supérieure sans compromettre les performances.

Selon Joshua Tucker, “DirectSR est le chaînon manquant que les développeurs attendaient lorsqu’ils abordent l’intégration SR, offrant une expérience plus fluide et plus efficace qui s’adapte à tous les matériels”.

DirectSR est un ensemble commun d’entrées et de sorties qui permet d’activer différentes solutions de SR, notamment DLSS (Deep Learning Super Sampling), une technologie développée par Nvidia qui utilise les réseaux neuronaux pour générer des pixels supplémentaires dans les scènes en ray tracing les plus intensives, FidelityFX Super Resolution d’AMD qui permet d’obtenir des effets visuels de haute qualité tout en minimisant l’impact sur les performances, et Xe SS, développé par Intel pour obtenir des performances accrues et une grande fidélité d’image grâce à une mise à l’échelle améliorée par l’IA.

Un aperçu public sera bientôt disponible via le SDK Agility, où les développeurs peuvent afficher de nouvelles fonctionnalités DirectX sans attendre une mise à jour du système d’exploitation. Grâce au SDK Agility, DirectSR sera disponible sur les plateformes Windows qui intéressent le plus les développeurs, notamment Windows 10 et Windows 11.

Les Work Graphs, des graphes prêts pour la production

Une autre innovation mise en avant par Joshua Tucker est l’API Work Graphs qui représente une autre avancée significative dans le domaine de la programmation GPU. Alimentés par le Shader Model 6.8, ces graphes permettent au GPU de gérer de manière autonome son propre travail, ouvrant ainsi la voie à des gains de performance et d’efficacité sans précédent. Cette fonctionnalité offre aux développeurs de nouveaux outils pour exploiter pleinement le potentiel de leur matériel GPU, en parallélisant les charges de travail de manière optimale.

Ces nouvelles fonctionnalités, ainsi qu’un aperçu de nouveaux outils pour PIX, qui permet l’optimisation des performances et le débogage pour Work Graphs et DirectSR, seront présentés par Microsoft lors de la Game Developers Conference qui se déroulera du 18 au 21 mars prochain à San Francisco, un évènement incontournable pour les leaders de l’industrie, les développeurs et les passionnés de jeux vidéo.

Microsoft lance DirectSR, une nouvelle API Windows pour améliorer la résolution des jeux vidéo

Keras est une API de Machine Learning

< https://www.actuia.com/keras/pourquoi-utiliser-keras/  (Api TensorFlow, CNTK et Theano )
https://fr.wikipedia.org/wiki/Keras
Au moins cinq moteurs back-end sont pris en charge : TensorFlow, CNTK, Theano, MXNet et PlaidML.
# Interface des outils de Deep Learning de bas niveau :
https://fr.wikipedia.org/wiki/TensorFlow (bibliothèque cadriciel) Google
https://fr.wikipedia.org/wiki/Theano_(logiciel)
https://en.wikipedia.org/wiki/Microsoft_Cognitive_Toolkit  : Microsoft Cognitive Toolkit : Cntk
https://en.wikipedia.org/wiki/Apache_MXNet :  MXNet Amazon

Voir aussi (pas inplémenté par Keras)
Apache Singa https://fr.wikipedia.org/wiki/Apache_SINGA
Caffe (vision)

# Torch
Torch https://en.wikipedia.org/wiki/Torch_(machine_learning) - Pytorch Installation https://www.youtube.com/watch?v=htWcyMnzpbA
FAST AI (librairie de Torch)
https://en.wikipedia.org/wiki/Fast.ai
https://www.fast.ai/
https://www.youtube.com/watch?v=q4K2-0Xz1Yo&list=PLFP-l2SPcexmeL_-u6ijcJ3OTFc2hALzr

# Librairie Scikit pour python
https://fr.wikipedia.org/wiki/Scikit-learn
https://www.youtube.com/playlist?list=PLFP-l2SPcexk3Tq8cJO81iJpQKS-8OxGY (Apprentissage automatique exemple et infos)
https://www.youtube.com/watch?v=-Drka4rnX8w&list=PLFP-l2SPcexk3Tq8cJO81iJpQKS-8OxGY (PlayListe Apprentissage Automatique avec SciKit Learn)

Probablement la base des solutions techniques d’écoute des réseaux sociaux commerciaux : DigiMind, AmiSoftware, Linkfluence, https://jigsaw.google.com

ONNX : Open Neural Network Exchange
https://en.wikipedia.org/wiki/Open_Neural_Network_Exchange

#IDE
RStudio : https://fr.wikipedia.org/wiki/RStudio
https://r.developpez.com/tutoriels/introduction-r-et-rstudio/

https://fr.wikipedia.org/wiki/Anaconda_(distribution_Python) + navigateur :  commande Conda >  pip > https://fr.wikipedia.org/wiki/Python_Package_Index
https://www.pythoniste.fr/anaconda/les-environnements-virtuels-en-python-avec-anaconda/
https://fr.wikipedia.org/wiki/Anaconda_(installateur)


#Autres

https://www.developpez.net/forums/f921/general-developpement/algorithme-mathematiques/intelligence-artificielle/
https://en.wikipedia.org/wiki/Comparison_of_deep-learning_software
https://fr.wikipedia.org/wiki/Intelligence_artificielle
"Gemini 1.5 pro en passe de changer le développement de logiciels ? Cette IA peut comprendre une base de code entière et proposer des correctifs" : http://actu.azqs.com/geeknik/p/i/?search=Gemini&a=normal
https://fr.wikipedia.org/wiki/Kaggle (Kaggle est une plateforme web interactive qui propose des compétitions d'apprentissage automatique en science des données.)

Voir aussi
https://liens.azqs.com/GeekNik/?searchtags=IA
(Permalink)
❌
❌