Vue normale

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.
À partir d’avant-hierFlux principal
  • ✇ActuIA
  • GenAI : Europrop International opte pour la solution Paradigm de LightOn
    LightOn, acteur européen majeur dans le domaine de l’IA générative, et Europrop International GmbH (EPI), consortium regroupant quatre leaders européens des moteurs d’avions (MTU Aero Engines, Safran Aircraft Engines, Rolls-Royce, et Industria de Turbo Propulsores), annoncent un partenariat stratégique pour déployer la plateforme d’IA générative Paradigm auprès de toutes les équipes d’EPI. Fondée en 2016 par Igor Carron, Laurent Daudet, Florent Krzakala et Sylvain Gigan, la start-up parisienne L

GenAI : Europrop International opte pour la solution Paradigm de LightOn

10 janvier 2025 à 11:00

LightOn, acteur européen majeur dans le domaine de l’IA générative, et Europrop International GmbH (EPI), consortium regroupant quatre leaders européens des moteurs d’avions (MTU Aero Engines, Safran Aircraft Engines, Rolls-Royce, et Industria de Turbo Propulsores), annoncent un partenariat stratégique pour déployer la plateforme d’IA générative Paradigm auprès de toutes les équipes d’EPI.

Fondée en 2016 par Igor Carron, Laurent Daudet, Florent Krzakala et Sylvain Gigan, la start-up parisienne LightOn, plutôt que de se concentrer sur des applications grand public, cible le secteur professionnel. Première société européenne de la GenAI à être cotée sur Euronext Growth, ses deux produits phares sont Forge lancé en 2022 et Paradigm, lancé l’année suivante, une plateforme d’IA générative à destination des entreprises européennes, qui peut être directement intégrée dans les infrastructures existantes,(on premise, Air Gapped), garantissant ainsi la sécurité des données des organisations utilisatrices.

Paradigm : la technologie au service des données stratégiques

Cette solution, qui repose sur la RAG (Retrieval Augmented Generation), est régulièrement mise à jour avec de nouveaux LLMs, à l’instar de ModernBERT, fruit d’une collaboration avec le laboratoire de R&D Answer.AI. Adoptée par des acteurs de divers secteurs, notamment le SEO, la défense, la santé et l’aéronautique, pour interroger des bases de données complexes et volumineuses, générant des réponses précises et contextuelles, elle vient d’être choisie par Europrop International.

Créé en 2002, issu d’un programme de collaboration entre les quatre motoristes européens ITP Aero, MTU Aero Engines, Rolls-Royce et Safran Aircraft Engines, EPI est responsable de la conception, du développement et de la fabrication du moteur TP400-D6. Ce turbopropulseur, le plus puissant au monde, est destiné à l’Airbus A400M de transport militaire construit par Airbus Defence and Space. Les 2 500 personnes chargées à travers l’Europe de gérer le programme TP400-D6 pourront bénéficier de la technologie avancée de LightOn pour optimiser la gestion des connaissances tout en répondant aux enjeux de confidentialité propres à cette industrie.

GenAI : Europrop International opte pour la solution Paradigm de LightOn
  • ✇Intelligence artificielle
  • Dot – L’app IA locale pour interagir avec vos documents (RAG)
    Vous rêvez d’exploiter la puissance des grands modèles de langage pour interagir avec vos documents, mais vous ne voulez pas que vos données quittent votre ordinateur ? Et bien j’ai ce qu’il vous faut ! Admettons que vous avez une tonne de documents sur votre disque dur, des PDFs, des fichiers Word, des présentations PowerPoint, des feuilles de calcul Excel et même des fichiers Markdown… Vous aimeriez pouvoir obtenir des réponses à vos questions à partir de leur contenu, avoir des résumés,

Dot – L’app IA locale pour interagir avec vos documents (RAG)

Par : Korben
11 septembre 2024 à 09:00

Vous rêvez d’exploiter la puissance des grands modèles de langage pour interagir avec vos documents, mais vous ne voulez pas que vos données quittent votre ordinateur ? Et bien j’ai ce qu’il vous faut !

Admettons que vous avez une tonne de documents sur votre disque dur, des PDFs, des fichiers Word, des présentations PowerPoint, des feuilles de calcul Excel et même des fichiers Markdown… Vous aimeriez pouvoir obtenir des réponses à vos questions à partir de leur contenu, avoir des résumés, générer de nouvelles idées à partir de ces informations… Bref, avoir un genre d’assistant intelligent qui pourrait comprendre et manipuler toutes ces données. Et bien c’est exactement ce que propose Dot !

Au cœur de son fonctionnement, on trouve un modèle de langage pré-entraîné, en l’occurrence une version de Mistral 7B au moment où j’écris ces lignes, qui tourne en local et permet de faire ce qu’on appelle du « Retrieval Augmented Generation » ou RAG.

En gros, ça veut dire que l’IA ne se contente pas de générer du texte à partir de ce qu’elle a appris, mais qu’elle va aussi chercher des informations pertinentes dans une base de connaissances locale. Vous sélectionnez un dossier contenant les documents que vous voulez indexer, Dot va les analyser, les découper en morceaux, calculer des embeddings et construire un index permettant de retrouver rapidement les passages les plus pertinents pour une requête donnée.

Et ensuite, vous pouvez discuter avec Dot comme vous le feriez avec un assistant IA classique. Vous lui posez une question, et il utiliser ses connaissances générales pour formuler une réponse, mais aussi aller piocher dans votre base documentaire pour l’enrichir avec des informations spécifiques. Du coup, ça booste d’un cran la pertinence et la qualité des réponses obtenues !

Bien sûr, comme Dot tourne exclusivement en local, vous n’avez pas à vous inquiéter pour la confidentialité de vos données puisque rien ne quitte jamais votre machine. C’est un gros avantage par rapport aux solutions cloud qui vont envoyer vos documents sur des serveurs distants. Et si vous avez besoin d’un coup de main pour des tâches qui ne nécessitent pas forcément d’accéder à vos documents, Dot intègre un mode « Big Dot ». Vous basculez dessus en un clic, et vous vous retrouvez avec un assistant IA généraliste, capable de tenir des conversations sur n’importe quel sujet, d’aider à la rédaction, de faire du brainstorming, etc. C’est comme avoir un ChatGPT en local sous la main à tout moment.

Si ça vous dit de tester, c’est gratuit, open source, dispo sous macOS, Windows, Linux et disponible ici : https://dotapp.uk/

  • ✇ActuIA
  • CRAG : une méthode pour améliorer la génération de texte basée sur la récupération de connaissances
    La génération de texte basée sur la récupération de connaissances (RAG) permet aux LLM de produire des textes informatifs et cohérents à partir de sources externes. Cependant, la qualité des textes générés dépend fortement de la pertinence des documents récupérés. Pour pallier à ce problème, des chercheurs proposent une méthode nommée “Corrective Retrieval Augmented Generation” (CRAG), qui améliore considérablement les performances des approches basées sur la RAG, donc la précision et la fiabili

CRAG : une méthode pour améliorer la génération de texte basée sur la récupération de connaissances

20 février 2024 à 13:00

La génération de texte basée sur la récupération de connaissances (RAG) permet aux LLM de produire des textes informatifs et cohérents à partir de sources externes. Cependant, la qualité des textes générés dépend fortement de la pertinence des documents récupérés. Pour pallier à ce problème, des chercheurs proposent une méthode nommée “Corrective Retrieval Augmented Generation” (CRAG), qui améliore considérablement les performances des approches basées sur la RAG, donc la précision et la fiabilité des LLM.

Les avancées récentes dans le domaine des modèles de langage ont permis des progrès significatifs dans la génération automatique de texte. Cependant, ces modèles ne sont pas exempts de défis, notamment en ce qui concerne l’exactitude des informations générées. Lorsque les modèles se basent uniquement sur leurs connaissances internes, acquises au cours de l’entraînement, ils peuvent générer des résultats inexacts ou incohérents.

La Génération Augmentée par Récupération (RAG) a été introduite en 2020 pour améliorer la pertinence des informations produites par les LLM. Elle permet au modèle d’utiliser des sources de données externes pour générer des réponses plus précises et à jour, réduisant ainsi le phénomène d’hallucinations.

Pour l’équipe, composée de chercheurs de l’Université de Science et Technologie de Chine, de l’Université de Californie et de Google Research, “Bien que la génération augmentée de récupération (RAG) soit un complément pratique aux LLM, elle repose fortement sur la pertinence des documents récupérés, ce qui soulève des inquiétudes quant à la façon dont le modèle se comporte si la récupération tourne mal”.

Ils proposent donc la CRAG, ou génération de récupération corrective augmentée, pour améliorer la robustesse de la génération basée sur la RAG en affinant les documents pertinents récupérés et en corrigeant ceux qui sont inexacts avec la recherche sur le Web.

La CRAG combine la RAG avec un mécanisme de correction automatique. Tout d’abord, un évaluateur de récupération léger est utilisé pour estimer la pertinence des documents récupérés par rapport à la requête d’entrée, et déclencher différentes actions de récupération de connaissances selon le degré de confiance : Correct, Ambigu, Incorrect.

Si les réponses sont ambigües ou incorrectes, des recherches sur le web à grande échelle permettent d’enrichir ou corriger les résultats de la RAG.

Les chercheurs ont également conçu un algorithme de décomposition-recomposition pour affiner les informations pertinentes dans les documents récupérés. La méthode est plug-and-play et peut être couplée avec diverses approches basées sur RAG.

Evaluations de la méthode

CRAG a été testé sur quatre jeux de données couvrant diverses tâches de génération :

  • PopQA : un ensemble de données utilisé pour évaluer les modèles de génération de texte sur des tâches de réponse à des questions de format court. Il comprend une collection de questions variées auxquelles les modèles doivent répondre en utilisant des connaissances factuelles ;
  • Bio (Biography) : Le jeu de données Bio est destiné à évaluer les modèles de génération de texte sur des tâches de génération de biographies détaillées. Il contient des informations sur différentes entités, et les modèles doivent générer des biographies précises et informatives sur ces entité ;
  • Pub : un jeu de données utilisé dans le domaine de la santé pour évaluer les modèles de génération de texte sur des tâches de vérification de faits et de réponse à des questions vrai ou faux. Il contient des affirmations sur des sujets liés à la santé, et les modèles doivent déterminer si ces affirmations sont vraies ou fausses ;
  • ARC (Arc-Challenge) : ARC est un ensemble de données composé de questions à choix multiples sur des phénomènes scientifiques de bon sens quotidiens. Les modèles doivent sélectionner la réponse correcte parmi plusieurs choix pour chaque question, en se basant sur leur compréhension du contexte scientifique.

Les expériences couplant CRAG avec RAG standard et Self-RAG démontrent largement sa capacité d’adaptation aux approches basées sur RAG, et celles menées sur les quatre ensembles de données démontrent son applicabilité à travers des tâches de génération de forme courte et longue.

CRAG représente une avancée significative dans le domaine de la génération de texte, permettant d’améliorer la robustesse des modèles de langage et de produire des textes plus précis et plus pertinents. Son adaptabilité à différentes tâches de génération de texte en fait une solution prometteuse pour de nombreuses applications du traitement du langage naturel dans divers domaines.

Références de l’article :

“Corrective Retrieval Augmented Generation”  arXiv :2401.15884v1

AuteursShi-Qi Yan1, Jia-Chen Gu2, Yun Zhu3, Zhen-Hua Ling1
1 : National Engineering Research Center of Speech and Language Information Processing,
University of Science and Technology of China, Hefei, China
2 : Department of Computer Science, University of California, Los Angeles
3 : Google Research

CRAG-methode-ameliorer-generation-texte-recuperation-de-connaissances
❌
❌