LLocalSearch – Le moteur de recherche local basé sur des agents IA

Par : Korben

25 août 2024 à 09:00

LLocalSearch est un moteur de recherche qui fonctionne entièrement en local sur votre machine, qui utilise des agents IA pour effectuer des recherches directement sur votre ordinateur.

Le concept est simple mais diablement efficace. Lorsque vous lui posez une question, le système va enchaîner plusieurs modèles de langage pour trouver la réponse la plus pertinente. Tout le processus est transparent, vous pouvez suivre en temps réel la progression des agents et voir comment ils arrivent à la réponse finale, tout ça sans qu’aucune donnée ne soit envoyée sur des serveurs distants.

Mais il ne se contente pas d’être un simple moteur de recherche en local. Il propose également des fonctionnalités avancées comme la possibilité de poser des questions de suivi pour affiner votre requête initiale. Vous pouvez ainsi avoir un véritable dialogue avec le système pour obtenir exactement l’information dont vous avez besoin.

Un autre atout de LLocalSearch est sa capacité à fonctionner sur du matériel abordable. Pas besoin d’une machine de guerre avec des dizaines de gigaoctets de RAM et une carte graphique dernier cri. Le système est optimisé pour tourner sur des configurations modestes, comme le montre la vidéo de démo qui utilise un modèle de seulement 7 milliards de paramètres.

Côté interface, LLocalSearch mise sur la simplicité et l’efficacité. Que vous utilisiez le système sur ordinateur ou sur mobile, vous bénéficiez d’une interface épurée avec un champ de recherche central et un affichage clair des résultats, le tout avec un joli design soigné qui propose un mode clair et un mode sombre pour s’adapter à vos préférences.

De plus, il est très simple à déployer grâce à Docker. Quelques lignes de commande suffisent pour lancer le système et commencer à l’utiliser.

git clone https://github.com/nilsherzig/LLocalSearch.git
cd ./LLocalSearch
# 🔴 vérifier les variables d'environnement dans le fichier compose (et le fichier `env-example`) et les changer si nécessaire
docker-compose up

Bien sûr, comme tout projet en phase de démarrage, LLocalSearch n’est pas exempt de bugs et de limitations. Toutes les fonctionnalités prévues ne sont pas encore implémentées et il faudra sans doute un peu de temps avant d’arriver à un système aussi complet et robuste que les moteurs de recherche en ligne que nous connaissons. Mais le potentiel est là et il ne fait aucun doute que ça va rapidement progresser grâce à une communauté open source motivée et passionnée.

En attendant, n’hésitez pas à tester cet outil et à vous faire votre propre idée.

Jan – Le « ChatGPT » local et open source à installer sur votre machine

Intelligence artificielle

Par : Korben

23 mars 2024 à 09:00

Afin de rendre l’IA accessible à tous, y compris gratuitement puisque la plupart des modèles fonctionnent sur un système open source, une équipe de développeurs talentueux a créé Jan un outil pour les développeurs et les utilisateurs souhaitant profite d’une alternative à ChatGPT, totalement indépendante, fonctionnant hors ligne, open source et libre.

Il faut donc voir Jan comme un client de chat qui permet de télécharger des modèles comme Trinity, Mistral, Llama, OpenChat…etc. et de les faire tourner 100% hors ligne. Comme ça, pas de fuite de conversations privées ni de réutilisation de vos données pour entrainer de nouvelles IA. Et si comme moi, vous êtes accro à l’IA d’OpenAI, vous pourrez toujours y ajouter votre clé API et discuter avec ChatGPT (au tarif fixé par OpenAI évidemment).

Jan fonctionne sous Linux (Appimage et .deb dispo), sous Windows et macOS (Intel / Silicon) et propose une prise en charge des modèles open source tels que GGUF via llama.cpp, TensorRT via TensorRT-LLM ou des API externes. Jan utilise également le moteur d’inférence Nitro, des mêmes développeurs, qui se veut être rapide et léger.

Je teste ici le modèle Trinity 1.2 7B Q4 :

Et ici un modèle spécialisé en code Python nommé Wizard Coder Python 13B Q5.

Un truc cool avec Jan c’est que toutes les conversations sont conservées sur votre disque au format JSON, donc si le coeur vous en dit, vous pourrez ensuite les exploiter comme bon vous semble dans vos outils.

Jan propose également un serveur REST qui permet d’interroger via une API compatible OpenAI n’importe quel modèle que vous y feriez tourner. Ça permet de brancher vos outils ou vos scripts directement sur le LLM ouvert de votre choix.

Dans la lignée de Ollama ou LM Studio, Jan rempli ses promesses et vous permettra de vous éclater avec l’IA (abus de langage, je sais…) sans mettre en péril vos données personnelles.

Pour en savoir plus, rendez-vous sur le site de Jan ou sur leur page Github pour les sources et la doc.

Merci à Lorenper

Lumos – Le copilote IA de vos séances de surf

Intelligence artificielle

Par : Korben

2 mars 2024 à 09:00

Allez, aujourd’hui, on va faire un peu d’IA. J’sais pas si vous vous souvenez, mais il y a quelque temps, je vous avais fait une jolie démo de Ollama permettant de faire tourner des LLM (modèles de langage comme ChatGPT) en local avec des modèles ouvert comme Mistral ou Vigogne.

Sauf que voilà, c’est pas forcément pratique à utiliser ailleurs que dans vos propres scripts. Mais c’était sans compter sur Lumos, une extension Chrome propulsée par Ollama qui permet d’avoir sous la main, votre LLM durant vos séances de surf. Ainsi, vous pourrez lui demander des résumés de longs posts de forums, de vous expliquer le dernier rapport de bug d’un projet Github, de résumer les articles trop longs à lire de korben.info ^^ ou encore lui poser des questions par rapport à de la documentation technique ou des fiches produits que vous consulteriez en ligne.

Bref, c’est génial ! Vous devrez bien évidemment avoir un Ollama fonctionnel sur votre machine… Voici d’ailleurs ma vidéo à ce sujet :

Installez ensuite l’extension sous Chrome.

Puis lancez le serveur à l’aide de cette commande :

OLLAMA_ORIGINS=chrome-extension://* ollama serve

Ou comme ceci si vous utilisez Docker:

docker run -e OLLAMA_ORIGINS="chrome-extension://*" -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

Et vous pourrez ensuite profiter de la puissance du LLM de votre choix directement dans votre navigateur au travers d’une fenêtre de chat.

Si vous voulez plus d’infos, c’est par ici que ça se passe.

Outil IA : Forge, API, services temps procésseurs, serveur less, IA en local

Filou fait le GeekNik : Sécurité / libre / p2P / réseaux / bidouilles / no net / etc

16 février 2024 à 22:30

# Replicate : plateforme de modèles IA
https://www.premieroctet.com/blog/premiers-pas-avec-replicate (exemple caméra)
https://youtu.be/OjdIgxvZVYw?si=5Fcx7acZQKvvZw_c&t=561 (exemple création vidéo + explications seveurless + nocode)
https://replicate.com/explore

# Hugging Face : Centrale dans l’IA open source, car elle propose un service similaire à GitHub
- partage du codes, des données plus les modèles déjà entraînés.
https://www.leparisien.fr/high-tech/intelligence-artificielle-cest-quoi-hugging-face-la-pepite-francaise-valorisee-a-45-milliards-deuros-25-08-2023-QSZZY7WJ2RHRBDRUQJNEQDXW2M.php
https://www.youtube.com/watch?v=uD-9aHFII8A (exemple avec Stable diffusion + colab)
https://huggingface.co/

# Google Colab
https://www.youtube.com/watch?v=TpwNlP1nLag (code en python)
https://colab.research.google.com/notebooks/intro.ipynb
https://colab.research.google.com/

## En local

- LM Studio LM Studio fonctionne sous macOS, Windows et Linux, permet de télécharger des LLMs (Large Language Models) et de les faire tourner en local. https://korben.info/lm-studio-local-llms-integration-code-usage.html

- Ollama permet de charger des modèles LLM et de les faire fonctionner en fond de tâche sur son ordinateur.
https://klu.ai/glossary/ollama-fr
https://www.geeek.org/tutoriel-installation-llama-2-et-code-llama/
https://ollama.com/
https://github.com/ollama/ollama?tab=readme-ov-file&ref=geeek.org#community-integrations

- onprem est conçu pour les développeurs Python pour faire tourner des models LLM : https://www.bortzmeyer.org/onprem-debut.html

- GPT4All modèle d’intelligence avec mention ggml, alors compatible https://zonetuto.fr/intelligence-artificielle/ajouter-un-modele-au-format-ggml-dans-gpt4all-sur-linux-ubuntu/
http://actu.azqs.com/geeknik/p/i/?search=+GPT4All

- Stable Diffusion WebUI (SDXL Stable Cascade) https://zonetuto.fr/intelligence-artificielle/installer-stable-diffusion-webui-en-local-sur-ubuntu-debian/

- Jam IA https://www.youtube.com/watch?v=iVYP2lyreAA
https://jan.ai/ : opensource

- Pinoccio / Pinokio : l'Installation d'Outils d'Intelligence Artificielle
https://proguideah.com/lordinateur-virtuel-pinokio-ai-vous-permet-dinstaller-dexecuter-et-dautomatiser-nimporte-quelle-application-dia-en-un-seul-clic-28524/
https://www.youtube.com/watch?v=EChic1SH2IY
https://pinokio.computer/
https://github.com/pinokiocomputer/pinokio

- developpement de plugin en local via plusieurs ia
https://floneum.com/
https://www.aixploria.com/floneum-ai-workflows/
https://fr.wikipedia.org/wiki/WebAssembly

- Edge computiing (local et frugal)
http://liens.azqs.com/GeekNik/?searchtags=ia+edge-computing
http://actu.azqs.com/geeknik/p/i/?a=normal&get=t_17
http://liens.azqs.com/GeekNik/?searchtags=ia+programmation
(Permalink)

LM Studio – Pour faire tourner des LLMs en local et les utiliser directement dans votre code

Intelligence artificielle

Par : Korben

22 novembre 2023 à 10:21

Avec tout ce qui se passe côté OpenAI en ce moment, je suis en train de chercher des alternatives libres pour re-brancher sur mes scripts existants qui ne demandent pas trop de réécriture. C’est simplement un principe de précaution pour ne pas être pris au dépourvu si la qualité de service baisse côté ChatGPT.

Et pour ça, j’ai besoin d’un modèle de langage et d’un outil qui permette de transformer ce modèle en API que je peux appeler dans mon code.

Pour l’instant, tout ceci est en phase de R&D mais je me suis dit qu’un petit retour, ça vous ferait plaisir. Je suis donc parti sur un modèle OpenChat censé être aussi performant qu’un ChatGPT 3.5. Jusque là rien de compliqué.

J’ai donc fait tourner ce modèle dans llamacpp sans souci en mode discussion. Puis je suis parti en quête d’un bridge pour avoir des API. Je suis donc tombé sur Llama-cpp-python avec son option Server qui malheureusement n’a jamais voulu correctement fonctionner chez moi pour de sombres incompatibilités x64 / ARM64 même dans pyenv. Bref…

N’ayant pas le temps d’y passer des semaines, on m’a ensuite gentiment rappelé durant mon live Twitch, que je pouvais faire ça avec Ollama, ce que j’avais complètement zappé alors que j’ai fait une vidéo pour les Patreons à ce sujet (arf).

Puis Thoxy et LePopeye, lecteurs de Korben.info, m’ont recommandé un outil baptisé LM Studio dont je vais vous parler dans cet article.

LM Studio est un outil fonctionnant sous macOS, Windows et Linux qui permet très simplement de télécharger des LLMs (Large Language Models) et de les faire tourner en local. Ainsi vous pouvez discuter avec ces modèles via un chat comme vous le feriez avec ChatGPT.

Mais ce n’est pas tout puisque l’outil offre des tas de possibilités de réglages (y compris du support pour les Mac Silicon) pour optimiser le modèle. Et bien sûr, la fonctionnalité qui m’a le plus intéressé, c’est la possibilité de faire tourner un serveur local qui sert une API identique à celle de ChatGPT.

Cela permet, sans énormément de modifs dans votre code, de basculer des services d’OpenAI à une IA locale de manière transparente ou presque pour peut que vous utilisiez la lib OpenAI 0.28.1

pip install openai==0.28.1

Voici un code d’exemple qui montre comment l’appeler en Python :

import os
import openai

openai.api_base = "http://localhost:1234/v1" 
openai.api_key = "" 

completion = openai.ChatCompletion.create(
  model="local-model",
  messages=[
    {"role": "system", "content": "Always answer in rhymes."},
    {"role": "user", "content": "Introduce yourself."}
  ]
)

print(completion.choices[0].message)

Pas besoin de clé API donc. Et pas besoin de casser tout votre code. Suffit de migrer vers LM Studio. Puis c’est gratuit 🙂

Bref, j’ai fait mes tests comme ça et malheureusement pour le moment, c’est pas super concluant. L’outil répond correctement en version « chat » mais son paramétrage un peu différent en version serveur. Donc faut encore que je gratte un peu pour trouver le dressage optimale de mon IA. Mais j’y suis presque.

Si ça vous branche de tester LM Studio, c’est par ici que ça se passe.