Aller au contenu principal
Moteur IA

VotreIAtournesurvotreinfrastructure.Vosdonnéesnelaquittentjamais.

9 fournisseurs, 20+ modèles, 3 niveaux de souveraineté. Le routeur choisit automatiquement le bon modèle selon la sensibilité de vos données. SkaLean configure et maintient l’infrastructure. Vous utilisez.

9fournisseurs LLM
20+modèles intégrés
3niveaux de souveraineté
0transit non autorisé
Routeur LLM : analyse en temps réel
Requête
Scan PII
Tier sélectionné
Modèle
Latence
Contrat
Dossier patient
Rapport finances
Architecture souveraine

Trois niveaux, un seul routeur

Le routeur LLM choisit automatiquement le bon niveau selon la sensibilité des données. Aucune action requise de l’utilisateur.

Compatible avec 20+ modèles IA — Claude, GPT, Gemini
Tier 1
API Cloud globales
Fournisseurs : OpenAI · Anthropic · Mistral · Google
Modèles : GPT-4o, Claude Opus 4, Gemini 2.5, Mistral Large
Données : transitent vers les serveurs du fournisseur
Performance : ~50 tokens/s · P50 0.8s
Données non-sensibles, usage général, meilleure qualité
Facturation exacte du fournisseur. Zéro commission.
Tier 2
Cloud souverain regional
Fournisseurs : Azure OpenAI · AWS Bedrock · Vertex AI
Modèles : GPT-4o, Claude Sonnet, Gemini 2.5, hébergés dans votre région
Données : restent dans votre pays. Zéro transfert transfrontalier.
Performance : ~50 tokens/s · même qualité que Tier 1
Données sensibles : conformité RGPD, HIPAA, lois locales
Mêmes prix que Tier 1 · vos données ne sortent pas de votre région
Tier 3
Infrastructure auto-hébergée
Infrastructure : Inférence CPU souveraine (inclus tous plans) + GPU haute performance (inclus mise en service)
Modèles : Modèles open-source auto-hébergés : Llama, Qwen, Mistral, modèles médicaux spécialisés
Données : sur votre infrastructure. Zéro transit, zéro cloud externe.
Performance : 35–120 tokens/s selon l’optimisation
PHI, secrets industriels, exigences zéro-cloud
Modèles CPU : 0 $ · modèles GPU : service inclus, tokens facturés à l’usage
Niveaux de souveraineté des données — hébergement local vs cloud
4 étapes automatiques

Le routeur choisit, vous n’avez rien à faire

Algorithme de routage en 4 étapes. Aucune configuration manuelle. Repli automatique si le modèle préféré est indisponible.

1
Vérification PII
15 types de données sensibles scannés. Si PII critique détecté → forcer Tier 3 souverain automatiquement.
2
Mode HIPAA
Si client en mode HIPAA → forcer Tier 3. Routage BAA-only obligatoire. Aucun modèle cloud non-certifié.
3
Préférence client
always (tout GPU) / auto (défaut, GPU si PII) / never (API cloud uniquement). Configurable par client et par workflow.
4
Dégradation intelligente
Si GPU chargé (P95 > 10s) → basculer Tier 2. Re-test 60s. Disjoncteur après 5 erreurs consécutives.
GPU haute performance → GPU standard → CPU souverain. Jamais vers US si souverain requis.
Fonctionnalités

Le moteur IA le plus complet

Conçu pour les équipes qui ont des exigences de conformité sans vouloir sacrifier la performance.

9 Fournisseurs, 20+ modèles
OpenAI, Anthropic, Mistral, Google + infrastructure souveraine auto-hébergée (CPU et GPU). Routage automatique avec repli. Zéro enfermement propriétaire.
Recherche documentaire intelligente
Vos documents sont ingérés, segmentés et indexés automatiquement. La recherche combine sémantique et mots-clés, puis classe les résultats par pertinence avant de générer la réponse avec citations.
GPU souverain haute performance
Infrastructure GPU sur votre territoire avec optimisation matérielle. 2 à 4 fois plus rapide que l’inférence standard. API compatible avec les standards du marché. Service inclus dans la mise en service · tokens facturés à l’usage.
Affinage sectoriel
Ajustement du modèle sur vos données métier. Un cabinet d’avocats affine le modèle sur ses dossiers. Données chiffrées, supprimées après entraînement.
Modèle médical souverain
Modèle médical spécialisé auto-hébergé. Surpasse les modèles généralistes sur les données de santé. Garde-fous médicaux non désactivables. Zéro diagnostic, zéro prescription.
Protection PII 15 types
15 types de données sensibles détectés et masqués. Routage automatique vers l’infrastructure souveraine si données médicales détectées. Re-substitution après réponse.
Pipeline RAG

6 étapes de votre document à la réponse

Cible : moins de 800ms P95. Chaque étape est indépendante, observable et auditable.

1
Ingestion
PDF, DOCX, URLs, Notion
2
Segmentation
Découpage intelligent en blocs cohérents
3
Vectorisation
Modèles d’embedding cloud ou souverains
4
Recherche
Recherche hybride (sémantique + mots-clés)
5
Reranking
Reclassement par pertinence, top 5
6
Génération
Réponse avec citations sources vérifiables
Performance GPU

GPU souverain : 2–4x plus rapide

Inférence souveraine optimisée sur GPU. Notre moteur accélère le débit pour multiplier les performances sans quitter votre infrastructure.

GPU standard35 t/s · P50 1.2s · 8 req max
35 t/s
GPU haute performance100 t/s · P50 0.6s · 18 req max
100 t/s
API GPT-4o (ref)50 t/s · P50 0.8s · 100+ req
50 t/s
ZERO Transit de données
80 GB VRAM GPU
99.5% SLA GPU Enterprise
Auto Repli automatique
Pourquoi SkaLean

Aucun concurrent ne combine les 3 tiers

OpenAI, Azure et Mistral proposent chacun une pièce du puzzle. SkaLean est le seul moteur IA qui les intègre tous, avec routage automatique, GPU souverain, RAG natif et zéro commission.

API seule
Cloud régional
Auto-hébergé
Tout-en-un
CritèreOpenAI / Anthropic APIAzure OpenAI · Bedrock · VertexOpen-source DIYSkaLean Moteur IA
Souveraineté des données Serveurs US Région au choix Sur votre infra 3 tiers automatiques
Nombre de fournisseurs / modèles 1 fournisseur 1-2 fournisseurs Modèles libres seulement 9 fournisseurs · 20+ modèles
Routage automatique PII 15 types · score de sensibilité
Protection PII avant envoi LLM Pseudonymisation + re-substitution
TensorRT-LLM (accélération 2-4x) DIY complexe Natif · aucun AIaaS concurrent
Affinage LoRA par client (NeMo) Affinage OpenAI (coûteux) Affinage Azure (coûteux) DIY · aucune isolation client NeMo · jeu de données chiffré · isolé
Modèle médical souverain Surpasse les modèles généralistes sur données de santé
RAG 6 étapes intégré DIY · pas de pipeline clé-en-main Hybride + RRF + reclassement + citations
Disjoncteur + repli automatique Repli automatique en cascade · 5 tentatives
OWASP LLM Top 10 Basique Partiel 10/10 · non désactivable
Conformité HIPAA activable BAA disponible (Azure, AWS) Manuel à configurer Conformité HIPAA activable par client
Commission sur tokens Tarif public Tarif public + surcoût région Coût infra DIY 0% Tarif fournisseur exact
Service géré Libre-service Libre-service Tout à configurer Construction · maintenance · expertise SkaLean
25+ acteurs analysés : aucun ne combine les 3
Botpress et Voiceflow font les agents mais pas l’automatisation. Les outils tiers font l’automatisation mais pas les agents. ChatGPT Team et Copilot font l’espace de travail mais sans souveraineté réelle. SkaLean est le seul moteur IA qui combine routage multi-fournisseur, GPU souverain, RAG natif et service géré dans une seule plateforme.
Conformité & Souveraineté

Vos données ne quittent jamais votre région

Infrastructure locale · conformité réglementaire native · RGPD · CCPA · HIPAA activable par locataire. SkaLean configure et maintient votre infrastructure souveraine.

13
mécanismes RGPD / CCPA
0
transit de données hors région
100%
configurable par locataire
Pourquoi pas ChatGPT ?

Ce que ChatGPT ne peut pas faire pour votre PME

ChatGPT est un outil générique. Studio IA SkaLean est un expert de votre secteur, hébergé chez vous.

Ce qui compte pour votre PMEChatGPT / Microsoft CopilotStudio IA SkaLean
Répond depuis... Internet public (risque de contenu inexact) Vos documents uniquement
Vos données envoyées aux États-Unis ? Oui — serveurs OpenAI / Microsoft Jamais — infrastructure souveraine
Modèle entraîné sur votre secteur ? Non — modèle généraliste Oui — fine-tuning LoRA sectoriel
Conformité RGPD / HIPAA native ? Partielle — dépend du contrat MSA Oui — certifiée et auditable
Traces et audit des requêtes ? Non — boite noire Oui — 100 % traçable
Isolation de vos données des autres clients ? Non — mutualisé Oui — conteneur dédié par client
Intégré à vos outils existants ? Limité (API manuelle) Oui — 200+ connecteurs natifs

Questions fréquentes

Chaque modèle a des points forts différents, comme différents médecins spécialistes. GPT-4o (OpenAI) excelle dans les tâches polyvalentes et le raisonnement complexe. Claude (Anthropic) est reconnu pour ses réponses nuancées et sa prudence dans les sujets sensibles — idéal pour le juridique et la conformité. Mistral est un modèle européen plus léger, optimisé pour le français, moins coûteux en calcul. La bonne nouvelle : vous n'avez pas à choisir manuellement — le routeur LLM de SkaLean sélectionne automatiquement le modèle optimal selon le type de tâche, la langue, les contraintes de conformité, et le coût cible.
L'inférence GPU est le calcul effectué pour générer chaque réponse IA. Normalement, avec ChatGPT, ce calcul se fait sur les serveurs d'OpenAI aux États-Unis, soumis au Cloud Act américain — vos données transitent vers un pays étranger. La souveraineté GPU signifie que SkaLean effectue ce calcul sur des GPU physiquement dans votre pays. Pour un cabinet médical québécois (Loi 25), un bureau d'avocats (secret professionnel), ou une institution financière (OSFI), c'est une exigence légale. Si un audit vous demande "où vos données sont-elles traitées ?", la réponse est "sur serveur physique dans votre ville".
Le routeur LLM évalue chaque requête sur 4 critères : (1) Présence de données personnelles — si la requête contient des données sensibles, seuls les modèles souverains sont autorisés, (2) Conformité HIPAA — si le compte est en mode HIPAA, les modèles cloud américains sont exclus, (3) Préférence client — si vous avez défini un modèle préféré pour un cas d'usage spécifique, il est prioritaire, (4) Dégradation intelligente — si le modèle préféré est indisponible, basculement automatique vers le meilleur alternatif sans interruption de service. Ce système élimine le vendor lock-in.
Oui, disponible sur les plans Entreprise. Le fine-tuning LoRA (Low-Rank Adaptation) ajuste un modèle de base (Llama 3, Mistral) sur vos données spécifiques en 2 à 5 jours. Cas d'usage : cabinet dentaire qui fine-tune sur sa nomenclature de codes RAMQ, cabinet comptable sur la réglementation fiscale québécoise spécifique, clinique vétérinaire avec sa terminologie animale. Résultat : précision 15-30% supérieure sur vos tâches spécifiques. La plupart des clients n'en ont pas besoin — le pipeline RAG suffit — mais c'est disponible si votre vocabulaire est très spécialisé.
GPT-4o et Claude atteignent des performances très proches en français et en anglais (différence de 5-10% selon les benchmarks). Mistral a été spécifiquement optimisé pour le français et surpasse souvent GPT-4 sur les tâches de rédaction française. Pour l'arabe, les modèles disponibles supportent l'arabe standard moderne (MSA) avec bonne qualité. Les dialectes régionaux (Darija, Levant, Golfe) sont supportés pour les tâches conversationnelles simples. Lors de votre démonstration, SkaLean vous facilite la comparaison côte à côte des modèles sur vos cas d'usage réels.
SkaLean gère les mises à jour en mode "blue-green" : la nouvelle version est testée en parallèle pendant 72 heures avant de remplacer l'ancienne. Si les métriques de qualité régressent sur vos cas d'usage, le basculement est annulé automatiquement. Vous êtes notifié 7 jours avant toute mise à jour majeure. Pour les plans Entreprise, un "modèle épinglé" (version fixe) peut être configuré pour éviter tout changement non planifié — contrairement aux APIs OpenAI/Anthropic directes où une mise à jour peut changer votre application du jour au lendemain.
L’écosystème SkaLean

Le Moteur IA alimente tout l’écosystème

Le Moteur IA souverain est le cerveau qui propulse Studio IA, Automatisation IA et les Assistant IA, hébergé localement, conforme à votre réglementation, zéro dépendance cloud imposée.

Tarification transparente

Vous payez les tokens. Rien de plus.

SkaLean ne prend aucune commission sur les appels LLM. Vous êtes facturés exactement au tarif publié par le fournisseur.

0 % de commission sur les tokens LLM
Nous facturons exactement ce que le fournisseur LLM charge, sans majoration, sans frais cachés. Le déploiement d’inférence personnalisé et le développement de LLM sur mesure sont inclus dans les frais de mise en service.
FournisseurModèleEntrée / 1K tokensSortie / 1K tokensNotes
OpenAI gpt-4o 0,0025 $ 0,01 $ 128K contexte · Tool calling
OpenAI gpt-4o-mini 0,00015 $ 0,0006 $ Ultra rapide · économique
OpenAI gpt-4.1 / gpt-4.1-mini 0,002 $ / 0,0001 $ 0,008 $ / 0,0004 $ Dernière génération
Anthropic claude-opus-4 0,015 $ 0,075 $ 200K contexte · raisonnement
Anthropic claude-sonnet-4 0,003 $ 0,015 $ Équilibre performance/coût
Anthropic claude-haiku-4.5 0,00025 $ 0,00125 $ Très rapide · faible coût
Mistral mistral-large-2 0,002 $ 0,006 $ Hébergement européen (Paris)
Mistral mistral-small-3.1 0,0002 $ 0,0006 $ Modèle européen compact
Google gemini-2.5-pro 0,00125 $ 0,005 $ Très long contexte
Google gemini-2.5-flash 0,00015 $ 0,0006 $ Ultra rapide · diffusion en continu
Prix en USD par 1 000 tokens. Facturés directement au tarif du fournisseur, sans surcoût.
La vectorisation est incluse dans le plan : 0 $ supplémentaire.
PlateformeModèleEntrée / 1K tokensSortie / 1K tokensSouveraineté
Azure OpenAI gpt-4o / gpt-4o-mini 0,0025 $ / 0,00015 $ 0,01 $ / 0,0006 $ Région souveraine de votre choix
Azure OpenAI gpt-4.1 / gpt-4.1-mini 0,002 $ / 0,0001 $ 0,008 $ / 0,0004 $ Données restent dans votre pays
AWS Bedrock Claude Opus 4 / Sonnet 4 0,015 $ / 0,003 $ 0,075 $ / 0,015 $ Région Bedrock souveraine
AWS Bedrock Llama 3.1 70B / 8B 0,00065 $ / 0,0003 $ 0,00085 $ / 0,0006 $ Modèle ouvert via Bedrock
Vertex AI Gemini 2.5 Pro / Flash 0,00125 $ / 0,00015 $ 0,005 $ / 0,0006 $ Région Vertex souveraine
Vertex AI Claude Sonnet 4 (via Vertex) 0,003 $ 0,015 $ Anthropic via Google Model Garden
Mêmes prix que le Tier 1 ; vos données restent dans votre région sans aucun frais supplémentaire.
La région souveraine est choisie selon votre pays et vos exigences réglementaires (RGPD, HIPAA, lois locales).
InfrastructureModèlesEntrée / 1K tokensSortie / 1K tokensConditions
Ollama CPU Llama, Mistral, Qwen et modèles open-source 0 $ 0 $ Inclus dans tous les plans
Inférence GPU Llama 70B+, Qwen 72B, modèles médicaux spécialisés Facturés à l’usage Facturés à l’usage Service configuré par SkaLean · inclus mise en service
LLM custom Affinage NeMo LoRA sur vos données inclus mise en service inclus mise en service Plan Enterprise
Ollama CPU est inclus dans tous les plans SkaLean : aucun frais de token, aucune limite de volume.
Le déploiement d’inférence GPU et le développement LLM personnalisé sont inclus dans les frais de mise en service. Les tokens d’inférence à l’exécution sont facturés à l’usage selon votre consommation réelle.
Zéro transit de données. Vos données ne quittent jamais votre environnement isolé.
Prêt pour l’IA souveraine ?

Votre infrastructure IA, gérée par SkaLean.

9 fournisseurs, 20+ modèles, 3 niveaux de souveraineté. Déploiement en 5 à 20 jours.