Une nouvelle licorne dans la pile d’infrastructure d’IA (AI infrastructure)
Dans une décision décisive qui souligne le passage de l’industrie de l’entraînement de grands modèles à leur déploiement en environnements temps réel, LiveKit a obtenu 100 millions de dollars lors de son tour de financement de série C, faisant passer sa valorisation à 1 milliard de dollars. Ce tour a été mené par Index Ventures, avec une participation marquante de Salesforce Ventures et des investisseurs déjà présents tels qu’Altimeter Capital, Redpoint Ventures et Hanabi Capital.
Pour les observateurs de Creati.ai, cette valorisation est bien plus qu’un simple jalon financier : elle marque la maturité de la couche « infrastructure d’IA ». Alors que 2024 et 2025 ont été dominées par la course aux armements entre les fournisseurs de modèles de base tels qu’OpenAI et Anthropic, 2026 s’annonce rapidement comme l’année de la couche applicative — plus précisément des agents multimodaux (multimodal agents) capables de voir, d’entendre et de parler. LiveKit, fondée en 2021 par Russ D’Sa et David Zhao, a discrètement construit la plomberie critique nécessaire pour rendre ces interactions instantanées et humaines.
Les nouveaux fonds seront alloués à l’expansion du réseau mondial de nœuds en périphérie de LiveKit et à l’amélioration de son framework « Agents », qui simplifie l’orchestration de flux de traitements IA complexes. À mesure que les entreprises passent des chatbots textuels aux assistants natifs vocaux, la demande pour une infrastructure spécialisée à faible latence a explosé, positionnant LiveKit en tant que couche de transport par défaut pour la prochaine génération de l’informatique.
La « plomberie » derrière la révolution vocale
Pour comprendre l’ascension rapide de LiveKit, il faut d’abord saisir les goulets d’étranglement techniques de l’IA conversationnelle. Créer un agent vocal ne consiste pas seulement à connecter un moteur de reconnaissance vocale (STT) à un Large Language Model (LLM) et à un synthétiseur texte-à-la-parole (TTS). Le véritable défi réside dans la gestion de la latence et des états.
Résoudre le goulet d’étranglement de la latence
L’infrastructure de LiveKit fonctionne comme un réseau programmable haute performance. Elle gère l’ingestion des flux audio, les traite via un pipeline à très faible latence, et renvoie la réponse de l’IA à l’utilisateur en quelques millisecondes.
En gérant la logique de « prise de tour » — savoir quand un utilisateur a cessé de parler ou interrompt l’IA — LiveKit permet aux développeurs de créer des expériences qui ressemblent davantage à de véritables appels téléphoniques qu’à des échanges de talkie-walkies. Cette capacité est cruciale pour la nouvelle vague d’applications en « Voice Mode » où la fluidité est la métrique principale de succès.
La technologie de la société élimine la complexité de la gestion des tampons de gigue, de la suppression d’écho et des coupures de connexion, permettant aux ingénieurs IA de se concentrer uniquement sur la logique de leurs agents. Cette philosophie « developer-first » a conduit à une adoption massive, la plateforme facilitant désormais chaque année des milliards de minutes d’interaction IA.
La validation par OpenAI
Peut-être que l’approbation la plus significative de la technologie de LiveKit provient de son partenariat avec OpenAI. LiveKit sert de colonne vertébrale au Advanced Voice Mode de ChatGPT, une fonctionnalité qui a stupéfié le monde de la tech par sa capacité à tenir des conversations en temps réel empreintes de nuances émotionnelles.
Pour les acheteurs d’entreprise, la logique est simple : si l’infrastructure de LiveKit est suffisamment robuste pour gérer la charge concurrente massive de la base d’utilisateurs mondiale de ChatGPT, elle est plus que capable de prendre en charge des agents de support client, des consultations de télésanté ou des outils d’entreprise internes. Cet « OpenAI Effect » a accéléré l’adoption de LiveKit au sein du Fortune 500, des entreprises comme Salesforce et Tesla intégrant la technologie dans leurs propres stratégies IA.
Comparaison : infrastructure héritée vs infrastructure IA native
La distinction entre tenter de créer de l’IA vocale sur des piles de communications héritées et utiliser une infrastructure conçue à cet effet est saisissante. Le tableau suivant décrit les principales différences techniques qui poussent les développeurs vers LiveKit.
| Fonctionnalité |
WebRTC traditionnel |
LiveKit infrastructure d’IA |
| Gestion de la latence |
Variable, souvent imprévisible |
Transport optimisé en dessous de 100 ms |
| Intégration de l’IA |
Nécessite du code de collage manuel |
Pipeline natif pour STT/LLM/TTS |
| Gestion des interruptions |
Difficile à mettre en œuvre |
Logique de détection de tour intégrée |
| Scalabilité |
Coûts opérationnels élevés |
Réseau mondial de périphérie géré |
| Architecture de protocole |
Axé pair-à-pair |
Transfert côté serveur (SFU) |
Au-delà des chatbots : le futur agentif
Bien que l’IA conversationnelle soit le moteur de croissance actuel, la feuille de route de LiveKit s’étend vers le domaine plus large des agents multimodaux. La possibilité de diffuser des données vidéo en temps réel permet aux modèles d’IA de « voir » et de raisonner sur le monde physique.
Cette capacité ouvre de nouvelles frontières dans la robotique et l’automatisation industrielle. Par exemple, des startups de téléopération utilisent LiveKit pour transmettre des vidéos à faible latence depuis des robots vers des opérateurs humains ou des superviseurs IA. Dans le secteur de la santé, les prestataires de soins en santé mentale utilisent la plateforme pour alimenter des assistants thérapeutiques autonomes capables de détecter de subtiles indications émotionnelles dans la voix d’un patient, une tâche qui nécessite une transmission audio haute fidélité que la téléphonie standard ne peut fournir.
De plus, l’implication de Salesforce Ventures dans ce tour de série C suggère une intégration profonde dans les flux de travail de gestion de la relation client (CRM). On peut s’attendre à voir des systèmes « Agentic CRM » où des agents vocaux IA non seulement gèrent les appels de support, mais mettent également à jour de manière autonome les dossiers clients et déclenchent des workflows en temps réel, le tout alimenté par les rails de données de LiveKit.
Écosystème centré sur le développeur
Malgré sa valorisation de licorne et son orientation entreprise, LiveKit reste profondément ancré dans la communauté open source. Le cœur de sa technologie est accessible aux développeurs, favorisant un écosystème dynamique de plugins et d’intégrations.
Le framework « LiveKit Agents » permet aux développeurs d’écrire la logique des agents en Python ou Node.js, traitant le traitement audio/vidéo complexe comme une simple importation de bibliothèque standard. Cette démocratisation de la technologie des médias en temps réel abaisse la barrière à l’entrée pour créer des applications IA sophistiquées. Un seul développeur peut désormais prototyper un assistant vocal en une après-midi, alors qu’auparavant cela aurait nécessité une équipe d’ingénieurs VoIP et des mois de développement.
Implications pour le marché en 2026
À mesure que nous entrons plus profondément dans 2026, la capitalisation de LiveKit confirme une tendance plus large : la pile d’IA se solidifie. L’ère de la construction d’infrastructures sur mesure pour chaque application IA touche à sa fin. Tout comme Twilio est devenu l’API par défaut pour les SMS et Stripe pour les paiements, LiveKit se positionne comme l’API par défaut pour la communication IA vers l’humain.
Pour les lecteurs de Creati.ai, le message est clair. La contrainte de l’utilité de l’IA n’est plus l’intelligence des modèles : c’est la rapidité et la fiabilité de l’interface. Avec une valorisation de 1 milliard de dollars et une trésorerie de 100 millions de dollars, LiveKit veille à ce que l’interface du futur soit instantanée, fluide et omniprésente.