Embeddings : La technologie derrière Google et ChatGPT (et comment l’utiliser)

Intelligence Artificielle
3 June 2024

Bonjour à vous, pionniers de l’IA ! Si vous êtes ici, c’est probablement parce que vous êtes passionné par l’intelligence artificielle et désireux de comprendre les technologies qui la sous-tendent. Les embeddings sont au cœur des moteurs de recherche intelligents et des IA conversationnelles comme ChatGPT.

Vous êtes-vous déjà demandé comment Google trouve les résultats les plus pertinents pour votre recherche ? Ou comment ChatGPT génère des réponses aussi humaines ? Une des technologies clés derrière ces avancées impressionnantes est celle des embeddings.

Dans cet article, nous allons vous révéler tout ce que vous devez savoir sur les embeddings :

Qu’est-ce qu’un embedding et pourquoi est-ce si important ?
Comment les embeddings sont-ils utilisés dans les moteurs de recherche et l’IA conversationnelle ?
Comment pouvez-vous utiliser les embeddings pour améliorer votre propre site web ou application ?

Si vous débutez en NLP, cet article vous donnera les connaissances nécessaires pour maîtriser cette technologie puissante.

Accrochez-vous, car les choses vont devenir passionnantes !

Qu’est-ce qu’un embedding ?

Un embedding (plongement lexical ou plongement sémantique) est une représentation numérique d’un élément d’information, tel que du texte, des images ou de l’audio. Cette représentation capture la signification sémantique de l’élément, ce qui permet une multitude d’applications industrielles.

Imaginez que vous transformiez chaque mot, phrase ou image en une série de nombres qui capturent son essence. Par exemple, un embedding de la phrase “Quel est le principal avantage du vote ?” pourrait être représenté par une liste de nombres qui capture le sens de la phrase.

Les embeddings permettent de représenter des informations complexes de manière compacte et significative. Cette capacité est essentielle pour des applications telles que :

la recherche sémantique,
la classification d’images
et les systèmes de recommandation.

Pensez-y comme à un traducteur universel qui rend vos données compréhensibles pour les algorithmes de machine learning.

Les différents types d’embeddings

Les word embeddings

Les word embeddings transforment des mots individuels en vecteurs numériques. Ils capturent les relations sémantiques entre les mots en les plaçant dans un espace vectoriel où des mots similaires sont proches les uns des autres.

Des modèles comme Word2Vec et GloVe sont des exemples populaires de word embeddings.

Word2Vec : Développé par Google, ce modèle crée des embeddings en entraînant un réseau de neurones sur de grandes quantités de texte pour prédire les mots voisins dans une phrase. Il capture efficacement les relations sémantiques et syntaxiques entre les mots.
GloVe : Développé par Stanford, ce modèle se base sur des statistiques globales de cooccurrence de mots dans un corpus. Il permet de capturer des relations de cooccurrence et de similitude entre les mots.

Sentence embeddings

Les sentence embeddings vont plus loin en représentant des phrases entières sous forme de vecteurs. Ces embeddings capturent le contexte global de la phrase, ce qui permet de comparer des phrases entre elles. Les modèles comme Universal Sentence Encoder et Sentence-BERT sont couramment utilisés pour générer des sentence embeddings.

Universal Sentence Encoder : Développé par Google, ce modèle produit des embeddings de phrases de manière à ce qu’elles puissent être comparées et utilisées dans des tâches de traitement du langage naturel.
Sentence-BERT : Ce modèle adapte BERT, une architecture de réseau de neurones, pour produire des embeddings de phrases. Il est particulièrement utile pour les tâches de recherche sémantique et de similarité de texte.

Les avantages et les limites

Les embeddings présentent de nombreux avantages, notamment la capacité de capturer des relations sémantiques et de permettre des comparaisons efficaces. Cependant, ils ont aussi des limites, comme la difficulté à gérer des informations très spécifiques ou contextuelles. Et c’est tout naturel, puisque si des concepts sont récents, ils n’ont pas encore étés intégrés aux bibliothèques ou modèles d’embeding.

Il est donc crucial de choisir le bon type d’embeddings en fonction des besoins de votre application.

De la même manière, et c’est surement la plus grande des limites… générer des embeddings peut être très gourmand en ressources computationnelles, il est donc nécessaire de connaître les limites de vos composants pour adapter la technologie utilisée. Des mécanismes pour contourner cette limite existent, mais le temps de calcul restera relativement long. Investir dans du matériel va être essentiel, puisque la phase de création de votre application est vouée à de nombreux échecs pour arriver à sa version optimale. Imaginez un embeddings qui met plus de 3h pour vous produire une erreure ou encore une version pas assez précise. Itérer devient alors difficile et risque de vous dégouter dans votre progession.

Comment générer des embeddings ?

Les outils et bibliothèques courraments utilisés

Pour générer des embeddings, plusieurs outils et bibliothèques open-source sont disponibles. Voici quelques-uns des plus courants :

Sentence Transformers

Sentence Transformers est une bibliothèque puissante qui permet de créer des embeddings de phrases et de textes. Elle est facile à utiliser et offre des modèles pré-entraînés pour diverses langues et tâches.

Gensim

Gensim est une autre bibliothèque populaire pour la génération de word embeddings. Elle est souvent utilisée pour entraîner des modèles Word2Vec et Doc2Vec.

TensorFlow et PyTorch

Ces deux frameworks de deep learning peuvent également être utilisés pour créer des embeddings personnalisés. Ils offrent une grande flexibilité et permettent d’entraîner des modèles sur des jeux de données spécifiques.

Utilisez l’API Hugging Face

L’API d’inférence Hugging Face est un outil puissant pour générer des embeddings sans avoir à entraîner des modèles à partir de zéro. Voici un exemple de code pour créer un embedding à partir d’une question de la FAQ Medicare :

import requests

api_url = "<https://api-inference.huggingface.co/pipeline/feature-extraction/sentence-transformers/all-MiniLM-L6-v2>"
headers = {"Authorization": "Bearer YOUR_HF_TOKEN"}

texts = ["How do I get a replacement Medicare card?"]
response = requests.post(api_url, headers=headers, json={"inputs": texts, "options": {"wait_for_model": True}})
output = response.json()

Ce code génère un embedding pour une question spécifique, qui peut ensuite être utilisé pour des comparaisons sémantiques. Nous reviendrons sur Hugging Face dans un autre article dédié, car c’est une plateforme ultra puissante et qui permet notament de se servire du travail d’autres passionnés par l’IA.

💡 Hugging Face est une plateforme et une bibliothèque open-source spécialisée dans le traitement du langage naturel (NLP), proposant des modèles pré-entraînés de pointe et des outils accessibles via des API, permettant de simplifier et d’accélérer l’intégration de fonctionnalités NLP dans divers projets.

L’utilisation d’embedding avec TensorFlow

Pour montrer une approche plus concrète, voici un exemple d’utilisation de TensorFlow pour générer des embeddings de texte :

import tensorflow as tf
import tensorflow_hub as hub

# Charger le modèle Universal Sentence Encoder
embed = hub.load("<https://tfhub.dev/google/universal-sentence-encoder/4>")

# Embedding de phrases
sentences = ["Quel est le principal avantage du vote ?", "Comment puis-je obtenir une carte de remplacement Medicare ?"]
embeddings = embed(sentences)

print(embeddings)

Ce code utilise le modèle Universal Sentence Encoder pour générer des embeddings de phrases en quelques lignes de code.

💡 PyTorch est une bibliothèque open-source de deep learning développée par Facebook AI Research, offrant une flexibilité et une facilité d’utilisation exceptionnelles pour l’entraînement de modèles d’apprentissage automatique et l’exploration de nouvelles architectures neuronales.

Pourquoi utilise t’on les embeddings ?

Dans la recherche sémantique : révolutionner les moteurs de recherche

Les moteurs de recherche sémantique utilisent des embeddings pour améliorer la précision des résultats. Contrairement à la recherche par mots-clés traditionnelle, la recherche sémantique prend en compte le sens des phrases.

Google, par exemple, utilise des embeddings pour faire correspondre des textes à d’autres textes ou à des images, améliorant ainsi la pertinence des résultats de recherche. Cela lui permet d’aller interpréter si des pages de sites répondent correctement aux intentions de recherches.

Moteurs de FAQ : trouver la réponse en un clin d’oeil

Les embeddings sont également utilisés pour créer des moteurs de FAQ efficaces. En intégrant un ensemble de données de questions fréquentes, il est possible de comparer une requête utilisateur avec ces questions intégrées et d’identifier la question la plus similaire. Cela simplifie la recherche d’informations et améliore l’expérience utilisateur. Nous en montrerons l’exemple un peu plus tard dans l’article.