Importation des données

Nettoyage des tweets

Analyse des sentiments - Modélisation prédictive

Subivision apprentissage-test des données

Tokénisation avec Keras - Constitution du dictionnaire

Documents = Séquences de tokens

Chargement de la représentation pré-entraînée de GloVe

Adresse de récupération => http://nlp.stanford.edu/data/glove.6B.zip

Matrice initale embeddings pour notre jeu de données

7670 termes non référencés c.-à-d. 7670 termes présents dans les tweets mais pas dans GloVe. Les lignes corresp. sont restées à 0 dans notre matrice ! Attention grosse perte d'information !!!

Modélisation prédictive

Word embedding - Coord. des termes

Evaluation sur l'échantillon test

Déploiement sur un document supplémentaire