hi hi, ca me fait plaisir qu'on demande ca, je m'etais creuse la tete pour le faire, et je suis content d'en faire profiter quelqu'un : l'idee c'est de faire un script qui index
tous les mots de beaucoup de textes (moi j'avais copie colle des articles du monde et de wikipedia pour avoir du volume ), et ensuite de lister les mots qui apparaissent dans plus de 40 / 60 % des articles, classe par pourcentage decroissant. tu devrais te retrouver avec une liste de ce genre :
- Code: Tout sélectionner
de 98%
à 97%
...
le but de les lister, c'est de pouvoir controler quand meme le resultat ( typiquement, a cause des articles du monde, j'avais le mot "sarkozy" qui apparaissait dans plus de 40 % des articles.. :-) )
l'avantage de cette technique, c'est que non seulement ca te sort les "petits mots courant", mais si tes textes tournent autour d'un meme sujet, tu peux aussi enlever les mots qui ne sont pas courant dans l'absolu, mais qui dans ton cas ne sont pas revelateur du contenu du texte, puisque ils apparaissent dans la plupart des articles.