J'ai commencé le nettoyage du FramaWiki à la main, et j'avoue que c'est assez fatigant
J'ai donc concocté un petit script python pour lister les pages à supprimer. L'idée étant la suivante :
- Utilisation du script de recherche des pages à supprimer
- Validation des pages à supprimer par moi (puisque je m'en occupe, mais je crois que Cyrille aussi)
- Utilisation d'un autre script permettant de supprimer les pages
Pour le moment, seule la première étape est fonctionnelle et à améliorer.
Sur 100 pages chargées au hasard sur le FramaWiki, voici les résultats :
- 85 pages à supprimer
- 4 pages à conserver
- 11 pages que le script ne sait pas placer (ces pages là ne sont donc pas à supprimer par défaut )
Je me base sur deux listes de mots-clefs avec cet algo très simple :
- Si je trouve un mot-clef de la liste blanche dans le titre de la page : la page est à conserver
- Sinon, si je trouve un mot-clef de la liste noire dans le titre de la page : la page est à supprimer
- Sinon, je place la page dans la liste floue
== Explication technique ==
Les mots-clefs sont, en fait, des patterns d'expressions régulières.
La liste blanche contenait uniquement 'frama' pour mon test, mais contient aussi 'projet' désormais
La liste noire permet de trouver les pages dont le titre contient quelque chose du style XxxxXxxx### où X représente une lettre majuscule, xxx représente un nombre positif de minuscules et ### un nombre positif de chiffres. En effet, beaucoup de pollu-posteurs utilisent un nom ainsi formé et génèrent ensuite du texte sur leur page utilisateur.
Pour info, la liste des pages à supprimer, je ne crois pas qu'une seule d'entre elles puisse être une page véritable, mais la partie de vérification par un humain me semble importante tout de même :
CristieArriaga400
ArmesLyles818
HelaineSpaeth607
ErvinCrist977
LizMaier934
KaganForeman547
WheatleyBratcher954
KeeterHowze349
ErthaPoore103
CaswellLipscomb302
StambaughFerrara137
FormanKrum305
WaitersTripp221
HindmanWasham777
PlantLogue58
ReevaLittleton149
HootenBurton268
GabbardWilburn214
SavoieVillalpando151
PelhamBroussard209
GodinezMoyer763
BraddockFabian504
KavanaughLima793
WhitfieldLunde786
ThayerBaird394
GiacintaGattis199
KelceyLafayette200
TackCummins514
LamoureuxDelp261
GertrudaCasias82
BernadetteCanas747
MaidenArneson755
StognerTroutt905
MuellerBrockman246
ChilsonDeegan231
YarboroughMa965
FuFlannigan191
DanyaPearman654
StanhopeDukes809
DunningMccree434
McdonnellChronister554
ScarletMiner38
MackenzieSilas193
ColinWofford630
FugateBock591
AllysonRau638
GravesGaitan590
AlikaPearsall686
WheatleyBratcher954
RomelaBay892
KohlenhydratearmeRezepte98n
TiffSuh283
AndressPonce2
WolffFeinstein929
SchallAlvey605
AlejandraPalma526
MosierFlack107
NaughtonWork665
JeskeHackney960
GreenfieldArmijo913
CornettMckinnon4
BoothRoark629
PullenTrimble987
MackenzieSilas193
SchumakerBiron579
GrantFlorence662
MavisHilbert821
SvobodaSantini319
SweetFerri947
SommervilleLance83
ProcterHeim674
PrietoCorriveau411
MinyardAquilar798
DaffiEanes501
BlaisdellSansone863
TobiasTennyson778
HaneyWolfe189
TrottierMontano181
McgillHutson425
ReneauCoffin294
PlumbHalls139
EdmonsonHake628
BowyerBrodeur138
OliveiraMaple428
HolcombeMarchant74
La liste des pages à conserver :
Projet:Framalang/Navigation
Logiciels libres et education FramaDVDEcole
Projet:Framannuaire/Présentation
Projet:Framaprofs/Présentation
Et enfin la liste des pages floues :
Play Casino Games Online Today Like No Other
Etsyshopzx
Projet:Charte graphique
Internet marketing san jose
Easy methods to stop from becoming an alcohol addict
Experience With all the Fast Expansion of the Professional medical Globe
Texte Infos Relais
Projet:Bug tracking/À faire
Solarpanel565
CharlotteDWIAttorney
Finding Real Psychics
-
SourisMaline
- Messages : 156