Nous sommes le Ven 26 Avr, 2024 12:38
Supprimer les cookies

Page 1 sur 21, 2 SuivantNettoyage du FramaWiki

Questions, suggestions, critiques, rapport de bugs... autour des forums, du blog, de l'annuaire et du framadvd

Mar 26 Juin, 2012 22:54

Bonsoir à toutes et à tous,

J'ai commencé le nettoyage du FramaWiki à la main, et j'avoue que c'est assez fatigant :)

J'ai donc concocté un petit script python pour lister les pages à supprimer. L'idée étant la suivante :
- Utilisation du script de recherche des pages à supprimer
- Validation des pages à supprimer par moi (puisque je m'en occupe, mais je crois que Cyrille aussi)
- Utilisation d'un autre script permettant de supprimer les pages

Pour le moment, seule la première étape est fonctionnelle et à améliorer.
Sur 100 pages chargées au hasard sur le FramaWiki, voici les résultats :
- 85 pages à supprimer
- 4 pages à conserver
- 11 pages que le script ne sait pas placer (ces pages là ne sont donc pas à supprimer par défaut :) )

Je me base sur deux listes de mots-clefs avec cet algo très simple :
- Si je trouve un mot-clef de la liste blanche dans le titre de la page : la page est à conserver
- Sinon, si je trouve un mot-clef de la liste noire dans le titre de la page : la page est à supprimer
- Sinon, je place la page dans la liste floue

== Explication technique ==
Les mots-clefs sont, en fait, des patterns d'expressions régulières.

La liste blanche contenait uniquement 'frama' pour mon test, mais contient aussi 'projet' désormais
La liste noire permet de trouver les pages dont le titre contient quelque chose du style XxxxXxxx### où X représente une lettre majuscule, xxx représente un nombre positif de minuscules et ### un nombre positif de chiffres. En effet, beaucoup de pollu-posteurs utilisent un nom ainsi formé et génèrent ensuite du texte sur leur page utilisateur.

Pour info, la liste des pages à supprimer, je ne crois pas qu'une seule d'entre elles puisse être une page véritable, mais la partie de vérification par un humain me semble importante tout de même :
CristieArriaga400
ArmesLyles818
HelaineSpaeth607
ErvinCrist977
LizMaier934
KaganForeman547
WheatleyBratcher954
KeeterHowze349
ErthaPoore103
CaswellLipscomb302
StambaughFerrara137
FormanKrum305
WaitersTripp221
HindmanWasham777
PlantLogue58
ReevaLittleton149
HootenBurton268
GabbardWilburn214
SavoieVillalpando151
PelhamBroussard209
GodinezMoyer763
BraddockFabian504
KavanaughLima793
WhitfieldLunde786
ThayerBaird394
GiacintaGattis199
KelceyLafayette200
TackCummins514
LamoureuxDelp261
GertrudaCasias82
BernadetteCanas747
MaidenArneson755
StognerTroutt905
MuellerBrockman246
ChilsonDeegan231
YarboroughMa965
FuFlannigan191
DanyaPearman654
StanhopeDukes809
DunningMccree434
McdonnellChronister554
ScarletMiner38
MackenzieSilas193
ColinWofford630
FugateBock591
AllysonRau638
GravesGaitan590
AlikaPearsall686
WheatleyBratcher954
RomelaBay892
KohlenhydratearmeRezepte98n
TiffSuh283
AndressPonce2
WolffFeinstein929
SchallAlvey605
AlejandraPalma526
MosierFlack107
NaughtonWork665
JeskeHackney960
GreenfieldArmijo913
CornettMckinnon4
BoothRoark629
PullenTrimble987
MackenzieSilas193
SchumakerBiron579
GrantFlorence662
MavisHilbert821
SvobodaSantini319
SweetFerri947
SommervilleLance83
ProcterHeim674
PrietoCorriveau411
MinyardAquilar798
DaffiEanes501
BlaisdellSansone863
TobiasTennyson778
HaneyWolfe189
TrottierMontano181
McgillHutson425
ReneauCoffin294
PlumbHalls139
EdmonsonHake628
BowyerBrodeur138
OliveiraMaple428
HolcombeMarchant74


La liste des pages à conserver :
Projet:Framalang/Navigation
Logiciels libres et education FramaDVDEcole
Projet:Framannuaire/Présentation
Projet:Framaprofs/Présentation


Et enfin la liste des pages floues :
Play Casino Games Online Today Like No Other
Etsyshopzx
Projet:Charte graphique
Internet marketing san jose
Easy methods to stop from becoming an alcohol addict
Experience With all the Fast Expansion of the Professional medical Globe
Texte Infos Relais
Projet:Bug tracking/À faire
Solarpanel565
CharlotteDWIAttorney
Finding Real Psychics
---
SourisMaline est une Société de Services en Logiciels Libres
http://sourismaline.fr/
SourisMaline

Messages : 156

Mer 27 Juin, 2012 08:28

Hello,

Un grand merci SouisMaline pour ce nettoyage du wiki qui est en effet très décourageant à faire à la main (j'en fait qqunes à mes heures perdues).
En regardant les pages détectées comme à virer, je te confirme qu'aucune n'est à conserver. Tu peux donc y aller et les supprimer :D
On a essayé plusieurs système pour bloquer les spammeurs mais sans succès pour l'instant (du coup on envisage de faire valider manuellement chaque inscription).
A nouveau, merci pour l'investissement :D
cyrille

Avatar de l’utilisateur
Messages : 953
Géo : Seine et Marne

Mer 27 Juin, 2012 12:00

Attention, il y a Lolo_le_13 qui est un membre de Framasoft (et même admin du wiki) qui a un pseudo qui ressemble à ta regex :)
cheval_boiteux

Avatar de l’utilisateur
Messages : 1531
Géo : Dole (39) - Strasbourg (67)

Mer 27 Juin, 2012 17:39

Non, non, il n'a qu'une seule majuscule et en plus il a des tirets bas (ou underscore, oh yeah !)...
Et puis je compte relire le résultat avant de supprimer : pas fou, je développe depuis plus de 20 ans, je sais que c'est bourré de bugs ;)

Alors je continue le boulot ! Merci pour les encouragements !

Le script est situé sur mon wiki en GPL, bien entendu ;)
---
SourisMaline est une Société de Services en Logiciels Libres
http://sourismaline.fr/
SourisMaline

Messages : 156

Jeu 28 Juin, 2012 18:14

Merci beaucoup à toi, SourisMaline. Je suis quelque peu débordé par un emploi un peu trop prenant en ce moment et je ne peux donc pas prendre le temps de mettre un captcha digne de ce nom sur le wiki.
Je te remercie beaucoup d'avoir "dressé ce bot", comme on dit chez Wikipedia.
Y'en a Debian ! Y'en a Debiaaaaaaan !
Lolo le 13

Avatar de l’utilisateur
Messages : 594

Dim 01 Juil, 2012 21:49

Bon, eh bien j'ai fait quelques tests de suppression, ça marche plutôt bien :)

Encore quelques petits réglages à faire pour simplifier encore le travail en tandem de ces deux scripts, et ça devrait aller mieux pour le FramaWiki :)
---
SourisMaline est une Société de Services en Logiciels Libres
http://sourismaline.fr/
SourisMaline

Messages : 156

Mar 03 Juil, 2012 12:04

Bon, le nettoyage est en cours, j'essaye de pas faire trop de c.......s :)
Pour le moment, ça tourne plutôt bien, j'ai nettoyé pas mal de pages basiques et j'ai attaqué les pages utilisateurs (oui, Lolo le 13 n'est pas considéré comme un polluposteur ;) )

EDIT:
- Entretien terminé après la suppression de plus de 5000 pages utilisateurs je crois. Youhou \o/
- Reste à supprimer les utilisateurs eux-mêmes, mais je ne sais pas faire via l'interface, question de droits ou c'est simplement impossible ?
- Il reste un certain nombre de pages et de pages utilisateurs à supprimer, mais mon bot étant limité, je crois qu'on va devoir finir à la main, parce que j'ai vu des cas où il y avait des risques. Mais le plus gros du boulot est fait en tout cas
- Merci pour votre soutien
- Lolo, prends le temps qu'il faut, mais mets un Captcha digne de ce nom, je t'en supplie ;)
---
SourisMaline est une Société de Services en Logiciels Libres
http://sourismaline.fr/
SourisMaline

Messages : 156

Mer 04 Juil, 2012 09:47

Voilà, j'en avais marre alors j'ai fini de nettoyer les pages sans catégories de type spam : il reste donc maintenant 496 pages (au lieu de plus de 7000 au départ !) qui sont toutes des pages "officielles" Framasoft !

Je m'attaquerai aux pages utilisateurs plus tard, j'ai mal aux doigts là ;)
---
SourisMaline est une Société de Services en Logiciels Libres
http://sourismaline.fr/
SourisMaline

Messages : 156

Mer 04 Juil, 2012 22:18

Et voila ! On voit ici la super efficacité des programmeurs. ;)

Merci encore et je vais voir pour ou mettre un captcha ou pour passer la main à quelqu'un d'autre là dessus.
En tout cas, si on attend mon feu vert dans l'équipe, on peut le jouer directement à "C'est le premier qui a raison.". :)
Y'en a Debian ! Y'en a Debiaaaaaaan !
Lolo le 13

Avatar de l’utilisateur
Messages : 594

Jeu 05 Juil, 2012 15:40

Merci SourisMaline pour ce travail ingrât.
cheval_boiteux

Avatar de l’utilisateur
Messages : 1531
Géo : Dole (39) - Strasbourg (67)

Qui est en ligne ?

Utilisateur(s) parcourant actuellement ce forum : Aucun utilisateur inscrit