Nous sommes le Lun 23 Juin, 2025 00:12
Supprimer les cookies

Page 2 sur 2Précédent 1, 2Connaître nb de signes d'un site web

Pour une tâche précise, pour remplacer un logiciel propriétaire donné...

Mar 01 Juin, 2010 09:48

frederic45 a écrit:
FaustXVI a écrit:Bonjour,
find /chemin/vers/dossier/source -type f | xargs wc


Cette commande exclue-t'elle le code html de la page (à ne pas prendre en compte, sinon ton clienyt risque de faire des bons :D )?


Non, elle n'exclue pas le code HTML. J'explique la commande :
Code: Tout sélectionner
find /chemin/vers/dossier/source -type f


Trouve tous les fichier contenus dans le dossier /chemin/vers/dossier/source et ses sous dossier

Code: Tout sélectionner
 | xargs wc


Compte le nombre de lignes, mots et caractères de ces fichiers et affiche le total à la fin. Si tu veux dégager les tags HTML il suffit de modifier un peut la commande (je te ferai ça à midi). Pour ce qui est d'aller les chercher sur un serveur directement c'est faisable mais risque d'être beaucoup plus (trop) compliqué si on veut faire ça rapidement. Le plus simple serai effectivement de l'executer directement sur le serveur, à condition que celui ci soit sous linux...?
FaustXVI

Messages : 14

Mar 01 Juin, 2010 10:10

Tu peux utiliser httrack pour récupérer le contenu du site en local.
Tu le lances une nuit et le lendemain, tu passe ta commande find dessus (si on peut exclure le html).

Sinon, le plus simple, si le site est très conséquent, ne serait-il pas d'établir un tarif forfaitaire en estimant le nombre moyen de mots/caractères par page et le nombre de pages totales à traduire et en multipliant les deux.

Dans ce cas, tu peux utiliser open office pour faire les calculs :D .
http://leblogdundsi.lesprost.fr, propulsé par PluXML, blog open source à la sauce XML
frederic45

Messages : 52

Mar 01 Juin, 2010 10:13

Réponse à FaustXVI:


Hmm... Pour être honnête, je ne sais pas si le serveur est sous Linux ou non. En réalité, je n'ai le contrôle que d'une sous-partie du serveur, à laquelle j'accède par FileZilla depuis Windows.

Je suis en tain de me rendre compte d'un autre problème: le site en question est géré par Spip. Or ça risque de poser un problème de localisation. En effet, ce n'est pas forcément tout le site que nous voudrions comptabiliser (du moins pas à tous les coups), mais seulement certaines de ses rubriques. Problème: Spip, tel que nous l'utilisons actuellement, ne crée pas des dossiers ben distincts sur le serveur FTP, mais uniquement des pages du type http://monsite/spip.php?article79, avec un numéro final qui dépend uniquement de la date à laquelle la page a été créée. Autrement dit, je ne vois pas comment on pourrait dire à un logiciel ou à une ligne de commande "prends tous les textes de telle ou telle rubrique", puisque les références des pages en question sont complètement aléatoires (les pages de la rubrique A ne comportent pas forcément la mention A dans leur titre). Sans compter que si j'ai bien compris, Spip ne crée pas des pages matériellement visibles sur le serveur, que nous pourrions sonder...

Compte tenu de tout çà et de la spécificité de ma demande, je vous suggère en tout cas de ne pas perdre trop de temps pour m'aider sur ce coup-là: j'ai peur que le cas ne soit sans issue. Je suis désolé de ne vous dire ça qu'en cours de post, mais ce sont précisément vos premières remarques qui m'ont fait prendre conscience des problèmes à régler.

Bref, si l'un de vous a une idée-miracle, elle est évidemment la bienvenue; mais autrement, ne vous cassez pas la tête: nous nous débrouillerons "en manuel", quitte à faire d'énormes copier-coller vers des logiciels de statistiques. Dans tous les cas, un grand merci pour l'aide que vous avez déjà fournie!

J'oubliais: i s'agit des deux sites que voici: http://www.menestrel.fr (rubrique "Répertoire de l'Internet") et http://www.ifha.fr
Criquet

Messages : 40

Mar 01 Juin, 2010 12:22

Ok, alors plusieurs possibilités :
1) Tu pompe le site comme le disait frederic45 et tu fait le find. Problème : c'est long à faire et je sais pas comment se comporte gttrack dans le cas où nous somme.
2) Puisse que c'est du Spip, tout le contenu est enregistré dans un base de données. Si tu a moyen d'y accéder tu peux alors récupérer les donner, les mettre dans un fichier et utiliser un logiciel de stats.
3) Faire le bourrin et le faire à la main...
FaustXVI

Messages : 14

Mar 01 Juin, 2010 12:25

Il est probable que toutes les chaînes traduisibles de SPIP soient regroupés dans un ou quelques fichiers à part.
(il est également probable que SPIP soit déjà traduit dans la langue cible qui vous intéresse.)
Pour le contenu des articles qui sont dans la base de données donc, une requête SQL devrait permettre de les sélectionner et de faire le comptage.
joan

Avatar de l’utilisateur
Messages : 886
Géo : France, Aquitaine, Bordeaux

Mar 01 Juin, 2010 12:44

joan a écrit:Pour le contenu des articles qui sont dans la base de données donc, une requête SQL devrait permettre de les sélectionner et de faire le comptage.


Ah? Ça, évidemment, ça correspondrait exactement à mes besoins. Mais là, je vais afficher mon ignorance: comment faire? D'abord, je vais voir avec le webmestre pour savoir si je peux avoir accès à la BdD elle-même, et non pas seulement à l'interface Spip. Je vous tiendrai au courant.
Criquet

Messages : 40

Mar 01 Juin, 2010 17:48

Note que je ne suis pas non plus expert SQL :D un truc genre
Code: Tout sélectionner
SELECT SUM(LENGTH(colonne_contenu)) FROM articles

où « colonne_contenu » serait le champ dans lequel est stocké le contenu des articles (explorer la base pour voir lequel c'est), et « articles » serait la table correspondante.
kinovea.org
joan

Avatar de l’utilisateur
Messages : 886
Géo : France, Aquitaine, Bordeaux

Mer 02 Juin, 2010 08:38

Bonjour,

Avant de pouvoir te donner le commande SQL à entrer il faudrait qu'on sache de quelle base de donnée il s'agit : MySQL :) , PostGreSQL :), Oracle :), Access :cry: ?
FaustXVI

Messages : 14

Mer 02 Juin, 2010 08:56

C'est une MySQL. Mais comme je le disais plus haut, au stade actuel je suis bien incapable de savoir où elle est sur le serveur, de déterminer comment elle se compose (nom de la table etc.), a fortiori d'appliquer les suggestions que vous voudrez bien me donner.

Pour tout ça, il faut que je contacte le webmestre, ce qui ne pourra pas se faire cette semaine-ci. Mais comme promis, je vus tiendrai au courant.
Criquet

Messages : 40

Qui est en ligne ?

Utilisateur(s) parcourant actuellement ce forum : Aucun utilisateur inscrit