Nous sommes le Dim 20 Juil, 2025 20:45
Supprimer les cookies

Page 2 sur 2Précédent 1, 2Statistiques du libre

Sur le logiciel libre en général ou un logiciel libre en particulier

Jeu 29 Mars, 2007 16:02

10ip a écrit:
Echantillon non représentatif => résultats biaisés => mauvaises recommandations.

Je cite Nicolas Jullien, responsable du questionnaire :
nous ne cherchons pas la représentativité dans ce cas, mais des études de comportement (techniques d'analyse de données et économétrie)

Mauvaise réponse de la part de Nicolas Jullien. Cela sert à quoi de faire une "étude de comportement" avec un échantillon non-représentatif?

Je suis tout à fait d'accord avec playmobil:
Echantillon non représentatif => résultats biaisés => mauvaises conclusions
moron

Messages : 366

Ven 30 Mars, 2007 09:18

Bonjour,

playmobil a écrit:L'enquêt de M@rsouin est intéressante, mais leur procédure d'enquête est totalement bidon si elle repose sur le volontariat. Echantillon non représentatif => résultats biaisés => mauvaises recommandations.


je crois que je dois répondre... C'est une peu long, mais j'espère que ça sera intéressant.

Bon, le problème d'un échantillon représentatif, c'est qu'il doit être représentatif d'une population, qu'on connaît. L'INSEE fait un recensement, qui paraît ensuite de constituer des échantillons et de faire des enquêtes sur une sous-population en vérifiant un certain nombre de critère (sexe, âge, profession...) pour avoir une bonne représentativité... Même si ça ne suffit, le problème des gens qui refusent de répondre pose un pb. Il y a des techniques pour "reresser" les réponses, mais c'est toujours problématique (cf. les sondages de vote ces temps-ci).

Le premier problème, pour le logiciel libre, c'est de constituer une base de départ, *et* de savoir quels sont les critères pertinents (en plus des critères classiques, taille e l'entreprise, ancienneté, etc.). Utiliser Linux ? être impliqué dans un développement libre ? Utiliser logiciel libre plutôt qu'open source... Et à partir de quelle base ?

J'en viens au but de l'étude: 'exhaustivité, c'est pour dire tant de % utilise Debian, tant de % font 100% de leur ca avec du libre, etc.

Moi, ce qui m'intéresse, c'est d'avoir des profils d'entreprise, donc de faire des analyses de données. Cf. cet article, par exemple: http://www.marsouin.org/article.php3?id_article=131
On utilise alors des techniques d'analyse de données, qui permettent de mettre dans un même groupe des entreprises qui ont des profils, attitudes proches.
Par exemple, je différencie les entreprises suivant leur taille, leur âge, et je regarde si les jeunes entreprises, de petite taille, ont des attitudes spécifiques vis-à-vis du logiciel libre (c'est là qu'on trouve les entreprises spécialisées, elles travaillent avec des grands groupe...) Ce sont des exemples, évidemment.
Evidemment, je ne pourrai pas donner de chiffre (genre 30% des entreprises sont de petite taille), mais J'estime que mes réponses seront assez variées pour avoir tous les profils.

D'autre part, je voudrais tester des relations particulières. Par exemple, si on est spécialisé dans le logiciel libre, on aura plus tendance à s'impliquer dans des communautés. Là on peut utiliser des techniques, l'économétrie, qui permettent de tester le lien entre deux variables. Là encore, plus encore que la représenativité, c'est la variété des réponses qui m'intéresse (et évidemment, plus il y en a, mieux c'est).


Nicolas
njullien

Messages : 1

Ven 30 Mars, 2007 12:46

Pas besoin de s'assurer de la représentativité d'un échantillon si l'on a procédé à une assignation aléatoire pour les questionnaires (c'est coûteux mais on n'a pas besoin de connaître les caractéristiques de la population mère). Sinon, cluster ou stratification. Pour corriger un biais de sélection, la technique est simple et connue depuis longtemps. Il s'agit de la procédure de Heckman. Définir des profiles à titre d'exemple est intéressant mais ne permet pas de faire d'inférence statistique correcte car il est fort probable que les répondants ont des caractéristiques inobservées différentes de celles des non-répondants et qui jouent sur le lien entre tes différentes variables.
En économie c'est le cas classique de l'effet sur le salaire d'un individu d'une participation volontaire à une formation professionnelle basée. On ne peut pas comparer le salaire des participants avec celui des non participants car leurs caractéristiques sont différentes (notamment en termes de motivation) pour estimer l'effet de la formation (comme leurs caractéristiques sont différentes, ils ne valoriseront pas la formation de la même manière). D'où la procédure de Heckman pour corriger le biais de sélection et la préférence pour une assignation aléatoire du programme (ou dans notre cas de l'enquête) pour pouvoir estimer l'effet sur la population mère sans recourir à des procédures relativement techniques. Bref pas de MCO avec un échantillon biaisé.

Référence :
Sample Selection Bias as a Specification Error
James J. Heckman
Econometrica, Vol. 47, No. 1 (Jan., 1979), pp. 153-161
dispo sur JSTOR : ici
playmobil

Avatar de l’utilisateur
Messages : 575
Géo : Clermont-Ferrand

Ven 30 Mars, 2007 13:37

njullien a écrit:J'en viens au but de l'étude: 'exhaustivité, c'est pour dire tant de % utilise Debian, tant de % font 100% de leur ca avec du libre, etc.

Evidemment, tout dépend de la finalité du questionnaire. Si je me refère à la page citée ci-dessus: http://marsouin.infini.fr/entrepriseset ... nnaire.php , le but serait de constituer un annuaire avec des entreprises qui "font du libre" ou qui utilisent des logiciels libres. Evidemment, tu peux (dois) faire passer cette base de données par la moulinette statistique afin de mieux savoir ce qu'elle contient. Si jamais tu comptes présenter ces résultats en externe, il faut juste être prudent et honnête dans les interprétations. Plutôt que de dire que "X % des entreprises font 100% de leur ca avec du libre", tu devrais dire "X % des entreprises de mon échantillon bien particulier font 100% de leur ca avec du libre". Mais je pense que tu sais ça.

Si tu souhaites faire une enquête sur l'utilisation des logiciels libres par les personnes privées et les entreprises, tu pourrais t'inspirer des enquêtes de l'INSEE sur l'utilisation des TIC dans les ménages et dans les entreprises. Si tu suis un peu leurs idées (et leur échantillonage) tu vas avoir des informations sur des personnes qui utilisent des logiciels libres et sur celles qui n'en utilisent pas. Tiens, ce serait intéressant de savoit si ces enquêtes.

Bon, je viens peut-être d'enfoncer des portes ouvertes ... ;-)
moron

Messages : 366

Qui est en ligne ?

Utilisateur(s) parcourant actuellement ce forum : Aucun utilisateur inscrit