jeudi 11 février - par Philippe Huysmans, Complotologue

Quand les statistiques de l’Insee bégaient

JPEG

On pourrait penser, un peu naïvement, que le prestigieux Institut National de la Statistique et des Études Économiques (Insee), qui se trouve être le fournisseur des statistiques économiques officielles en France est une administration qui n’occupe que des gens brillants et méticuleux. Des gens qui veulent que leurs données soient absolument irréprochables, puisqu’ils sont l’unique source officielle, notamment pour ce qui concerne les statistiques de décès. C’est à eux directement que vont les remontées individuelles des décès envoyés par les mairies de tout le pays.

Seulement voilà, quand on regarde les fichiers de près et qu’on se pose la question de savoir si, par hasard, il ne s’y cacherait pas l’un ou l’autre doublon, on tombe de l’armoire. Sur la période 1970-2020, soit 25.596.542 lignes au total, on trouve pas moins de 213.111 doublons.

Aux gens qui auraient eu le malheur de faire des études ou de rédiger des ouvrages en vous basant sur ces données sans au préalable les avoir sérieusement nettoyées, je dis que leurs travaux sont entachés d’erreurs à concurrence d’un peu moins de 1%.

Mais, me direz-vous, c’est tout simplement parce que l’Insee n’est pas au courant de ces erreurs, que ne les signalez-vous pas auprès d’eux afin qu’ils puissent les corriger !

Est un peu optimiste, ils savent pertinemment que leurs fichiers sont truffés d’erreurs et n’ont strictement rien fait pour les nettoyer de ce qui est clairement un gros paquet d’erreurs. Non, corriger viendrait à reconnaître qu’on a publié des données bancales durant les 50 dernières années en parfaite connaissance de cause.

Avec les outils informatiques actuels, il est aisé de rendre la saisie des doublons impossible en plaçant une contrainte sur une clé composite, ce qui suppose toutefois d’éliminer préalablement les doublons de la table.

De même on peut interdire facilement d’encoder des gens dont la date de décès est antérieure à leur naissance, je pense ? Or on en trouve quand même 80, parfois morts des décennies avant leur naissance.

Si vous voulez une preuve que l’Insee est bel et bien au courant de l’existence (en masse) de doublons dans ses listes, consultez donc le site matchID du ministère de l’Économie qui est l’organe de tutelle de l’Insee. 

Dans la section à propos, on y détaille l’origine des données, le nombre d’enregistrements et… le nombre de doublons qui ont été nettoyés par les bons soins des informaticiens du ministère : 159.595 en date du 10 février 2021.

Euh, minute, vous avez dit qu’il y en a 213.111, là on parle de 159.595, ça fait quand même une différence de 53.516, comment vous expliquez ça ?

Eh bien c’est très simple, même quand ils se sont mis en tête de supprimer les doublons, ils ont réussi à en louper 53.516. Ils sont très forts…

Comment ? Eh bien une ébauche de réponse se trouve tout de suite après, on parle de « doublons (stricts) ». Autrement dit, le gars qui a rédigé la requête s’est dit que ce serait une bonne idée d’inclure tous les champs dans le regroupement pour déterminer quels enregistrements sont des doublons. C’est évidemment une erreur grossière, l’idée étant de partir de la contrainte la plus lâche possible, sans toutefois qu’elle puisse générer des faux positifs.

Imaginons que l’on décide de considérer comme doublons deux lignes qui auraient respectivement le même patronyme, les mêmes prénoms dans le même ordre, la date de naissance et la date de décès. Ca a l’air d’une contrainte suffisante pour éviter les faux positifs, n’est-ce pas ? Il n’en est rien, prenons l’exemple suivant :

nomprenom sexe danaiss lieunaiss commnaiss paysnai datedc lieudc actedc
DJEDDI*HAYETTE/ 2 19400000 99352 BEJAIA ALGERIE 19981028 13055 000000008
DJEDDI*HAYETTE/ 2 19400000 99352 BEJAIA ALGERIE 19981028 13209 171 

Ces deux-là sont bien selon toute probabilité des personnes différentes, mais elles ont toutes deux une date de naissance incomplète (jour et mois inconnus) et un seul prénom. Du coup, l’efficacité de la contrainte s’effondre.

On va donc devoir considérer plus de champs dans cette contrainte. Et c’est là que les informaticiens de l’Insee on fait un très mauvais choix, comme nous le verrons. Moi j’ai ajouté le lieu de décès (qui est le code postal). Pourquoi ? Parce que celui-là est indiqué par la mairie. Les informaticiens du ministère ont, eux, ajouté le « numéro » d’acte de décès, qui n’est pas un numéro mais techniquement une chaîne de caractères, et très probablement aussi les autres champs (sexe, lieu de naissance, pays de naissance).

Et c’est là que les choses se gâtent, parce que c’est source d’erreurs, mais cette fois dans l’autre sens, leur application va passer à côté de tout un tas de doublons qui sont bien réels, prenons un exemple :

nomprenom sexe danaiss lieunaiss commnaiss paysnai datedc lieudc actedc
LIMOGES*REINE MELANIE LOUISE/ 2 19060801 34051 CANET   19931007 34172 2574 
LIMOGES*REINE MELANIE LOUISE/ 2 19060801 34051 CANET   19931007 34172  2574/ 
LIMOGES*REINE MELANIE LOUISE/ 2 19060801 34051 CANET   19931007 34172  2574 

Si on lance cette recherche sur le site de MatchID, on trouve bel et bien 3 enregistrements, alors qu’on parle bien d’une seule et même personne.

Vous voyez à la deuxième ligne, dans le champ actedc la barre oblique après le 2574 ? C’est interprété comme étant différent de 2574. Pire, ce que vous ne voyez pas, il y a un espace avant le 2574 dans les deux dernières lignes. Aucune n’est donc considérée comme strictement égale à aucune autre. Pas de doublon, c’est magique !

Donc non seulement prendre le champ actedc est une mauvaise idée, mais d’une manière générale, considérer une chaîne de caractère sans lui appliquer un Trim() pour retirer les blancs avant et après est très stupide.

Je pense que la contrainte sur les champs : nomprenoms, datenaiss, datedc, lieudc est nécessaire et suffisante, suffisante pour ne laisser passer aucun doublon et nécessaire pour ne pas déclarer doublon deux fiches qui seraient en réalité des personnes distinctes.

Ah, une dernière pour la route, le record du nombre de lignes identiques, c’est Mme Marie CABRE, née le 04/01/1909 à Loos-en-Gohelle et décédée le 23/07/1999. Elle s’y trouve pas moins de 40 fois. À elle seule elle représente un pic dans les statistiques de mortalité du mois de juillet 1999.



250 réactions


  • Docteur Faustroll Séraphin Lampion conspirologue 11 février 11:06

    Bonjour Philippe.

    Excellente démonstration.

    Mais faut-il s’étonner que l’INSEE bégaie à une époque où même les tilleuls mentent et les téléphones s’enfilent ?


    • Pic de la Mirandole Pic de la Mirandole 11 février 11:21

      @Séraphin Lampion conspirologue

      Et les morts... ito (étouffer en latin)

      Si les agents de l’INSEE buvaient il y aurait moins d’erreurs : vive l’alcool !


    • Docteur Faustroll Séraphin Lampion 11 février 11:59

      @Pic de la Mirandole

      C’est facile de se moquer !
      Heureusement que les Français font confiance à l’INSEE. Un sondage organisé par l’institut a montré que c’était le cas 75% des personnes interrogées, alors que les sceptiques comme vous ne sont que 63% !


    • @Séraphin Lampion conspirologue

      Excellent, Séraphin, comme d’habitude smiley


    • doctorix, complotiste doctorix, complotiste 12 février 19:04

      @Philippe Huysmans, Complotologue
      Un troisième épisode de « Absolute proof » vient d’être doublé.
      C’est passionnant.
      Quand on en sera au 6 ou 7/8, vous verrez la bombe totale, avec chaque comté de chaque état trafiqué à distance, avec le serveur étranger utilisé, le site cible, l’heure de la modification, le résultat en milliers ou dizaines de milliers de voix volées sur chaque comté (j’ai vu l’original).
      Tout a été prévu, surveillé, enregistré par les services de cyberguerre et l’intelligence de l’armée.
      Tout ça va sortir de la boite. N’en doutez plus, et souriez (enfin, pas gollum)...
      Donc voici les trois premiers :
      https://infovf.com/video/documentaire-preuve-absolue-partie—5040.

      htmlhttps://infovf.com/video/documentaire-preuve-absolue-partie—5045.html

      https://infovf.com/video/documentaire-preuve-absolue-partie—5061.html


    • doctorix, complotiste doctorix, complotiste 12 février 19:22

      Quand il était plus jeune, Trump a dit, dans une interview :
      « J’aimerais un jour tout perdre, désespérément, et compter alors ceux qui sont fidèles et ceux qui trahissent.
      On croit connaitre les gens, jusqu’à ce qu’arrive l’adversité : et ce n’est que là qu’on peut compter ses amis ».
      Eh bien c’est ce que fait Trump depuis ces derniers mois. Il note toutes les trahisons, tous les mensonges.
      Et malheur à ceux qui l’auront trahi. Malheur à ceux qui trahissent l’Amérique. Malheur aux media, qui vont tous tomber dans le ridicule et la disgrâce.
      Il fait exactement ce qu’il avait dit.
      Et vous le verrez tous bientôt.
      RV ce soi sur lesdeqodeurs.fr.


    • doctorix, complotiste doctorix, complotiste 12 février 19:48

      Vaccinez-vous si vous voulez.
      Mais avant, lisez ça :
      https://infovf.com/video/2021-020-avertissement-lee-merrit-sur-les-vaccins-arnm—5062.html
      Il est possible que vous introduisiez dans votre corps une bombe a retardement.
      Elle pourra être déclenchée dans trois mois ou dans deux ans par l’apparition « opportune » d’un autre virus qui vous tuera sur commande.
      C’est possiblement une arme de guerre, une arme de meurtre massif.
      Vous n’avez aucun doute ? Alors prenez le risque, pour une maladie qui ne tue qu’à 0,05% (une fois sur 2000).
      Mais ce sera sans moi.


    • doctorix, complotiste doctorix, complotiste 12 février 20:09

      Aux USA, le pic de « cas » a été atteint le 2 Janvier, avec 300.282 cas.
      Mais après, le nombre de « cas » a chuté de 50% début Février.
      Biden, le messie guérisseur miraculeux ?
      Point du tout : on a juste baissé le TC. On l’avait maintenu élevé pour montrer la mauvaise gestion de Trump.
      Parallèlement, en Allemagne, où Merkel avait besoin de « cas » pour vendre son vaccin, on a poussé le TC du PCR jusqu’au niveau Français, sans doute à 45.
      Et les cas ont augmenté.
      La Science est morte, vive la Politique.
      C’est là, à 4’30" :

      https://infovf.com/video/rdls-baisse-covid-claus-schwab-coup-etat-birmanie-affaire-duhamel-trump-controle—4693.html


    • Passante Passante 12 février 20:11

      @doctorix, complotiste

      btw doctorix, j’ai une chaîne youtube pour vous :
      https://www.youtube.com/channel/UCtff99XRBjWwxPb-DHegiOw


    • doctorix, complotiste doctorix, complotiste 12 février 20:59

      @Passante
      Je comprends mal l’anglais.... Merci quand même.
      Mes sources sont ici :
      https://infovf.com/


    • doctorix, complotiste doctorix, complotiste 13 février 08:14

      L’herbe à pic, une plante de guadeloupe, est efficace contre le virus.
      https://www.youtube.com/watch?v=HLFpQRZUbQI&feature=emb_title

      Encore un produit naturel qui sera rejeté par la "communauté scientifique. Un produit que l’on doit à nos anciens esclaves, qui s’étaient vus retirer le droit d’utiliser les plantes... Un comble...
      D’autre part, l’administration met des bâtons dans les roues de l’Institut Pasteur de Lille qui travaille pour mettre en valeur une molécule ancienne (comme l’HCQ ou l’ivermectine, mais d’un autre type pour l’instant non révélé).
      C’est entièrement financé par Bernard Arnault (5 millions), mais ça ne convient pas à nos bureaucrates :
      https://urlz.fr/eUFa
      Commencent à faire chier avec leur putain de vaccin dont personne (de raisonnable) ne veut....


    • doctorix, complotiste doctorix, complotiste 13 février 13:07

      Le département de la défense tweete :
      « Le calme avant la tempête ». Effacé depuis, mais...
      A un journaliste qui a parié avec un ami une bouteille de vin sur la victoire de Trump et qui lui demande s’il doit la lui donner, Mike Flynn répond : ne lui donne pas.
      Je rappelle que les paris sur la victoire de biden ou de trump ne seront honorés que le 5 Mars.
      Ce sont des indices, mais il ne faut pas s’attendre à ce qu’on nous donne des dates : c’est un plan militaire.
      Sur le terrain de golf, à un journaliste qui remercie Trump pour tout ce qu’il a fait, il lance « I’ve not finished ».
      Et moi, je le crois.
      Voir ici Cossette : https://urlz.fr/eUJC


    • doctorix, complotiste doctorix, complotiste 13 février 14:07

      Les trolls ne sont pas sur mon dos : étonnant !
      Alexis nous dit qu’ils sentent le roussi, et qu’il faut être gentil avec eux, parce qu’ils vont morfler sévère d’ici peu, et qu’ils commencent à le comprendre.
       Surtout avec la vidéo ci-dessus, qui ne laisse guère de doute, à 18 minutes.
      C’est vrai que si ça a été dur pour moi depuis trois mois, ça va être encore plus dur pour eux, et pour bien plus longtemps...
      J’ai le même problème avec mes proches.
      Sans préparation, c’est sur que ça va être un choc...
      J’aurai pourtant fait ce que je pouvais pour l’adoucir...


  • Mond Mond 11 février 11:11

    Incroyable !

    Les données brutes contiennent un petit nombre d’erreur.

    Merci pour le scoop


    • sirocco sirocco 11 février 15:26

      @Mond

      « Les données brutes contiennent un petit nombre d’erreur. »

      Voici quelques chiffres pour étayer votre ironie.

       
      Selon l’INSEE, l’augmentation de la population en France par rapport à l’année précédente a été :
      en 2015 de + 205 268 personnes
      en 2016 de + 189 775 personnes
      en 2017 de + 163 279 personnes
      en 2018 de + 148 942 personnes
      en 2019 de + 141 000 personnes
      avec, en 2017, 2018, 2019, un « solde migratoire » évalué chaque année à + 46 000 personnes.

       
      Quand j’ai lu ça, mon sang n’a fait qu’un tour et j’ai comparé ces chiffres à ceux du ministère des Affaires étrangères (au temps pas si lointain où il les communiquait encore) concernant le nombre de visas accordés par nos consulats, permettant aux migrants de venir « en règle ».
      aux Algériens : 388 964 visas en 2018 
       id  : 274 421 visas en 2019
      aux Marocains : 346 023 visas en 2019
      aux Tunisiens : 145 846 visas en 2019
      soit 766 299 visas accordés en 2019 aux seuls 3 pays du Maghreb.
      Auxquels il faut ajouter bien sûr : tous les visas, très nombreux eux aussi comme vous le savez si vous circulez dans certains arrondissements de Paris (« 2ème ville du Mali après Bamako »...), accordés aux pays africains sub-sahariens. Ainsi qu’aux migrants en provenance d’Europe de l’Est, du Moyen-Orient et d’Asie. Sans oublier ceux qui viennent de Roumanie, de Bulgarie... et tous les clandestins qui viennent surtout en voiture, voire à pied (un minuscule sentier dans les Alpes voit passer à lui tout seul plus de 12 000 migrants par an !)

       
      Il semblerait donc que l’immense majorité des 766 299 Maghrébins qui sont venus légalement en France en 2019 n’aient pas entendu parler de nos aides sociales (une carte bancaire permettant de retirer 40 € par jour, soit 1200 € par mois aux frais du contribuable, est remise à chaque demandeur d’asile...) et soient rentrés chez eux comme de braves touristes !!... pour coller avec l’augmentation officielle de la population de 141 000 personnes...

       
      Soyons un peu sérieux. Il ne fait guère de doutes que l’INSEE trafique massivement ses données dans tous les domaines « sensibles » et sur tous les sujets qui fâchent (dont l’épidémie de Covid-19 bien sûr).

       
      Pour revenir aux statistiques sur la population, quand Macron déplore qu’il y ait « 66 millions de procureurs » en France, ils se fout de la g..... du monde comme d’habitude. Il se serait plus rapproché de la réalité s’il avait parlé de 75 millions...


    • @sirocco

      Clairement, si les autorités donnaient les chiffres réels de l’immigration et de ce que ça coûte à l’État sous forme de subventions et d’aides en tout genre, ils se retrouveraient avec une révolution sur les bras en une semaine.

      D’où la difficulté d’évaluer les véritables flux migratoires qui pourtant modifient grandement les données relatives à la population.

      Accessoirement, les 3 millions de vaccins commandés en trop, c’est pas pour vacciner nos clebs, eh.


    • doctorix, complotiste doctorix, complotiste 11 février 19:23

      @Philippe Huysmans, Complotologue
      Il n’y a pas que les erreurs factuelles, que tu as bien prouvées, bien qu’on n’en sache pas le nombre, par définition.
      Il y a aussi les évaluations tendancieuses.
      Par exemple, on a compté les morts à partir du 1er Mars, début de la surmortalité et du pic épidémique.
      Mais il y avait une sous mortalité les deux premiers mois de 2020, qui aurait atténué ce chiffre.
      Les autres années, les pics de surmortalité étaient plutôt en Janvier Février.
      Alors on a fait des courbes qui commençaient toutes au premier mars.
      Evidemment, ça dépassait : on comparait un pic avec des périodes calmes.
      Et puis on a évité de montrer les chiffres de 2017, qui était une mauvaise année .
      2018 et 2019 étaient des années calmes, où on est mort moins qu’on aurait du, avec des faibles épidémies : ces rescapés se sont concentrés en 2020, qui était une année moisson.
      Année-moisson a deux sens : on meurt peu pendant une période, et on se rattrape après. C’est le cas de 2020 par rapport à 2018 2019.
      Ou bien un événement fortuit augmente la mortalité brutalement (canicule), puis la mortalité baisse beaucoup, les gens étant juste morts un peu trop tôt. Le premier sens me parait plus juste : on moissonne après les semailles...


    • Captain Marlo Captain Marlo 12 février 19:18

      @Philippe Huysmans, Complotologue
      Clairement, si les autorités donnaient les chiffres réels de l’immigration et de ce que ça coûte à l’État sous forme de subventions et d’aides en tout genre, ils se retrouveraient avec une révolution sur les bras en une semaine.

      ça coûte...un bras ! 50 milliards environ chaque année.
      Ecoutez Charles Prats, magistrat antifraude !
      Il explique qu’il y a plusieurs millions d’assurés sociaux de plus que de Français.


    • @Captain Marlo

      Oui, je sais, Marlo, t’inquiète. Pareil en Belgique d’ailleurs. On se fout bien de notre gueule. On laisse crever de faim les étudiants dans une précarité inimaginable mais on trouve miraculeusement des logements douillets et des subventions pour les illégaux...


    • reptile KOU-PEU-LA 12 février 19:51

      @Captain Marlo

      c’ est bien pourca qu’ il ne faut pas jeter le Bebe UPR , avec l’ eau du bain ( FA)
      je pense sincerement que vous avez votre place dans CNR natioanl et souverainiste ...

      meme le coté temoin de johova est pardonable car vous n’ etes pas malveillant .

      20 signalement de michalac pour harcelement aujourdhui smiley


  • Bendidon ... voila l'Ankou ! Bendidon 11 février 11:28

    Super article sur cette usine à gaz appelée INSEE

    Ya un simplet un peu nono qui doit être vert de rage LOL MDR

     smiley


  • devphil30 devphil30 11 février 11:32

    Ils ne savent même par faire une requête SQL et faire des controles de données

    Pour des statisticiens c’est pathétique


    • @devphil30

      Ils ne savent même par faire une requête SQL et faire des controles de données. Pour des statisticiens c’est pathétique

      Je crois qu’ils sauraient... Mais ça supposerait de reconnaître l’ampleur des erreurs accumulées.


    • Pic de la Mirandole Pic de la Mirandole 11 février 12:45

      @Philippe Huysmans, Complotologue

      La FRANCE est une erreur accumulée.


    • @Pic de la Mirandole

      La FRANCE est une erreur accumulée.

      Je n’irais pas jusque là, mais disons que la centralisation effrénée et une administration aussi pléthorique que peu motivée n’est sans doute pas la meilleure voie vers l’efficacité. Et cela encourage les mauvaises habitudes en termes de transparence.


    • Aristide Aristide 11 février 12:53

      @devphil30

      La suffisance sans limite !!! 


    • @Aristide

      Qu’ils sachent ou pas manipuler correctement les données via SQL n’est qu’une question rhétorique, le fait est qu’ils ont laissé s’accumuler des centaines de milliers de doublons depuis 50 ans, et qu’ils n’ont jamais pris la peine de les corriger alors qu’ils étaient parfaitement au courant.


    • Aristide Aristide 11 février 13:14

      @Philippe Huysmans, Complotologue

      Heureusement que vous êtes là pour rétablir la vérité vraie !!!
       


    • roby roby 11 février 18:14

      @Pic de la Mirandole

      Et cela ne vas en s’arrangeant ...


    • doctorix, complotiste doctorix, complotiste 11 février 19:29

      @Aristide
      Et c’est vous qui parlez de suffisance ?
      Citation : 
      « Sa suffisance n’avait d’égale que son insuffisance ».


    • devphil30 devphil30 12 février 05:40

      @Aristide

      La connaissance me suffit

      N"est pas brillant tous les Aristides ....


  • Olivier 11 février 12:45

    Le problème fondamental, c’est qu’il n’existe pas en France de fichier universel des personnes à base biométrique, ce qui fait qu’une multitude d’étrangers se font donner des identités en nombre sur la base de simples photocopies de documents d’identité de leur pays. A partir de là on devine la suite, c’est la course aux allocations sociales.

    Mais puisque les français sont contents de payer, pas de raison de se gêner...


    • @Olivier

      ce qui fait qu’une multitude d’étrangers se font donner des identités en nombre sur la base de simples photocopies de documents d’identité de leur pays


      Je ne vois pas en quoi un passeport biométrique empêcherait ce genre de fraude. Non, la folie c’est d’accueillir chaque année des centaines de milliers de réfugiés économiques qui ne parlent pas le français et qui pour l’immense majorité d’entre-eux n’ont strictement aucune qualification.

      Et en effet, vous payez pour ça, très cher même.


    • roby roby 11 février 18:17

      @Philippe Huysmans, Complotologue
      Bientôt comme le prédisait le chialeur de Lyon -le face a face-


  • eau-pression eau-pression 11 février 13:28

    Bonjour Philippe

    Pour avoir travaillé avec des gens de l’Insee il y a plus de 10 ans, je peux confirmer que l’école de Rennes enseignait alors des rudiments de sql aux futurs « attachés » que ceux-ci se dépêchaient d’oublier, le maniement Wysywyg de leur tableur leur semblant suffisant au quotidien.

    La formation des administrateurs fait-elle mieux sur le plan informatique ? Je subodore qu’on leur donne des objectifs plus « nobles », qu’on les incite à considérer ces histoires de saisie-stockage d’informations comme subalternes, indignes d’eux.

    On peut chercher dans les mesquineries du quotidien la cause de la mauvaise qualité des données mises à disposition du public. Carriérisme, effet « cliquet », je-m’en-foutisme, peur des responsabilités, etc.

    Ca n’empêche de considérer qu’au final le public perd l’accès aux données auxquels il a droit, et qu’on imagine sans mal que ceux qui ont compris le pouvoir des données se réjouissent de cet état de fait.

    Il faudrait prendre à zéro le raisonnement : disposer des données sur l’ensemble de la population permettrait d’affecter les ressources communes selon des critères ouverts ... Je ne me lance pas sur le sujet pour l’instant.

    Il y a des constats très simples à diffuser : le RNIPP n’est pas disponible à tous alors qu’il est essentiellement constituée à partir des registres publics d’état civil. Serait-il dangereux que tout un chacun bénéficie directement de la puissance de l’informatique ? Faudrait voir comment s’y prennent les généalogistes.

    Je t’ai causé régulièrement de reconstituer les états-civils des communes (au moins la partie décès) à partir des fichiers que tu viens de récupérer. Voici pourquoi.

    Il semble que la responsabilité de enregistrements et sauvegarde des actes d’état-civil soit encore du domaine local, et elle pourrait très bien le rester. Il suffirait pour maintenir la cohérence nationale d’organiser un flux de données des mairies vers les abonnés (Insee et autres), dans lequel seraient envoyés les nouveaux enregistrements, les errata, et en retour duquel on pourrait demander des validations. En ajoutant un inventaire annuel (renvoi du registre communal complet) pour sécuriser le tout, on moderniserait l’état-civil sans le centraliser.


    • @eau-pression

      Tu apportes pas mal de points sur le tapis...

      Je crois que la formation (ENSAI) par exemple est très poussée dans les hautes écoles française. J’ai lu également des documents relatant quellles étaient les procédure de recrutement à l’Insee, c’était pas de la rigolade, à une époque. Je ne sais pas ce qu’il en est à l’heure actuelle.

      Mais une chose est sûre, un informaticien n’est pas un statisticien et vice-versa. La responsabilité de l’intégrité des données et de la validation devrait être laissée à des gens dont c’est le métier. On s’en fiche que les statisticiens soient des brêles en Sql,

      J’ai constaté personnellement que pour des gens dont ce n’est pas le métier, ces informations rentrent par une oreille et sortent par l’autre. Il convient d’une part de renouveller ces formations régulièrement et d’autre part de fournir aux gens chargés d’exploiter les données des outils leur permettant de réaliser aisément les requêtes simples. Excel est très insuffisant pour des sets de données aussi gros.

      Il me paraît clair que lorsque tu as 40 fois le même décès pour une même personne sur la même journée, ce n’est pas à la commune qu’il faut en faire le reproche. Les décès étaient remplis à raison d’un par ligne sur un formulaire qui était ensuite visé par le maire et signé avant d’être envoyé à l’Insee / Nantes.

      Quand tu parles de réconcilier les données, je pense que tu as les yeux plus grands que le ventre, il n’existe rien qui permette, comme en compta, de maintenir exactement la démographie (naissances, flux migratoires) en équilibre avec les décès et les flux inverses.

      Tout d’abord parce que cela obligerait le gouvernement à donner les vrais chiffres de l’immigration...

      Ensuite on parle d’un pays énorme et de 67 milions d’habitants, j’imagine que ce serait plus facile pour le Vatican, surtout point de vue naissances.

      En finale peu importe qui détient le certificat original de décès avec le cacheton du médecin, pour peu que les données soient transmises correctement et gérées correctement par les récipiendaires (Insee, Ministère...)


    • eau-pression eau-pression 11 février 14:02

      @Philippe Huysmans, Complotologue

      Puisque ces histoires techniques ont un impact politique, je redis :
      laisser aux communes la responsabilité de l’état-civil local et disposer simultanément (avec un décalage d’un jour) d’un état-civil national conforme à ce qui est enregistré dans les mairies est possible.

      Pour les « ingénieurs » (gens de la technique) dans les différents corps d’état, il y a toujours deux niveaux de recrutement et de formation : un qui prépare aux tâches opérationnelles, un autre plus orienté vers la spéculation.

      Pour revenir au sql, comme maintes fois évoqué à propos de la covid, il est commode de travailler en langage R pour faire du travail statistique. Je ne me souviens plus du nom des outils utilisés à l’Insee, mais on retrouve les mêmes en biologie.


    • @eau-pression

      Pour revenir au sql, comme maintes fois évoqué à propos de la covid, il est commode de travailler en langage R pour faire du travail statistique. Je ne me souviens plus du nom des outils utilisés à l’Insee, mais on retrouve les mêmes en biologie.


      À l’Insee ils utilisent entre-autres le Sql et R. Mais autant que j’ai compris, pour faire ce genre de requête en R sur 25 millions de ligne, faut une journée de 36h smiley


    • eau-pression eau-pression 11 février 19:05

      @Philippe Huysmans, Complotologue

      Je vois aux moinssages que les arguments que j’ai donnés en faveur d’un état-civil réparti dans les mairies ne plaisent pas.
      Pour ceux qui ne sauraient pas compter, 25 millions de lignes à 80 caractères ça fait dans les 2Go, soit la taille d’un film.

      Pour ce qui est du R, j’avais été bluffé du temps où je manipulais des ensembles de données plus importants que ces 2Go par sa vitesse.
      Faudrait que G.Fraiteur nous donne son avis.

      Ma foi, si personne ne comprend que la saisie, le stockage et les traitements des données doivent être le plus transparents possibles, je quitte la partie.

      Continuez à vous demander combien de gens profitent de l’opacité du système tout en prônant que seuls les informaticiens manipulent les données. Y’a pas que des Huysmans rebelles dans le sérail informatique.


    • @eau-pression

      Je vois aux moinssages que les arguments que j’ai donnés en faveur d’un état-civil réparti dans les mairies ne plaisent pas. Pour ceux qui ne sauraient pas compter, 25 millions de lignes à 80 caractères ça fait dans les 2Go, soit la taille d’un film.


      Te tracasse pas trop pour les étoiles. En pratique le fichier pèse 3GB sans index, presque 8GB avec.

      Pour ce qui est du R, j’avais été bluffé du temps où je manipulais des ensembles de données plus importants que ces 2Go par sa vitesse.


      Tout dépend de la requête j’imagine.

      Ma foi, si personne ne comprend que la saisie, le stockage et les traitements des données doivent être le plus transparents possibles, je quitte la partie.


      Cela n’est pas entre nos mains, que je sache ? Qui fixe tout ça ? L’État, qui donne ensuite ses instructions à l’Insee. Je suis certainement pour la transparence, mais je comprends aussi qu’il y a toujours des données qui vont nous manquer pour réconcilier la demographie générale avec les décès... 

      Continuez à vous demander combien de gens profitent de l’opacité du système tout en prônant que seuls les informaticiens manipulent les données. Y’a pas que des Huysmans rebelles dans le sérail informatique.


      Ca à vrai dire on n’en sait rien, donc je ne prendrais pas position là-dessus. Il y a probablement plein de braves petits gars compétents à l’Insee


    • doctorix, complotiste doctorix, complotiste 11 février 19:39

      @Philippe Huysmans, Complotologue
      J’ai trouvé la solution !
      Il faut pucer tout le monde, comme les chiens !!
      Ah ! C’est en cours ? 
      Ah bon...
      Bon, on pourrait peut-être pucer tous ceux qui entrent en France, pour commencer...
      Ce n’est pas du racisme, c’est un principe de précaution.
      Payer une fois, c’est déjà cher, mais plusieurs fois, c’est trop.


    • @doctorix, complotiste

      Ce n’est pas du racisme, c’est un principe de précaution.
      Payer une fois, c’est déjà cher, mais plusieurs fois, c’est trop.

      Assez d’accord là-dessus.

      J’ai répondu à ton mail, tu l’as vu ?


    • doctorix, complotiste doctorix, complotiste 11 février 20:05

      @Philippe Huysmans, Complotologue

      Ben oui, puisque je suis là...


    • @doctorix, complotiste

      Farpait smiley


  • binary 11 février 13:48

    Il manque juste un nombre à cet exposé :

    Budget personnel de l INSEE  : 371.6 millions d euro

    Pas moyen d embaucher un comptable avec un CAP valide.

    https://www.insee.fr/fr/information/1892112


    • @binary

      Budget personnel de l INSEE : 371.6 millions d euro


      Oui, et très probablement mangé par le top 500 des directeurs tandis que les petites mains, ceux qui travaillent, sont payés au lance-pierres.

      Mais ça n’est pas spécifique à l’Insee, ni à la France d’ailleurs, on a ce qu’il faut par ici aussi quand on parle de parasites payés grassement sur le dos du contribuable.


    • eau-pression eau-pression 11 février 14:05

      @Philippe Huysmans, Complotologue

      A propos, la rémunération d’un enquêteur libéral auquel l’Insee sous-traite la collecte des données est inférieure au smic (sauf si la personne remplit les questionnaires au café du coin sans se préoccuper de la réalité).


    • @eau-pression

      A propos, la rémunération d’un enquêteur libéral auquel l’Insee sous-traite la collecte des données est inférieure au smic (sauf si la personne remplit les questionnaires au café du coin sans se préoccuper de la réalité).


      Ben c’est ça le libéralisme mondialisé (et des bisous pour tout le monde).

      smiley


    • binary 11 février 14:16

      @Philippe Huysmans, Complotologue
      C est des fonctionnaires, personne n est responsable de rien. Ils ont un titre, un salaire, mais pas d objectifs


    • eau-pression eau-pression 12 février 09:59

      Salut @Philippe Huysmans, Complotologue

      Poursuite de mon monologue. Après tout, ceux qui connaissent un peu ont droit de parler comme les autres.

      Si on veut comprendre ce qu’est le jacobinisme, il y a une expérience simple à faire. Accompagner un enquêteur vers la réalité. Et une étude psychologique : comprendre la relation entre l’enquêteur et celui auquel il remonte ses questionnaires. Un livre à écrire ... comment faire bref ?

      Les questions du formulaire sont rédigées « d’en haut ». Je ne dis pas que ce sont des gens qui ignorent la réalité interrogée qui les rédigent, mais rédiger un formulaire c’est formaliser une activité professionnelle ou personnelle, donc forcément simplifier, caricaturer. On a beau connaître, c’est une vision schématique de la réalité qu’on se contraint (ou se complait) à exprimer dans les cases de papier.

      Le jacobin adore amputer la réalité. Chargé d’enquêtes ou enquêteur, il prend un plaisir souvent sadique à voir le territoire (au sens large) couvert par l’enquête remonter en mille brisures pas toujours représentatives. L’important pour lui est que la réalité rentre dans un moule, supposé fécond de bonnes décisions. Et la loi des grands nombres l’absouds d’avance de ses erreurs.

      L’individu plus sensible, souvent un enquêteur (rares sont les corrrespondants Insee que l’expérience n’a blasé), se heurte en permanence à des scrupules sans fin, dès que la question qu’il pose, juste en face de la case à remplir, n’est pas exactement pertinente, voire totalement inadaptée. Du temps du manuscript, il ajoutait souvent un commentaire dans lequel il transmettait le probème pour arbitrage.

      Il va sans dire que la règle du jeu est truquée par le principe même des statistiques : l’esprit jacobin triomphe. De toutes façons, il est au service de son maître, dont il sait bien qu’il attend de lui, simple interprète de la réalité, qu’il confirme sa vision des choses et les choix déjà faits.

      En quoi l’informatique pourrait-elle remettre en cause la domination jacobine ? Attention, utopie à venir. Il s’agirait de réunir le système marchand et la statistique publique. Chacun, individu ou stucture de production, lançant sur un dispositif sans maître son offre de service et le prix qu’il est prêt à payer le service des autres, jusqu’à atteindre les valeurs d’équilibre, quand la réponse anonyme des autres lui convient.

      Voilà un vrai job pour informaticien !


  • xana 11 février 13:56

    Bravo Philippe. Ces erreurs sont des conneries, mais la suffisance administrative empêche de les corriger.

    Et quand les données ne sont pas sûres, même à quelques pourcent près, n’importe quel connard (tu vois qui je veux dire) peut se permettre d’ergoter sans fin sur la moindre analyse, histoire de déconsidérer l’auteur et le but de cette analyse.

    J’aimerais voir la tête de Nono, ses joues doivent être aussi rouges que ses fesses...


    • @xana

      Bravo Philippe. Ces erreurs sont des conneries, mais la suffisance administrative empêche de les corriger.


      Merci Xana, comme tu dis, si ce n’était qu’une erreur, et qu’il y avait ne serait-ce qu’une once d’honnêteté, ce serait corrigé depuis belle lurette.

      n’importe quel connard (tu vois qui je veux dire) peut se permettre d’ergoter sans fin sur la moindre analyse, histoire de déconsidérer l’auteur et le but de cette analyse.

      Pipile aurait été mieux inspiré de ne pas verser dans l’outrance, parce qu’en finale, c’est précisément la raison pour laquelle j’en ai fait un article. Alors facile de faire effacer des commentaires (ce qu’il avait fait), mais pour effacer mon article et les commentaires qu’il y a en-dessous, ça risque d’être un peu plus compliqué.

      J’aimerais voir la tête de Nono, ses joues doivent être aussi rouges que ses fesses...


      Nono n’était pas particulièrement partie prenante dans cette discussion bien que nous connaissons tous sa propension à défendre en tout temps l’excellence des données de l’Insee (lol). Alors effectivement il doit être un peu contrarié, pour dire le moins.

      Ceci dit au moment où je publiais mon article pemile était encore là avec ses délires, mais depuis qu’il est en effet en ligne, plus de trace ni de nono ni de pemile smiley


  • Legestr glaz Legestr glaz 11 février 14:11

    Ah, les chiffres, les statistiques !

    Extrait d’une courte vidéo que je n’arrive pas à capturer. 

    La peur des chiffres


    D’abord il y a eu le chiffre des morts.

    Puis, les morts diminuant, il a fallu trouver d’autres chiffres : les réanimations.

    Puis, le chiffre des réanimations diminuant, il a fallu trouver d’autres chiffres : les hospitalisations.

    Puis, le chiffre des hospitalisations diminuant, il a fallu trouver d’autres chiffres : le nombre de cas positifs. Il s’agit de gens pas malades qui ont côtoyé le virus.

    Puis on y a intégré les « cas contact ».

    Puis, ceci ne suffisant plus à faire peur, le « variant » est apparu. Puis le virus « mutant ». Puis le « virus mutant hyper contagieux », puis le « virus mutant hyper contagieux hors de contrôle ».


    Mais la réalité c’est quoi ?


    En France 99,965 % des contaminés ont survécu !

    En Angleterre 99,972 % des contaminés ont survécu !

    En Italie 99,957 % des contaminés ont survécu !

    Aux USA 99,983 % des contaminés ont survécu !


    Ainsi, en France, 0,035% des personnes contaminées sont mortes du virus. Et encore, le plus souvent, il s’agissait de personnes souffrant de lourdes pathologies. Ces chiffres ne sont jamais communiqués !


    Quel est l’intérêt de faire peur à toute une population ? Quel est l’intérêt d’une présentation tronquée des chiffres ? 

    La suppression des libertés individuelles ?

    Une surveillance généralisée ? 

    Une injection pharmacologique ?

    La grande réinitialisation ?

    Le passage forcé à la 4ème Révolution industrielle ? 

    La protection des Peuples ? 



    Biffer la mention inutile. 



    • doctorix, complotiste doctorix, complotiste 11 février 19:45

      @Legestr glaz
      Il suffit de demander :

      https://infovf.com/video/gouverner-par-peur-des-chiffres—5037.html

      Sur la peur, j’avais écrit ça quelque part :

      Donc maintenant, il est interdit de parler des vaccins : blasphème !!! Parce qu’évidemment on n’en parle que pour en dire du mal, puisqu’ils sont mauvais.
      Depuis toujours, nous avions les religions. C’était bien commode.
      Les gaulois, par toutatis, avaient peur que le ciel leur tombe sur la tête.
      Les religions ont créé la peur de l’enfer.
      Donc il fallait obéir ou risquer d’y bruler dans ses flammes.
      Puis, la foi s’est émoussée. C’était pourtant commode : les arabes à quatre pattes 5 fois par jour, les catholiques à genoux...
      Alors on a inventé la religion du terrorisme. 9/11, Patriot Act, et début de la fin des libertés et des doits civiques.
      Et puis là aussi, ça s’est effrité : benladen dans sa grotte, ça ne prenait plus trop.
      Alors on a inventé la religion du CO2 : ça c’est au poil : c’est mondial, tout les hommes ont peur, tous sont coupables, et tous ils doivent payer.
      Maintenant, c’est la religion du covid et de son vaccin : tous en taule à la maison et tout le monde est prié de crever de trouille.
      Fin de toutes les libertés, y-compris celle de respirer.
      Est-ce que les hommes vont enfin comprendre, cette fois, à quel point on se fout de leur gueule ?


  • velosolex velosolex 11 février 14:27

    Etonnant. A quand une aventure de Jack Palmer à l’insee ?

    J’ai pensé au livre de Gogol, « les âmes mortes », des morts qu’un escroc récupèrent pour récupérer l’impôt foncier payé par l’état. 

    Si ces chiffres sont foireux, quels possibilités cela offre pour les escrocs dans d’autres domaines, sécu, retraites... ?


    • @velosolex

      Si ces chiffres sont foireux, quels possibilités cela offre pour les escrocs dans d’autres domaines, sécu, retraites... ?


      Une bonne question, que tu poses-là. L’initiative MatchID a d’ailleurs été créée précisément dans le but d’éviter certains abus, en matière de permis de conduire puisque quand tu meurs, ton permis n’est pas invalidé smiley


  • Sozenz 11 février 15:15

    y a t il une possibilité d y avoir la naissance de deux enfants qui pourrait avoir le meme nom ,meme prenom qui puisse naitre au meme endroit le même jour ;

    s il y a une possibilité meme une seule que cela soit possible  ; alors il faut ajouter un autre paramètre ;

    par contre qu’ il puisse y avoir deux memes nombre sur un acte et sur deux personnes différentes là ce n est pas possible ; donc il faut juste contraindre à un format ; que des chiffres et un nombre précis ( exemple 5 cases qui seront remplis par des 0 au debut si incomplet .

    5 chiffres nombre 254 => 00254


    • @Sozenz

      y a t il une possibilité d y avoir la naissance de deux enfants qui pourrait avoir le meme nom ,meme prenom qui puisse naitre au meme endroit le même jour ;

      Bien sûr que non ! La commune refusera d’enregistrer des parfaits homonymes nés le même jour sinon elle sera infoutue de savoir ultérieurement qui est qui.

      5 chiffres nombre 254 => 00254

      Le « numéro » d’acte de décès c’est 9 caractères et pas forcément des chiffres, du coup c’est le souk. Certains le complètent comme vous l’avez proposé, d’autres pas, on trouve des espaces avant, après, vraiment un champ à éviter de placer en contrainte.


    • Sozenz 11 février 16:57

      @Philippe Huysmans, Complotologue
      Bien sûr que non ! La commune refusera d’enregistrer des parfaits homonymes nés le même jour sinon elle sera infoutue de savoir ultérieurement qui est qui.

      ah ... ! punaise faut surtout pas que deux dupont accouchent en meme temps et veulent appeler leur enfant de la meme façon .
      ils vont itrer à la courte paille pour savoir qui a le droit d appeler son mome comme il veut ?
      je sais que c est peut probable ; mais il faut toujours concevoir l improbable parce qu’ il y a toujours des cons a la vue basse qui se poseront pendant des heures des questions et seraient capables d emmener d autres personnes en procès comme des cretins au lieu de faire simple .

      Le « numéro » d’acte de décès c’est 9 caractères et pas forcément des chiffres, du coup c’est le souk.

      non , faut juste normaliser .
      faut arreter d être con à un moment .


    • Sozenz 11 février 17:05

      @Sozenz
      au pire aujourd hui , il y a les empreintes genetiques en cas de gros problème .demander aussi de rajouter un prénom ;
      donc oui il peut y avoir un problème en judirique par la suite si deux personnes avec des noms identique ; mais rien est insurmontable ; surtout à l heure actuelle .


    • Sozenz 11 février 17:25

      @Sozenz
      pour l ecodage ; mettre un code hopital naissance ( ou autre lieux ce qui diffirencierait deux personnes qui naissances dans la meme ville qui ont le meme nom mais ne sont pas nés exactement au mème endroit ; ) ( on a bien notre code compte avec le code banque + xx + clé + et un code lieu décès. on rajoute la variable date lieux décès dans le cas ou la personnes décédrait . on garderait ainsi la trace du début jusqu’ à la fin avec la possibilité donc de remonter facilement à une personne pour qui on l aurait inscrite comme personne morte alors qu’ elle est encore en vie . et vis versa


    • @Sozenz

      ils vont itrer à la courte paille pour savoir qui a le droit d appeler son mome comme il veut ?


      Plus simple, le premier sera retenu, pour l’autre ça ne passera pas, mais alors pas du tout. Notez qu’on parle bien de l’identité de tous les prénoms dans l’ordre...

      non , faut juste normaliser. faut arreter d être con à un moment .


      Ca c’est à l’Insee qu’il faut l’expliquer, je vous souhaite bon courage smiley


    • @Sozenz

      au pire aujourd hui , il y a les empreintes genetiques en cas de gros problème


      Non la loi ne permet pas d’utiliser des prélèvements ADN pour identifier des citoyens lambda. Et heureusement !

      demander aussi de rajouter un prénom ;


      Oui mais ça restera la m... parce que la plupart des entreprises ne retiennent que le premier.

      mais rien est insurmontable


      C’est juste, encore faudrait-il que l’Insee soit intéressée à résoudre le problème, et si j’en juge sur les 50 dernières années de listes, ils s’en foutent.


    • @Sozenz

      Ouhlà, ajouter un champ sur tous les formulaires de Fréonce et de Navarre ? Modifier toutes les applications ? Modifier toutes les bases de données. Mais c’est une révolution que vous voulez smiley


    • Sozenz 11 février 17:42

      @Philippe Huysmans, Complotologue
      ok la dessus ^^


    • Sozenz 11 février 17:44

      @Philippe Huysmans, Complotologue
      au pire aujourd hui , il y a les empreintes genetiques en cas de gros problème

      je parle surtout en cas de problème juridique


    • Sozenz 11 février 17:50

      @Philippe Huysmans, Complotologue
      Ouhlà, ajouter un champ sur tous les formulaires de Fréonce et de Navarre ?


      il n arretent pas de la faire un peu sur tout ;
      et en plus ça donnerait du boulot aux informaticiens ; dans le monde de la bureaucratie ça tomberait super bien ^^
      et au final , il se pourrait meme que l’ etat puisse gagner de l argent ; sauf si ça l’ arrange d ’en dét distribuer dans le vent ;

      Mais c’est une révolution que vous voulez 

      si ça ne fait pas de morts ; ben oui , pourquoi pas ^^
      il y en a de plusieurs types !


    • @Sozenz

      il n arretent pas de la faire un peu sur tout ;


      Se souvenir qu’au bout du compte, c’est vous qui réglez la facture, hein smiley

      si ça ne fait pas de morts ; ben oui , pourquoi pas ^^


      Si déjà ils commençaient par utiliser intelligemment les champs existants, ce serait un progrès considérable, et pas trop coûteux.


    • @Sozenz

      je parle surtout en cas de problème juridique


      Même, le prélèvement ADN pour usage en justice est strictement encadré, et la CNIL ne badine pas sur cette question.


    • doctorix, complotiste doctorix, complotiste 11 février 19:50

      @Philippe Huysmans, Complotologue
      Tous ces commentaires sont en fait un plaidoyer involontaire, j’ose l’espérer, pour le puçage.
      Je ne suis pas sur que ce soit une bonne idée.


    • @doctorix, complotiste

      Je ne suis pas sur que ce soit une bonne idée.


      Mais bien sûr que c’est une mauvaise idée !


    • Sozenz 11 février 21:00

      @doctorix, complotiste
      vous savez : quoique nous fassions ; s ils veulent pucer ; ils trouveront toujours une bonne raison pour tenter de le faire .
       voilà l article est un plaidoyer ;
      tout peut etre un plaidoyer , même un silence .
      le truc c est de dire : va te faire pour les plus virulents de l anti puce . un « NON » pour le déterminé ; un on verra plus tard pour les diplomates etc ...

      quand certains ont une idée dans la tete ...


    • Pull en laine Pull en laine 14 février 17:32

      @Philippe Huysmans, Complotologue
      Bien sûr que non ! La commune refusera d’enregistrer des parfaits homonymes nés le même jour sinon elle sera infoutue de savoir ultérieurement qui est qui.

      N’est-ce pas précisément une des raisons d’être du numéro d’acte de naissance inscrit sur registre des naissances de l’année ?


    • reptile KOU-PEU-LA 14 février 18:04

      @Pull en laine

      ben justement , en relisant les tableau a phillipe , 
      je ne voit pas le numero d’ acte de naissance dans les fichier de stat ...
      ca serais logique de l’ utiliser comme clef unique , et de l’ inclure dans les fichier traitant les acte de deces ...


    • @Pull en laine

      N’est-ce pas précisément une des raisons d’être du numéro d’acte de naissance inscrit sur registre des naissances de l’année ?


      Je ne vois pas trop en quoi le numéro d’acte vous permet de différencier Pierre Dupont 1 de Pierre Dupont 2 ?

      On identifie Pierre Dupont né le jj/mm/aaaa dans telle commune, et là tout de suite, ça coince.


    • @KOU-PEU-LA

      je ne voit pas le numero d’ acte de naissance dans les fichier de stat ... ca serais logique de l’ utiliser comme clef unique


      Surtout pas, tu louperais des paquets de doublons vrais. À la limite vérifier à la main dans le cas où tu aurais un doute, oui, mais ça s’arrête là.


    • reptile KOU-PEU-LA 14 février 18:37

      @Philippe Huysmans, Complotologue

      oui j’ ais dit une connerie en parlant de clef unique ...
      mais c’ est une clef qui as je pense sa place pour faire avancer le schimibilick...


    • @KOU-PEU-LA

      Non, franchement, il ne faut pas regarder le « numéro de certif », c’est de la merde dans bien des cas, et ça n’appporte strictement rien.

      J’en suis à l’heure actuelle à considérer deux types de doublons, ceux qui ont nomprenom, sexe, danaiss, lieunaiss, datedclieudc absolument identiques (code 100) et ceux qui ont les mêmes champs dans lesquels on se contente de ne vérifier que les deux premiers chiffres de lieunaiss et lieudc, soit le département. Ca c’est le code 101.

      La différence est minime et vérification faite, le critère le plus lâche (101) sort ce qui ressemble clairement à des doublons, même si dans bien des cas, on a des trucs farfelus qui se passent au niveau des numéro de certificat ou de la commune de naissance (c’est fou le nombre de gens qui sont nés dans une « commune fictive », comme indiqué dans le fichier).

      Pour l’instant je développe mes requêtes sur base d’un mockup, soit une version raccourcie du fichier, mais si l’on vérifie par exemple sur la deuxième partie de 1999, on n’a que 58 fiches en Code 101.

      On fait des stats, pas de la recherche généalogique... On doit s’habituer au fait que les fichiers résultent du collationnement de données pas forcément correctes, et dont le traitement a été rendu encore plus dure par les fusions/séparations de communes...

      Le but est de trouver une méthode honnête et facile à reproduire pour extraire de ce fatras les doublons, et les marquer ainsi pour « non exploitation » ultérieure.

      Je crois que j’aurai fini ça demain soir. Ca fait un groooos paquet de requêtes.

      Et ceci n’est que la base, le reste sera encore plus coton.


    • reptile KOU-PEU-LA 14 février 22:44

      @Philippe Huysmans, Complotologue

      on gagne toujours a laisser l’ artisan choisir les bon outils pour le travil qu’ il as a faire ... Moi je vois ca du dehors ...

      On fait des stats, pas de la recherche généalogique

      C’ est pas faut non , plus , les methodologie vont varier ne serais que pour ne pas perdre de temps a faire des chosse inutile , trompeuse ou non probante .

      Le but est de trouver une méthode honnête et facile à reproduire pour extraire de ce fatras les doublons, et les marquer ainsi pour « non exploitation » ultérieure.

      oui la tu resume bien le but as atteindre , si seulement P1000 et Nonos s’ en fixait un ca ferais moins bidouillage ...

      Je crois que j’aurai fini ça demain soir. Ca fait un groooos paquet de requêtes.

      Et ceci n’est que la base, le reste sera encore plus coton.

      he bien ne ne peut que vous souhaitez a tout 3 bon courage , c’ est bien que vous soyez a 3 , ca fiabilise un peut la demarche .

      A+ phil


    • @KOU-PEU-LA

      N’attends rien de nonosse et de pemile, la simple idée du travail que je suis en train de faire leur file la nausée et des sueurs froides.


    • reptile KOU-PEU-LA 14 février 23:38

      @Philippe Huysmans, Complotologue

      s’ ils assume pas fallait pas jouer avec les stat ...
      c’ est probablement pour ca que nono s’ est fait remonter les bretelle a l’ insee


  • Esprit Critique 11 février 16:20

    Dans les logiciels de généalogie un enfant qui naitrait après le décès des parents est signalé. Pas l’Insee ?

    Les doublons sont effectivement difficiles a gérer, si il y a des trous dans les données de certaines personnes. Mais ça c’était vrai dans l’état civil d’il y a deux siècles aujourd’hui c’est rare.

    On peut aussi avoir des paramètres de recherches réglables et faire plusieurs recherche pour comparer les listes de doublons, tout ça en quelques secondes, a condition de connaitre sont sujet, la programmation, et surtout d’avoir le gout du travail bien fait, et ça  ?


    • @Esprit Critique

      Pour les doublons, on compte les lignes possédant la même valeur pour les champs clés. C’est une seule requête. Ensuite faut les marquer, et ensuite dé-marquer la première de chaque série de double, ça c’est trois requêtes en suivant et implique la création d’une table temporaire.

      Mais c’est vraiment rien d’insurmontable.


  • Taverne Taverne 11 février 16:57

    L’INSEE qui ne connaît pas les instructions de traitements de chaînes de caractères comme TRIM, et pire qui ne prévoit pas d’exclure tous les caractères spéciaux des zones de dates de naissance, c’est ennuyeux. Leurs grands chefs ne connaissent peut-être rien à l’informatique. Sinon, je présume que vos données sont publiques ? (publiées dans le respect de l’open data). Sur Agoravox, ils sont plus calés : par exemple, je n’ai pas pu insérer un espace insécable dans mes articles (ascii 0160 que l’on obtient, comme vous le savez avec la touche Alt). Dans les logiciels d’aide sociale, le problème se pose avec beaucoup d’acuité et malgré les années, il continue de créer des doublons. Mais dans le social, c’est autrement plus complexe que la base INSEE.


    • @Taverne

      Les données sont publiques, vous pouvez les trouver sous forme de 51 fichiers à collationner aussi bien sur le site de l’Insee que sur le site du ministère, seul le format varie (csv d’un côté, format fixe de l’autre, pourquoi ? Mystère.)

      Ces problèmes ne devraient pas être gérés par des statisticiens mais par des informaticiens qui eux, connaissent les pièges.

      Les grands chefs à l’Insee sont des pointures, des gars qui sortent d’X ou des chercheurs en maths, mais eux n’en touchent pas une, est-ce qu’ils travaillent seulement ? Ou passent-t-ils leur temps à tisser et entretenir leur réseau ?


    • Sozenz 11 février 17:58

      @Philippe Huysmans, Complotologue
      Ces problèmes ne devraient pas être gérés par des statisticiens mais par des informaticiens qui eux, connaissent les pièges.

      oui tout à fait . à chacun son job .
      on ne va pas demander à un tapissier de faire du sucre .

      je ne suis pas pour l hyperspécialisation. c est mauvais pour le mental des gens . mais il y a des limites surtout sur des secteurs qui ne sont pas forcement liés dans les compétences ;

      .


    • @Sozenz

      Je ne suis pas non plus pour l’hyperspécialisation, ça donne lieu à des jobs chiants, mais clairement c’est pas parce qu’un statisticien sait utiliser excel qu’il sait comment assainir/valider une base de données.

      Ca c’est un métier à part entière, ces temps-ci.


    • Sozenz 11 février 18:11

      @Sozenz
      on ne va pas demander à un tapissier de faire du sucre .

      Patissier
      meme si tapissier pouvait le faire , mais l ecart etait trop grand


    • doctorix, complotiste doctorix, complotiste 11 février 19:53

      @Philippe Huysmans, Complotologue
      Je ne suis pas non plus pour l’hyperspécialisation, ça donne lieu à des jobs chiants, 
      Je pense à Jean Pierre Marielle en foufounologue, ou aux trouducologues...
      Quelle horreur...


    • doctorix, complotiste doctorix, complotiste 11 février 19:59

      J’ai retrouvé : c’est « Calmos »
      https://www.dailymotion.com/video/x2fhd


    • Sozenz 11 février 21:02

      @doctorix, complotiste
      ENORME ^^


    • Pull en laine Pull en laine 14 février 18:17

      @Taverne, @Philippe Huysmans complotologue
      Ah le codage de caractères ! De quoi en rendre dingue plus d’un.

      Dans les données INSEE au format à largeur fixe qu’évoque M. Huymans, il y a un piège sur les années 2000 et 2005.

      Et il y a aussi des problèmes récurrents de transcription liés au codage de certains caractères majuscules nantis d’un signe diacritique (ex : le Ï de SAÏGON). Comment cet exploit est-il possible sachant que l’INSEE impose aux mairies d’envoyer un fichier se limitant aux caractères ASCII (majuscules non accentuées) ? Je n’en ai pas la moindre idée. Ça se résout en forçant le codage en BDD (latin1, par exemple). Mais on a au passage perdu de l’information : le Ï s’est transformé en autre chose, un caractère autorisé, certes, mais autre chose (chez moi, ça donne SA€GON).

      Ainsi, dans le fichier deces-2005.txt :

      M. Berros Crespo Miguel, est né le 30/07/1958 à NU€OMORAL, (NUÑOMORAL à l’origine).
      M. Goy Gustav, est né le 09/09/1912 à BƒLE-CAMPAGNE en SUISSE (BÂLE-CAMPAGNE, à l’origine)
      Mme Fournier Marie Laurie, est née le 15/09/2002 à MONTR‚AL, PROV DE QU‚BEC au CANADA (MONTRÉAL, PROV DE QUÉBEC)

      Je vous passe les SAÏGON, HANOÏ, PORT SAÏD, certaines villes du Danemark ou de Norvège.

      A priori, seule la ville de naissance est concernée. Un conseil : ne gardez cette information qu’à titre purement ludique ! Parce qu’à cela s’ajoute les variantes dans la saisie (PARIS 2E, PARIS 2EME, PARIS 2ÈME => transformé, PARIS 2E ARROND. etc).

      C’est ce qui m’a fait perdre le plus de temps, lorsque j’ai voulu reproduire l’expérience de l’auteur.


    • @Pull en laine

      Cela ne concerne que la commune de naissance et le pays si c’est à l’étranger, je n’ai pas du de problème pour ce qui concerne nomprenom.

      Ces champs sont bien jolis mais ils ne nous servent à rien, donc je les ignore et ne m’en porte pas plus mal.

      J’avais signalé d’emblée sur quel champs j’identifiais les doublons...


    • reptile KOU-PEU-LA 14 février 18:27

      @Pull en laine

      C’est ce qui m’a fait perdre le plus de temps, lorsque j’ai voulu reproduire l’expérience de l’auteur.


      Tu trouve de tres bon argument y a pas a dire ... c’ est vrai que la on as un probleme ... Note pad++ as des fonction de chercher remplacer pour tout metre au bon format si besoin . https://www.commentcamarche.net/download/telecharger-34055333-notepad

      Tu connait certainement deja , mais si tu veut perdre moins de temps et tout remetre en ASCII rigoureux(tout en MAJ) ca peut t’ aider .

      C’ est bien en tout cas que tu prenne la peine de tout retraiter pour te faire ton avais propre ..


    • Pull en laine Pull en laine 14 février 18:46

      @Philippe Huysmans, Complotologue
      C’était pour rester dans le ton général sur la fiabilité des données smiley
      En revanche, les tabulations (fichiers 2001 et 2005), ont fait crier Mysql (s’il a utilisé les .csv, Pemile n’a pas dû rencontrer le problème).


Réagir