Crit�res de qualit� pour un article - AgoraVox le m�dia citoyen

Abou Antoun 2 octobre 2017 15:04

@Shawford
ET/OU si vous parlez ici de programmation, parleriez vous au del� de rep�rer quelqu’un par la seule analyse syntaxique ou tout autre moyen sur le fond de l’usage de la langue ?
Les deux. Tout d’abord il faut �crire un programme d’extraction. C’est la partie technique la plus d�licate dans la mesure o� il faut ’simuler’ l’appui de touches ’next’ pour faire d�filer les pages de commentaires. J’avais fait ce travail quand un certain ’Morice’ s�vissait sur ce site, c’�tait un cas d’�cole. Le programme que j’avais �crit � l’�poque ne fonctionnerait plus aujourd’hui parce que la structure des pages a chang� mais ce ne serait pas trop compliqu� de le mettre au go�t du jour.
Il faut commencer par �tudier la structure html des pages auteur cela peut se faire avec l’inspecteur de Firefox, cela fait il faut (par exemple) un programme python.
Si cela vous passionne voici mon code �crit dans une vieille version de Python la 2.6 en 2015, les lignes di�s�es sont des instructions de d�bogage transform�es en commentaires et peuvent en th�orie �tre supprim�es, ce qui raccourcit d’autant le programme. Malheureusement les indentations (essentielles en Python) ne sont pas respect�es.

# -*- coding : utf-8
from lxml import etree
import urllib2
import StringIO
import re, htmlentitydefs
import codecs

global results

def unescape(text) :
« »« convertit les entit�s html & et &x »« »
def fixup(m) :
text = m.group(0)
if text[:2] == « &# » :
# character reference
try :
if text[:3] == « &#x » :
return unichr(int(text[3 :-1], 16))
else :
return unichr(int(text[2 :-1]))
except ValueError :
pass
else :
# named entity
try :
text = unichr(htmlentitydefs.name2codepoint[text[1 :-1]])
except KeyError :
pass
return text # leave as is
return re.sub(« &# ?\w+ ; », fixup, text)

def traite_forum_fil (ffli) :
«  »« Traite un r�sultat »«  »
#global results
divs=ffli.findall(’./div’)
#sujet=divs[0].find(’./a’)
#SUJET=etree.tostring(sujet,pretty_print=True, method="html")
#SUJET=unescape(SUJET)
#SUJET=re.sub(« <[^<]*> »,«  »,SUJET)
message=divs[1]
messdivs=message.findall(’./div’)
chapo=messdivs[0]
#date=chapo.findall(’./span/span’)[1]
#DATE=etree.tostring(date,pretty_print=True, method="html")
#DATE=unescape(DATE)
#DATE=re.sub(« <[^<]*> »,«  »,DATE)#suppression des balises html
texte=messdivs[1]
HTML= etree.tostring(texte,pretty_print=True, method="html")
TEXT = unescape(HTML)
TEXT=re.sub(« <[^<]*> »,«  »,TEXT)
results.write(TEXT.encode(’utf-8’))
#print SUJET
#print DATE
#print TEXT

def traite_page(auteur, debut) :
« »« Traite une page de r�sultat depuis debut jusqu’� debut+5 »« »
print debut
the_url = « http://www.agoravox.fr/auteur/ »+auteur+« ?debut_bestof="+debut+"#pagination_bestof »
req = urllib2.Request(the_url)
handle = urllib2.urlopen(req)
page = handle.read() #OK
handle.close()
parser = etree.HTMLParser()
tree= etree.parse(StringIO.StringIO(page), parser)
page=tree.find(’./body/div’)
divs_de_page=page.findall(’./div’)
gauche=divs_de_page[3]
divs_de_gauche=gauche.findall(’./div’)
commentaires=divs_de_gauche[14]
listec=commentaires.find(’./ul’)
comments=listec.findall(’./li’)
if comments==[] :
raise Exception(’fin’)
for c in comments :
traite_forum_fil(c)

def traite_auteur(auteur) :
global results
results=open(auteur+’.txt’,’w’)
i=0
while True :
traite_page(auteur,str(i))
i=i+5
try :
while True :
traite_page(auteur,str(i))
i=i+5
except Exception as ex :
print ex
print « c’est fini »
results.close()
return

traite_auteur(« C’est Nabum »)

Une fois le boulot accompli il faut utiliser une biblioth�que si on veut rester dans l’univers Python
c’est NLTK (Natural Language Tool Kit).
Ensuite vous avez la mati�re pour travailler (un gros fichier txt fourni par l’extraction) et un programme tr�s puissant. A vous de d�finir les crit�res. Longueur des phrases, richesse du vocabulaire, fr�quence des mots, etc... Certes, ce sont des �l�ments syntaxiques mais il est difficile � un auteur de tricher sur la dur�e chassez le naturel ...).
Donc la comparaison de deux textes avec ces crit�res permet d�j� d’avoir une id�e.
Maintenant pour r�pondre � votre question un participant ayant deux pseudo peut ne pas �tre d�tect� s’il est extr�mement prudent, il faut un r�el d�doublement de la personnalit� pouvant � son tour �tre simul� (aid�) par programme.
Je n’ai jamais fait usage des donn�es collect�es mais c’�tait amusant.

R�pondre Lien permanent

Ajouter une r�action

Pour r�agir, identifiez-vous avec votre login / mot de passe