-
Pour pouvoir créer des nuages de mots (et pour nos futures analyses avec itrameur) nous avons dû créer des gros fichiers contenant les textes de chaque URLs. Nous avons donc créé un gros fichier par langue et dans ces gros fichiers, chacun des textes sont séparés par des balises indiquant le numéro du texte.
Pour les textes en français et en anglais, nous avons directement utilisé les fichiers contenant le motif recherché et leur contexte. Pour les textes en japonais et en chinois, il nous a fallu utiliser les fichiers qui ont été segmentés par le programme principal, car les sites permettant de créer des nuages de mots ne découpaient pas correctement ces deux langues.
À la prochaine !
Chinatsu, Mei et Anaëlle.
votre commentaire -
Après beaucoup de travail, nous avons fini notre script. voici un flowchart de script:
Ce script va créer automatiquement des tableaux au format HTML selon le nombre des langues. Comme nous avons 4 langues à traiter, il va créer 4 tableaux.
D'ailleurs, pour les langues (le japonais et le chinois) qui ont besoin de faire la segmentation, on a ajouté une condition dans le script pour les traiter respectivement :
Avec les corpus qu'on a collectés, on va faire des nuages des mots et des analyses linguistiques à l'aide d'itrameur.
下回分解
Mei, Anaëlle et Chinastu
votre commentaire
Suivre le flux RSS des articles
Suivre le flux RSS des commentaires