• Traitement de corpus japonais

    Le japonais n'ayant pas d'espace comme en français, l'expression régulière "\w+" ne peut pas reconnaître correctement les mots japonais. Nous devons donc utiliser une autre méthode pour segmenter nos textes japonais.

    Nous avons trouvé cette méthode sur un des blogs des années précédentes et avons donc d'utiliser l'outil Janome.

    Traitement de corpus japonais

    Ensuite nous avons créer un fichier texte avec un petit texte japonais trouvé sur internet pour le tester : 田中さんは英語の学生です。毎日英語を習います。毎朝6時半に起きます。シャワーをあびます。そして朝ご飯を食べます。朝ご飯の後で歯をみがきます。7時半に家を出ます。

    Voici le script lancé :

     

    Traitement de corpus japonais

    Et voici le résultat !

    田中 さん は 英語 の 学生 です 。 毎日 英語 を 習い ます 。 毎朝 6 時半 に 起き ます 。 シャワー を あび ます 。 そして 朝 ご飯 を 食べ ます 。 朝 ご飯 の 後 で 歯 を みがき ます 。 7 時半 に 家 を 出 ます 。

    Ce résultat nous satisfait et nous allons donc l'utiliser dans notre script. Nous l'avons légèrement modifié pour avoir un mot par ligne:

    Traitement de corpus japonais

    Chinatsu, Mei et Anaëlle.

    À la prochaine !


  • Commentaires

    Aucun commentaire pour le moment

    Suivre le flux RSS des commentaires


    Ajouter un commentaire

    Nom / Pseudo :

    E-mail (facultatif) :

    Site Web (facultatif) :

    Commentaire :