Traitement de corpus japonais - Manifestation

Traitement de corpus japonais

Par cma dans Accueil le 18 Novembre 2019 à 17:14

Le japonais n'ayant pas d'espace comme en français, l'expression régulière "\w+" ne peut pas reconnaître correctement les mots japonais. Nous devons donc utiliser une autre méthode pour segmenter nos textes japonais.

Nous avons trouvé cette méthode sur un des blogs des années précédentes et avons donc d'utiliser l'outil Janome.

Ensuite nous avons créer un fichier texte avec un petit texte japonais trouvé sur internet pour le tester : 田中さんは英語の学生です。毎日英語を習います。毎朝６時半に起きます。シャワーをあびます。そして朝ご飯を食べます。朝ご飯の後で歯をみがきます。７時半に家を出ます。

Voici le script lancé :

Et voici le résultat !

田中さんは英語の学生です。毎日英語を習います。毎朝６時半に起きます。シャワーをあびます。そして朝ご飯を食べます。朝ご飯の後で歯をみがきます。７時半に家を出ます。

Ce résultat nous satisfait et nous allons donc l'utiliser dans notre script. Nous l'avons légèrement modifié pour avoir un mot par ligne:

Chinatsu, Mei et Anaëlle.

À la prochaine !
Commentaires

Aucun commentaire pour le moment

Suivre le flux RSS des commentaires

Ajouter un commentaire

Nom / Pseudo :

E-mail (facultatif) :

Site Web (facultatif) :

Commentaire :

Me prévenir par mail en cas de réponse