{"id":5213,"date":"2025-02-12T15:45:33","date_gmt":"2025-02-12T14:45:33","guid":{"rendered":"https:\/\/spgoo.org\/?page_id=5213"},"modified":"2025-03-30T16:24:03","modified_gmt":"2025-03-30T14:24:03","slug":"cad-frapeor","status":"publish","type":"page","link":"https:\/\/spgoo.org\/?page_id=5213","title":{"rendered":"CDA FRAP\u00e9OR"},"content":{"rendered":"\n<h2 class=\"wp-block-heading\">CDA FRAP\u00e9OR : resp Badreddine Hamma <\/h2>\n\n\n\n<p class=\"has-text-align-center has-vivid-green-cyan-color has-text-color has-link-color has-medium-font-size wp-elements-24e8b8ed5c015c23cf06ae2192431a0f\">Ressources : Yvan Stroppa (D\u00e9c 2024 &#8211; )<\/p>\n\n\n\n<link rel='stylesheet' id='4485-css'  href='https:\/\/spgoo.org\/wp-content\/uploads\/winp-css-js\/4485.css?ver=1747039442' type='text\/css' media='all' \/>\n\n\n<img decoding=\"async\" style=\"position:absolute;top:2px;right:20px;\"  src=\"\/wp-content\/uploads\/2025\/03\/frapeor_1.png\" width=\"200px\"  \/>\n\n\n<p>Projet de constitution d&#8217;un corpus d&#8217;allophones d&#8217;Orl\u00e9ans.<\/p>\n\n\n\n<p>Une plateforme de saisie de corpus a \u00e9t\u00e9 d\u00e9velopp\u00e9e pour permettre l&#8217;alimentation des enregistrements sonores produits par les contributeurs \u00e0 ce projet. <\/p>\n\n\n\n<p>L&#8217;objectif de ce projet est la constitution d&#8217;un corpus sonores d&#8217;allophone d&#8217;Orl\u00e9ans qui devra permettre de compl\u00e9ter le corpus d&#8217;ESLO. L&#8217;ensemble des \u00e9l\u00e9ments ainsi constitu\u00e9 devrait permettre d&#8217;obtenir une repr\u00e9sentation plus exacte de notre environnement. <\/p>\n\n\n\n<p>Pour permettre cette r\u00e9alisation, nous avons d\u00e9velopp\u00e9 une plateforme web qui offre un contexte d&#8217;alimentation assist\u00e9 des enregistrements sonores. Elle est disponible \u00e0 l&#8217;adresse suivante : <a href=\"https:\/\/frapeor.org\">https:\/\/frapeor.org<\/a><\/p>\n\n\n\n<p>Cette plateforme a \u00e9t\u00e9 organis\u00e9e pour suivre le processus d\u00e9fini avec B. Hamma dans l&#8217;alimentation du corpus, \u00e0 savoir :<\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"518\" src=\"https:\/\/spgoo.org\/wp-content\/uploads\/2025\/03\/Capture-du-2025-03-03-17-47-04-1024x518.png\" alt=\"\" class=\"wp-image-5785\" srcset=\"https:\/\/spgoo.org\/wp-content\/uploads\/2025\/03\/Capture-du-2025-03-03-17-47-04-1024x518.png 1024w, https:\/\/spgoo.org\/wp-content\/uploads\/2025\/03\/Capture-du-2025-03-03-17-47-04-300x152.png 300w, https:\/\/spgoo.org\/wp-content\/uploads\/2025\/03\/Capture-du-2025-03-03-17-47-04-768x388.png 768w, https:\/\/spgoo.org\/wp-content\/uploads\/2025\/03\/Capture-du-2025-03-03-17-47-04.png 1284w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n<\/div>\n\n\n<p class=\"has-pale-cyan-blue-color has-text-color has-link-color has-medium-font-size wp-elements-55af8d22cfed0a890cd699f6388088af\">Utilisation d&#8217;une solution de transcription automatique des enregistrements.<\/p>\n\n\n\n<p>La proc\u00e9dure de transcription passe par un pipeline bas\u00e9 sur Kafka et d&#8217;un transcripteur de type WhisperUI.<\/p>\n\n\n\n<p>Kakfa : d\u00e9tail de la mise en place <\/p>\n\n\n\n<p>WhisperUI : est utilis\u00e9 \u00e0 partir d&#8217;une image Docker de type <a href=\"https:\/\/hub.docker.com\/r\/linuxserver\/faster-whisper\" target=\"_blank\" rel=\"noreferrer noopener\">Whisper-faster<\/a> que l&#8217;on a install\u00e9 sur une station de SPGoO. A partir de cette image on peut effectuer les transcriptions en automatique \u00e0 partir du mod\u00e8le medium de l&#8217;outil et mettre ainsi la transcription \u00e0 disposition de l&#8217;utilisateur pour correction.<\/p>\n\n\n\n<p>Description de l&#8217;installation de Whisper sur la station : <\/p>\n\n\n\n<details class=\"wp-block-details is-layout-flow wp-block-details-is-layout-flow\"><summary>Fichier de lancement <\/summary>\n<pre class=\"wp-block-code\"><code>docker run -d \\\n  --name=faster-whisper \\\n  -e PUID=1000 \\\n  -e PGID=1000 \\\n  -e TZ=Etc\/UTC \\\n  -e WHISPER_MODEL=medium \\\n  -e WHISPER_BEAM=1  \\\n  -e WHISPER_LANG=fr \\\n  -p 10300:10300 \\\n  -v \/home\/ystroppa\/frapeor\/whisper\/data:\/config \\\n  --restart unless-stopped \\\n  lscr.io\/linuxserver\/faster-whisper:latest<\/code><\/pre>\n<\/details>\n\n\n\n<p>Utilisation de Whisper  en mode manuelle :<\/p>\n\n\n\n<pre class=\"wp-block-code\"><code>&gt;&gt;&gt; from faster_whisper import WhisperModel\n&gt;&gt;&gt; model_size=\"medium\"\n&gt;&gt;&gt; model = WhisperModel(model_size, device=\"cpu\", compute_type=\"int8\")\n&gt;&gt;&gt; segments, info = model.transcribe(\"Enregistrement_.mp3\", beam_size=5)\n&gt;&gt;&gt; for segment in segments:\n...     print(\"&#91;%.2fs -&gt; %.2fs] %s\" % (segment.start, segment.end, segment.text))<\/code><\/pre>\n\n\n\n<p class=\"has-pale-cyan-blue-color has-text-color has-link-color has-medium-font-size wp-elements-38c7ab5c549c7e812f6981835f7a02cd\">Interface de saisie et de correction <\/p>\n\n\n\n<p>Une interface web a \u00e9t\u00e9 enti\u00e8rement d\u00e9velopp\u00e9e pour permettre de travailler sur les transcriptions produites par Whisper. Elle permet \u00e0 l&#8217;utilisateur de consulter les diff\u00e9rentes s\u00e9quences, de les \u00e9couter et de les corriger car le transcripteur commet des erreurs qu&#8217;il est n\u00e9cessaire de corriger. Attention cette correction ne prendre en compte que le forme attendue et non pas la forme entendue. L&#8217;indication des erreurs commises se passera \u00e0 l&#8217;\u00e9tape suivante. <\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"575\" src=\"https:\/\/spgoo.org\/wp-content\/uploads\/2025\/03\/editeur_frapeor-1024x575.png\" alt=\"\" class=\"wp-image-5791\" srcset=\"https:\/\/spgoo.org\/wp-content\/uploads\/2025\/03\/editeur_frapeor-1024x575.png 1024w, https:\/\/spgoo.org\/wp-content\/uploads\/2025\/03\/editeur_frapeor-300x168.png 300w, https:\/\/spgoo.org\/wp-content\/uploads\/2025\/03\/editeur_frapeor-768x431.png 768w, https:\/\/spgoo.org\/wp-content\/uploads\/2025\/03\/editeur_frapeor.png 1356w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n<\/div>\n\n\n<p class=\"has-pale-cyan-blue-color has-text-color has-link-color has-medium-font-size wp-elements-731d0c13c3a3b8e6cc5a140ff0b94a84\">Marqueur des erreurs :<\/p>\n\n\n\n<p>Dans cette partie, il est n\u00e9cessaire de rep\u00e9rer les mots\/expressions mal prononc\u00e9s. Pour cela, une fen\u00eatre d\u00e9di\u00e9e va permettre \u00e0 l&#8217;utilisateur d\u2019apposer des marqueurs sur le ou les mots mal prononc\u00e9s. A chaque expression rep\u00e9r\u00e9es, il pourra \u00e9galement ajouter des commentaires sur le contexte du d\u00e9faut et ses possibilit\u00e9s de corrections. <\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"493\" height=\"642\" src=\"https:\/\/spgoo.org\/wp-content\/uploads\/2025\/03\/frapeor_edition.png\" alt=\"\" class=\"wp-image-5792\" srcset=\"https:\/\/spgoo.org\/wp-content\/uploads\/2025\/03\/frapeor_edition.png 493w, https:\/\/spgoo.org\/wp-content\/uploads\/2025\/03\/frapeor_edition-230x300.png 230w\" sizes=\"auto, (max-width: 493px) 100vw, 493px\" \/><\/figure>\n<\/div>\n\n\n<p>Interface de contr\u00f4le des \u00e9l\u00e9ments saisis <\/p>\n\n\n\n<p>Les \u00e9l\u00e9ments de diagnostics fournis sont contr\u00f4l\u00e9s par la suite par la responsable de la formation B. Hamma pour garantir la qualit\u00e9 des \u00e9l\u00e9ments fournis. Pour ce faire, une gestion des droits a \u00e9t\u00e9 mise en place pour permettre et rendre accessible la production d&#8217;un utilisateur \u00e0 un autre utilisateur avec des privil\u00e8ges.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>CDA FRAP\u00e9OR : resp Badreddine Hamma Ressources : Yvan Stroppa (D\u00e9c 2024 &#8211; ) Projet de constitution d&#8217;un corpus d&#8217;allophones d&#8217;Orl\u00e9ans. Une plateforme de saisie de corpus a \u00e9t\u00e9 d\u00e9velopp\u00e9e pour permettre l&#8217;alimentation des enregistrements sonores produits par les contributeurs \u00e0 ce projet. L&#8217;objectif de ce projet est la constitution d&#8217;un corpus sonores d&#8217;allophone d&#8217;Orl\u00e9ans [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"parent":0,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"footnotes":""},"class_list":["post-5213","page","type-page","status-publish","hentry"],"_links":{"self":[{"href":"https:\/\/spgoo.org\/index.php?rest_route=\/wp\/v2\/pages\/5213","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/spgoo.org\/index.php?rest_route=\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/spgoo.org\/index.php?rest_route=\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/spgoo.org\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/spgoo.org\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=5213"}],"version-history":[{"count":25,"href":"https:\/\/spgoo.org\/index.php?rest_route=\/wp\/v2\/pages\/5213\/revisions"}],"predecessor-version":[{"id":5953,"href":"https:\/\/spgoo.org\/index.php?rest_route=\/wp\/v2\/pages\/5213\/revisions\/5953"}],"wp:attachment":[{"href":"https:\/\/spgoo.org\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=5213"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}