============================================================== FestCat: Síntesis de la parla en català fent servir Festival http://www.talp.upc.edu/festcat Antonio Bonafonte Centre de recerca TALP, UPC Barcelona, Novembre 2007 ============================================================== 1. QUÈ? 2. QUI? 3. CONDICIONS D'ÚS 4. REQUISITS DEL SISTEMA 5. INSTAL·LACIÓ 6. EXECUCIÓ 7. AGRAÏMENTS =================================================== 1. QUÈ? "Festival parla català" El paquet FestCat és una llibreria i dades per estendre Festival per tal que parli català. http://www.talp.upc.edu/festcat Està format per dues components principals: (1) Dades lingüístiques i codi per estendre Festival pel català. Diccionaris, transcripció fonètica, etiquetador morfo-sintàctic, etc. Inclou dues carpetes: dicts/upc (bàsicament diccionaris) upc_catalan (bàsicament codi) (2) Veus: dades dependents del locutor Hi ha una carpeta per cada veu voices/catalan/upc_ca_'nom-locutor' Actualment hi ha diverses veus disponibles. Visiteu la pàgina web per obtenir últimes versions. 2. QUI? Aquest projecte ha estat desenvolupat inicialment pel Centre TALP, de la Universitat Politècnica de Catalunya, a Barcelona. La major part del codi i de les dades ha estat desenvolupat específicament per aquest projecte. www.talp.upc.edu/festcat www.talp.upc.edu www.upc.edu Una excepció important són els diccionaris. La font més important per construir els diccionaris és el lèxic català proporcionat pel projecte FreeLing, també desenvolupat, entre altres, pel Centre de Recerca TALP. Per més informació, visiteu les pàgines web de FreeLing: http://garraf.epsevg.upc.es/freeling/ El lèxic ha estat enriquit de la forma següent: - Les transcripcions fonètiques s'han generat automàticament utilitzant les eines de transcripció fonètica del TALP - S'ha afegit noves paraules utilitzant per assegurar millor cobertura en el disseny de les veus. 3. CONDICIONS D'ÚS Tot el codi i recursos lingüístics es proporcionen sota la llicència LGPL (veieu el fitxer COPIA). 4. REQUISITS DEL SISTEMA És necessari un sistema 'Festival' en funcionament. Comproveu la vostra distribució Linux o la pàgina web de 'Festival' http://www.cstr.ed.ac.uk/projects/festival/ Aquest paquet s'ha desenvolupat i provat amb la versió 2.1 de Novembre 2010 (Executeu $ festival --version ) 5. INSTAĿLACIÓ Hem desenvolupat diverses veus en català. Totes comparteixen una llibreria, relacionada amb el llenguatge. Per tant, necessiteu el paquet bàsic més les veus específiques que us interessin. Tan sols heu de copiar diverses carpetes en el 'datadir' de Festival. Per trobar aquest directori, podeu executar $ festival -b '(print datadir)' Si aquest directori no està definit, heu de fer servir el directori 'libdir': $ festival -b '(print libdir)' * PAQUET COMÚ * Descarregueu-vos el fitxer upc_ca_base.tgz i extraieu els fitxers: $ tar -zxf upc_ca_base.tgz Traslladeu els fitxers extrets al 'datadir' de Festival: a) Diccionaris: Copieu la carpeta dicts/upc a 'datadir'/dicts/upc b) Normalitzador de text, etiquetat POS, etc. Copieu el fitxer upc_catalan a 'datadir'/upc_catalan c) Si voleu que 'Festival' interpreti la opció --language i exporti els locutors catalans a altres aplicacions, necessiteu actualitzar el fitxer languages.scm i afegir-hi el Català. Proporcionem el fitxer actualitzat: languages.scm => 'datadir'/languages.scm * PAQUETS ESPECÍFICS DE LA VEU * Descarregueu el fitxer de cada veu (mireu a la web per actualitzacions, http://www.talp.upc.edu/festcat ) i extraieu el contingut. Ex: $ tar -zxf upc_ca_ona_hts.tgz e) Copieu cada veu catalana, per ex: upc_ca_ona_hts, al directori de veus. Per Exemple: upc_ca_ona_hts => 'datadir'/voices/catalan/upc_ca_ona_hts 6. EXECUCIÓ Hi ha diversos programes que poden utilitzar 'Festival', com gnopernicus, o emacs-speak ... Aquí farem referència només a la utilització directa de 'Festival'. ALERTA ALERTA ALERTA !!! El 'Festival' espera codificació ISO-8859-15. Assegureu-vos que utilitzeu aquesta codificació en el vostre terminal o fitxers. Si el vostre sistema utilitza UTF-8 (tal i com ho fan moltes distribucions actuals), necessiteu convertir el fitxer abans de la lectura. Alguns programes, com gnopernicus, fan la conversió internament. Podeu fer servir la opcions de guardar del editor gedit, o fer servir programes conversors de format, com iconv: $ iconv -f utf8 -t ISO-8859-15//TRANSLIT bon_dia_utf8.text > bon_dia_iso.text !!! * Un test ràpid: $ echo "Bon dia, Catalunya" | festival --tts --language catalan * També podeu executar 'Festival' de manera interactiva: $ festival (language_catalan) (intro-catalan) (SayText "Bon dia, Catalunya.") (SayText "Bona nit.") (exit) Si voleu especificar el locutor, introduïu la comanda per seleccionar el locutor, en lloc de la comanda de selecció de llenguatge: (voice_upc_ca_ona_hts) (SayText "I tu, qui ets?") (voice_upc_ca_pau_hts) (SayText "Jo sóc, el que tu ets, i si et faig mal, em faig mal a mi mateix.") (voice_upc_ca_ona_hts) (SayText "Que maco. Això és de l'assemblea dels infants, oi?") (exit) O per llegir un fitxer de text, per exemple "bon_dia.txt": $ echo "Bon dia, Catalunya." > bon_dia.txt $ festival (language_catalan) (tts_file "bon_dia.txt") (exit) * O utilitzeu l'script text2wave per crear un fitxer .wav: $ text2wave -o bondia.wav -eval '(language_catalan)' bon_dia.txt Si voleu especificar el locutor: $ text2wave -o bondia.wav -eval '(voice_upc_ca_ona_hts)' bon_dia.txt 7. AGRAÏMENTS Aquest treball ha estat finançat per la Generalitat de Catalunya. www.gencat.net El projecte ha estat promogut per diversos Departaments de la Generalitat de Catalunya: - Departament d'Educació - Secretaria de Telecomunicacions i Societat de la Informació del Departament de Presidència. i per la Universitat Politècnica de Catalunya (UPC): - Centre de Recerca TALP - Càtedra d'Accessibilitat - Càtedra de Programari Lliure Llegiu el fitxer AGRAIMENTS per veure la llista de gent que ha contribuït a aquest projecte.