2. Recerca
La línia de Veu i Llenguatge, com la resta de línies de recerca de Barcelona Media té com a objectiu principal acostar la recerca a la indústria per tal d’impulsar la competitivitat del sector de la comunicació.
El nucli de la feina del grup de Veu i Llenguatge és la recerca, la innovació i el desenvolupament de tecnologies robustes i portables en l’àmbit del processament del llenguatge natural. Aquestes tecnologies estudien, modelen i caracteritzen textos, tan mitjançant aproximacions lingüístiques com aproximacions estadístiques. Les primeres, es basen en una comprensió del llenguatge mitjançant regles, diccionaris, ontologies.. i d’entendre les dependències i relacions entre les paraules. Les aproximacions estadístiques, en canvi, infereixen el coneixement a base d’aprendre amb exemples. Aquesta aproximació híbrida combina els avantatges d’ambdues aproximacions, de manera que sobre un conjunt de textos i de forma semi – o automàtica, es “comprèn” què es diu, de què es parla i com se’n parla. És a dir, es pot extreure informació estructurada a partir de textos on la informació no està estructurada.
Concretament, la recerca en l’àmbit del processament del llenguatge natural, se centra principalment en:
- L’anotació semàntica - El reconeixement d’entitats nombrades (NERC)
- El modelatge del llenguatge
- L’anàlisi semàntica
- Les agrupacions i les classificacions
- L’anàlisi de la factualitat
Les tecnologies lingüístiques són altament dependents de l’idioma i del tipus d’escriptura. Actualment el grup de recerca aborda el català, el castellà i l’anglès. A més, tracta escriptures formals (provinents de notícies o blogs), contingut generat per usuari (ressenyes i textos limitats com poden ser els provinents de facebook o twitter) i transcripcions automàtiques. Addicionalment el grup també treballa en el tractament de la informació en més d’una llengua.
La segona línia de recerca del grup es focalitza en l’estudi de la prosòdia per la síntesi de veu. En concret, es treballa en l’automatització del procés de creació de veus i l’adaptació d’aquestes a dominis concrets. Per això, les principals àrees d’investigació són:
- Desenvolupament de models fonètics i prosòdics del llenguatge
- Desenvolupament de models que millorin la naturalitat de les veus sintètiques
- Desenvolupament de models que permetin la generació de veus sintètiques amb emocions
- Processament lingüístic basat en regles
- Generació de diccionaris i vocabularis
Aplicacions
La recerca esmentada en la secció anterior porta de manera gairebé immediata a les següents aplicacions d’interès per la indústria:
- Anàlisi massiu de textos no restringits: El procés d’afegir informació lingüística, combinada amb models estadístics, permet tasques posteriors on s’emula la comprensió del llenguatge humà i permet fer:
- Mineria d’opinió i anàlisi de sentiment
- Mineria de dades i extracció d’informació
- Agrupacions i classificacions de continguts textuals
- Sistemes de perfilat d’usuari i recomanació híbrids
- Correcció de textos i llibre d’estil, tant per parlant natius com per aquells que estan aprenent una segona llengua.
- Sistemes de normalització de textos
- Sistemes de filtratge / moderació de continguts
- Traducció automàtica entre dues llengües i cross – language information retrieval
- Generació automàtica de continguts a partir de dades estructurades.
- Generació automàtica de resums a partir de dades no estructurades.
- Síntesi de veu bilingüe català – castellà amb expressivitat natural, basat en el motor de síntesi de Cereproc ©
- Tractament del llenguatge de signes, aplicacions que integren avatars signants.





