
Investiguem el processament del llenguatge, tant escrit com oral, a fi de disposar d’eines per al processament automatitzat de continguts lingüístics en entorns multilingües on en què el llenguatge humà es converteix n la modalitat d’interacció prioritària. Les tecnologies desenvolupades permeten:
- Anàlisi massiu de textos per extraure opinions, sentiments i dades de conjunts de textos, per generar sistemes de perfilat d’usuaris i recomanacions híbrides, així com agrupar i classificar continguts textuals.
- Correcció de textos i llibres d’estil, tant per parlants natius com per aquells que estan aprenent una segona llengua.
- Sistemes de normalització de textos, de filtratge/moderació de continguts i de generació automàtica de continguts i resums.
- Traducció automàtica entre dues llengües i recuperació d’informació cross – language
- Síntesi de veu bilingüe català-castellà amb expressivitat natural, basat en el motor de síntesi de
Cereproc © - Tractament de llenguas de signes, aplicacions que integren avatars signants.
Processament de llenguatge natural
Fem recerca, desenvolupament i innovació en tecnologies robustes i portables en l’àmbit del processament del llenguatge natural, en concret: anotació semàntica, reconeixement de entitats nombrades (NERC), modelatge del llenguatge, anàlisi semàntic, agrupacions i classificacions i anàlisi de la factualitat.
Aquestes tecnologies estudien, modelen i caracteritzen textos, tan mitjançant aproximacions lingüístiques com aproximacions estadístiques. Les primeres, es basen en una comprensió del llenguatge mitjançant regles, diccionaris, ontologies... i d’entendre les dependències i relacions entre les paraules. Les aproximacions estadístiques, en canvi, infereixen el coneixement a base d’aprendre amb exemples. Aquesta aproximació híbrida combina els avantatges d’ambdues aproximacions, de manera que sobre un conjunt de textos i de forma semi – o automàtica, es “comprèn” què es diu, de què es parla i com se’n parla. És a dir, es pot extreure informació estructurada a partir de textos on la informació no està estructurada.
Concretament, la recerca en l’àmbit del processament del llenguatge natural, se centra principalment en:
- L’anotació semàntica - El reconeixement d’entitats nombrades (NERC)
- El modelatge del llenguatge
- L’anàlisi semàntica
- Les agrupacions i les classificacions
- L’anàlisi de la factualitat
Les tecnologies lingüístiques són altament dependents de l’idioma i del tipus d’escriptura. Actualment el grup de recerca aborda el català, el castellà i l’anglès. A més, tracta escriptures formals (provinents de notícies o blogs), contingut generat per usuari (ressenyes i textos limitats com poden ser els provinents de facebook o twitter) i transcripcions automàtiques. Addicionalment el grup també treballa en el tractament de la informació en més d’una llengua.
Prosòdia per la síntesi de veu
Treballem en l’automatització del procés de creació de veus En concret, es treballa en l’automatització del procés de creació de veus i l’adaptació d’aquestes a dominis concrets. Per això, les principals àrees d’investigació són el desenvolupament de models fonètics i prosòdics del llenguatge, models que millorin la naturalitat de les veus sintètiques, models que permetin la generació de veus sintètiques amb emocions, processament lingüístic basat en regles i generació de diccionaris i vocabularis.
Barcelona Media | Av. Diagonal 177, planta 9, 08018 Barcelona | Tel: +34 93 238 14 00 | Fax: +34 93 309 31 88 |
© Fundació Barcelona Media | Informació legal
Barcelona Media @ Social networks: