
Pesquisamos o processamento da linguagem escrita e oral, a fim de dispor de ferramentas para o processo automatizado de conteúdos linguísticos em ambientes multilíngues ou em que a linguagem humana se torna o modo prioritário de interação. As tecnologias desenvolvidas permitem:
- Análise massiva de textos para extrair opiniões, sentimentos e dados de conjuntos de textos, para gerar sistemas de perfil de usuários e recomendações híbridas, assim como agrupar e classificar conteúdos textuais.
- Correção de textos e de livros de estilo, tanto para falantes nativos como para aqueles que estão aprendendo uma segunda língua.
- Sistemas de normalização de textos, de filtragem/moderação de conteúdos e de geração automática de conteúdos e resumos..
- Tradução automática entre duas línguas e recuperação de informaçãocross-language.
- Síntese de voz bilíngue catalão-espanhol com expressividade natural, com base no motor de síntese do Cereproc
Cereproc © - Tratamento da linguas de sinais, aplicações que integram avatares assinantes.
Processamento de linguagem natural
Pesquisamos, desenvolvemos e inovamos com tecnologias robustas e portáteis no setor do processamento da linguagem natural, mais precisamente: anotação semântica, reconhecimento de entidades nomeadas (NERC), modelagem da linguagem, análise semântica, agrupações e classificações e análise da ocorrência dos fatos.
Essas tecnologias estudam, modelam e caracterizam textos, tanto por meio de abordagens linguísticas como por abordagens estatísticas. As primeiras se baseiam na compreensão da linguagem por meio de regras, dicionários, antologias, e de entender as dependências e relações entre as palavras. As abordagens estatísticas, ao contrário, inferem o conhecimento com base na aprendizagem de exemplos. Essa abordagem híbrida combina as vantagens de ambos os métodos, de maneira que, sobre um conjunto de textos e de forma semiautomática ou automática se 'compreende' aquilo que se chama, de que se fala e de como se fala. Portanto, se pode extrair informação estruturada a partir de textos onde a informação não está estruturada.
Concretamente, a pesquisa no setor do processamento da linguagem natural se centra principalmente em:
- Anotação semântica – O reconhecimento de entidades nomeadas (NERC)
- Modelagem da linguagem
- Análise semântica
- Agrupações e classificações
- Análise da ocorrência dos fatos
As tecnologias linguísticas são altamente dependentes do idioma e do tipo de escrita. Atualmente, o grupo de pesquisa aborda o catalão, o espanhol e o inglês. Além do mais, trata escritas formais (provenientes de notícias ou blogs), conteúdos gerado por usuários (resenhas e textos limitados, como os originários do Facebook ou Twitter) e transcrições automáticas. Além disso, o grupo também trabalha no tratamento da informação em mais de uma língua.
Prosódia para a síntese da voz
Trabalhamos na automatização do processo de criação de vozes, no campo da automatização do processo de criação de vozes e na adaptação desses domínios concretos. Logo, as principais áreas de investigação são o desenvolvimento de modelos fonéticos e prosódicos de linguagem, modelos que melhoram a naturalidade das vozes sintéticas, modelos que permitem a geração de vozes sintéticas com emoções, processamento linguístico com base em regras e criação de dicionários e de vocabulários.
Barcelona Media | Av. Diagonal 177 | 08018 Barcelona | Tel: +34 93 238 14 00 | Fax: +34 93 309 31 88
© Fundació Barcelona Media | Informació legal
Barcelona Media @ Social networks: