BM D&I / Voz e Linguagem




Pesquisamos o processamento da linguagem escrita e oral, a fim de dispor de ferramentas para o processo automatizado de conteúdos linguísticos em ambientes multilíngues ou em que a linguagem humana se torna o modo prioritário de interação. As tecnologias desenvolvidas permitem:

  • Análise massiva de textos para extrair opiniões, sentimentos e dados de conjuntos de textos, para gerar sistemas de perfil de usuários e recomendações híbridas, assim como agrupar e classificar conteúdos textuais.
  • Correção de textos e de livros de estilo, tanto para falantes nativos como para aqueles que estão aprendendo uma segunda língua.
  • Sistemas de normalização de textos, de filtragem/moderação de conteúdos e de geração automática de conteúdos e resumos..
  • Tradução automática entre duas línguas e recuperação de informaçãocross-language.
  • Síntese de voz bilíngue catalão-espanhol com expressividade natural, com base no motor de síntese do Cereproc
    Cereproc ©
  • Tratamento da linguas de sinais, aplicações que integram avatares assinantes.


Processamento de linguagem natural

Pesquisamos, desenvolvemos e inovamos com tecnologias robustas e portáteis no setor do processamento da linguagem natural, mais precisamente: anotação semântica, reconhecimento de entidades nomeadas (NERC), modelagem da linguagem, análise semântica, agrupações e classificações e análise da ocorrência dos fatos.

Essas tecnologias estudam, modelam e caracterizam textos, tanto por meio de abordagens linguísticas como por abordagens estatísticas. As primeiras se baseiam na compreensão da linguagem por meio de regras, dicionários, antologias, e de entender as dependências e relações entre as palavras. As abordagens estatísticas, ao contrário, inferem o conhecimento com base na aprendizagem de exemplos. Essa abordagem híbrida combina as vantagens de ambos os métodos, de maneira que, sobre um conjunto de textos e de forma semiautomática ou automática se 'compreende' aquilo que se chama, de que se fala e de como se fala. Portanto, se pode extrair informação estruturada a partir de textos onde a informação não está estruturada.

Concretamente, a pesquisa no setor do processamento da linguagem natural se centra principalmente em:

  • Anotação semântica – O reconhecimento de entidades nomeadas (NERC)
  • Modelagem da linguagem
  • Análise semântica
  • Agrupações e classificações
  • Análise da ocorrência dos fatos

As tecnologias linguísticas são altamente dependentes do idioma e do tipo de escrita. Atualmente, o grupo de pesquisa aborda o catalão, o espanhol e o inglês. Além do mais, trata escritas formais (provenientes de notícias ou blogs), conteúdos gerado por usuários (resenhas e textos limitados, como os originários do Facebook ou Twitter) e transcrições automáticas. Além disso, o grupo também trabalha no tratamento da informação em mais de uma língua.

Prosódia para a síntese da voz

Trabalhamos na automatização do processo de criação de vozes, no campo da automatização do processo de criação de vozes e na adaptação desses domínios concretos. Logo, as principais áreas de investigação são o desenvolvimento de modelos fonéticos e prosódicos de linguagem, modelos que melhoram a naturalidade das vozes sintéticas, modelos que permitem a geração de vozes sintéticas com emoções, processamento linguístico com base em regras e criação de dicionários e de vocabulários.

Equipe

A linha de Voz e linguagem do Barcelona Media é formada por uma equipe de pesquisadores que cobrem as diversas especialidades da área de PD&I.

Diretor

Toni Badia [+]

Coordenador

Carlos Rodríguez [+]

Gerente Técnico Comercial

David Comas [+]

Equipe

Joan Codina [+]
Judith Domingo [+]
David García Narbona [+]
Jens Grivolla [+]
Patrik Lambert [+]
Maria Teresa Melero [+]
Guillem Massó [+]
Roser Sauri [+]
Teresa Suñol [+]

Colaboradores

Martí Quixal [+]

Projetos

  • MÍDIAS SOCIAIS

    Tem como objetivo a exploração do último fenômeno social proporcionado pela Internet: a publicação da informação e opinião por parte dos usuários da rede e a de sua crescente participação nas redes sociais.
    Website Social Media

  • T4ME

    Aliança estratégica para a criação de tecnologias e aplicações necessárias para tornar sustentáveis a diversidade linguística e a sociedade multicultural europeia, como, por exemplo, a aprendizagem automática, a informática social, os sistemas cognitivos, as tecnologias do conhecimento e os conteúdos multimídia.
    Website T4ME

  • ICE3

    Tem como objetivo promover a aprendizagem de idiomas assistida por computador no âmbito escolar, com base em uma orientação pedagógica e que integre ferramentas de processamento para a geração automática de respostas.
    Website ICE3

  • Emaps

    Pretende dar resposta aos desafios relacionados ao assessoramento sobre as oportunidades e os riscos do uso da web e das mídias sociais como ferramenta de informação significativa e desenvolver uma comunicação participativa entre cientistas e diferentes públicos.

  • Análise de opiniões na comunicação com os clientes

    Desenhar tecnologias de Analítica de Interação com Clientes (Customer Interaction Analytics) para o desenvolvimento de uma nova plataforma comercial de serviço.

  • i3media

    Projeto de pesquisa industrial dedicado ao desenvolvimento de tecnologias para a criação e gestão automatizada de conteúdos audiovisuais inteligentes.
    Website i3media

 

Demos & Downloads
   
Publicações
   
Relatórios Técnicos