Tecnologia da Linguagem:
novas oportunidades de negócio no
processamento computacional
da língua portuguesa
Stand de Exposição
21-22 de novembro de 2012
Innovation Lounge
Feira de Tecnologias da Informação e da Comunicação
22º Congresso da APDC
Centro de Congressos de Lisboa
Objetivo
Com a ajuda de novas tecnologias cada vez mais poderosas, comunicamos com mais pessoas, com maior frequência e com mais facilidade. De forma crítica, estas novas tecnologias não proporcionam apenas novos meios ou canais mais alargados para a troca de informações linguísticas: estão na base de um choque tecnológico mais profundo quanto ao modo como as línguas naturais podem ser digitalmente processadas e usadas.
Em rutura clara com o passado, a Tecnologia da Linguagem vem permitir novas soluções para comunicar instantaneamente na nossa língua materna com pessoas que falam outra língua, e aceder a informação veiculada em línguas que não dominamos. E vamos poder usar a linguagem natural para interagir com todos os tipos de dispositivos e serviços artificiais numa sociedade da informação em expansão veloz diante dos nossos olhos.
A tecnologia da linguagem é uma tecnologia emergente que está a desempenhar um papel chave na transição para era digital. Apenas uma tecnologia da linguagem desenvolvida e adaptada especificamente para a nossa língua materna permitirá que esta sobreviva na era digital e que nos seja assegurada, a nós e à nossa cultura, uma cidadania plena na Sociedade da Informação.
O objetivo central deste stand é o de divulgar o potencial da Tecnologia da Linguagem para novas soluções de negócio, com enfoque na divulgação da recém-criada plataforma europeia de distribuição de recursos linguísticos e ferramentas base para o processamento computacional das línguas naturais, dando particular destaque ao processamento computacional da língua portuguesa.
Localização do stand
O que é a Tecnologia da Linguagem?
A Tecnologia da Linguagem — por vezes também designada por tecnologia da linguagem humana — é uma tecnologia emergente que abrange sistemas computacionais especializados na análise, produção e modificação de texto e de fala. É o ramo de aplicação e engenharia de uma área científica de intensa interdisciplinaridade, na confluência entre diversas disciplinas e suas subdisciplinas, tais como Informática, Linguística, Engenharia Eletrotécnica, Psicologia, Inteligência Artificial, Linguística Computacional, Aprendizagem automática, Tecnologia da fala, Lógica, Filosofia da Linguagem, Psicolinguística, entre várias outras.
Computadores que comunicam com as pessoas
Esta tecnologia está a ser desenvolvida para melhorar a interação homem-máquina. Os computadores atuais ainda não compreendem as nossas línguas naturais, e por seu turno, as linguagens especializadas e de programação, sempre em mudança, usadas pelos computadores são impraticáveis para leigos e utilizadores comuns. Mesmo que o fragmento da linguagem humana, assim como o seu domínio de discurso, forem muito restringidos para que as máquinas os possam processar, a utilização irrestrita da linguagem humana aumenta a produtividade dos sistemas computacionais e dota os seus utilizadores com melhores soluções para o seu trabalho e a sua vida quotidiana.
Software amigável que ouve e fala
Interfaces em linguagem natural permitem aos utilizadores comunicar com os computadores em português, inglês, chinês ou outro idioma humano. Algumas aplicações destas interfaces incluem, por exemplo, interrogações a bases de dados, recuperação de informação a partir de textos, sistemas periciais, serviços de informação móveis, ou controlo de robôs, etc, que associados aos atuais progressos obtidos no reconhecimento e produção de fala estão a permitir melhorar e alargar em muito a sua usabilidade.
Ajudar as pessoas a comunicar umas com as outras
Mais antigos que os problemas de comunicação entre seres humanos e máquinas são os problemas de comunicação entre diferentes pessoas que dominam diferentes línguas. Um dos objetivos da tecnologia da linguagem tem sido sempre a tradução automática completa entre linguagens humanas. Apesar de estarmos ainda longe de alcançar o desiderato ambicioso de traduzir textos sem limitações, é já possível criar sistemas que simplificam o trabalho dos tradutores humanos e melhoram claramente a sua produtividade. Traduções imperfeitas obtidas no instante são também uma ajuda valiosa, por exemplo, para quem tem de procurar em grandes quantidades de informação em línguas estrangeiras, ou para um viajante que se encontra num país estrangeiro cuja língua não domina, entre inúmeros outros exemplos de utilização.
Explorar a linguagem como chave de acesso à web
A imparável expansão da Internet/WWW e a emergência da sociedade de informação proporcionam desafios e oportunidades para a tecnologia da linguagem. Embora os novos media combinem textos, gráficos, sons e vídeos, todo o ciberespaço da informação multimédia e das redes sociais pode ser estruturado, indexado e navegado através da linguagem. Para buscar, navegar, filtrar, resumir, avaliar e processar a informação multilingue na web, precisamos de software que lida com o conteúdo dos documentos. Os sistemas para a gestão de conhecimento e informação multilingues proporcionados pela tecnologia da linguagem ajudam a ultrapassar barreiras linguísticas para o comércio eletrónico, a educação e a cooperação internacional.
A nossa língua materna e a nossa cidadania na sociedade da informação
Nas revoluções tecnológicas que no passado envolveram a linguagem natural (p. ex., o advento da escrita, a imprensa mecânica, etc), muitas línguas perderam a sua relevância, e algumas acabaram por se extinguir, à medida que os seus falantes deixavam de poder beneficiar desses avanços tecnológicos. Para uma língua prosperar na era digital que se avizinha, é necessário que esteja devidamente equipada do ponto de vista tecnológico de forma a poder ser usada para se aceder a todas as pessoas, serviços e bens que irão ficando disponíveis apenas na e através da sociedade da informação. A tecnologia da linguagem é o novo fator disruptivo que está a desencadear uma nova revolução tecnológica, sem precedentes, para a linguagem natural. Apenas uma tecnologia da linguagem desenvolvida e adaptada especificamente para a nossa língua materna permitirá que esta sobreviva na era digital e que nos seja assegurada, a nós e à nossa cultura, uma cidadania plena na sociedade da informação.
Objetivos ambiciosos e aplicações úteis
Ao passo que a simulação total e bem sucedida da competência e desempenho da linguagem humana é o objetivo último, existem inúmeras aplicações que envolvem a conceção, concretização e manutenção de sistemas já existentes que facilitam as nossas tarefas quotidianas, incluindo, por exemplo, corretores gramaticais, legendagem automática de vídeo, software de categorização de documentos, tradução automática, sumarizadores automáticos de texto, ferramentas de monitorização de opinião na web social, sistemas de resposta a perguntas a partir da web, entre muitos outros.
O que é a Tecnologia da Linguagem?
A tecnologia da linguagem (TL) é dinamizada pela necessidade crescente de software amigável para o utilizador e de soluções inovadoras para o multilinguismo. Abrange um amplo leque de tarefas ambiciosas que vão desde o estudo científico da linguagem e pensamento humanos através do desenvolvimento de técnicas computacionais, até à comercialização de soluções, serviços e produtos inovadores e lucrativos que ajudarão a fazer eclodir todas as virtualidades da sociedade da informação.
Está agora apenas a começar.
Clicar para saber mais sobre a tecnologia da linguagem
Componentes básicos e aplicações
Componentes básicos
Eis um elenco com exemplos de tipos de componentes de tecnologia da linguagem.
Ferramentas de processamento
•reconhecedor de fala (speech recognizer)
•separador de frases (sentence splitter)
•separador de palavras (tokenizer)
•anotador morfossintáctico (POS tagger)
•lematizador (lemmatizer)
•analisador morfológico (morphological analyzer)
•reconhecedor de nomes de entidades (named entities recognizer)
•desambiguador da aceção de palavras (word sense disambiguator)
•analisador de constituência sintáctica (syntactic constituency parser)
•analisador de dependências gramaticais (grammatical dependencies parser)
•anotador de papéis semânticos (semantic role labeller)
•gramática de processamento linguístico profundo (deep linguistic processing grammar)
•…
Recursos linguísticos
•corpora anotados (annotated corpora)
•corpora alinhados e paralelos (parallel and aligned corpora)
•bases de dados de fala (speech databases)
•listas de palavras (word lists: abbreviations, proper names, …)
•vocabulários (vocabularies)
•léxicos (lexica)
•ontologias (ontologies)
•terminologias (terminologies)
•treebanks (treebanks)
•propbanks (propbanks)
•bancos de dependências (dependency banks)
•…
Demos de componentes básicos da tecnologia da linguagem
Aplicações
Eis um elenco com exemplos de tipos de aplicações de tecnologia da linguagem.
Interação homem-máquina (human-machine interaction)
•interfaces com dispositivos artificais (interfaces with artificial devices)
•detetor de língua, domínio, autor (language, domain, author detection)
•categorização de documentos (document categorization)
•agrupamento de documentos (document clustering)
•recuperação de documentos (document retrieval)
•extração de informaçao (information extraction)
•extração temporal e de eventos (event and temporal extraction)
•interfaces com bases de dados (database interfaces)
•resposta a perguntas (question answering)
•reconhecimento de fala (speech recognition)
•síntese de fala (speech synthesis)
•sistemas de texto para fala (text to speech systems)
...
Interação multilingue (multilingual interaction)
•tradução automática (machine translation)
•agentes conversacionais (conversational agents)
•publicação multilingue (multilingual publishing)
•…
Produção e verificação linguística (language production and checking)
•correção ortográfica (spell checking)
•correção gramatical (grammatical correction)
•deteção de plagiarismo (plagiarism detection)
•linguagens controloadas e sistemas de produção de documentos (controlled languages and document production systems)
•localização (localization)
•legendagem automática (automatic subtitling)
•sistemas de fala para texto (speech to text systems)
•sumarização (summarization)
•geração de relatórios (report generation)
•sistemas de apoio à tradução (translation support systems)
•simplificação de texto (text simplification)
•…
Aprendizagem de línguas (Language learning )
•aprendizagem apoiada por computador (computer aided learning)
•avaliação de aptidões (skills evaluation)
•…
Web
•gestão de ontologias (ontology management)
•anotação de metadados (annotation with metadata)
•busca web avançada (advanced web search)
•…
A rede europeia de excelência em I&D META-NET
A plataforma de distribuição de componentes de tecnologia da linguagem apresentada neste stand foi promovida pela rede europeia de excelência em I&D META-NET. Esta rede integra quatro projetos parcialmente financiados pela Comissão Europeia e engloba 53 centros de investigação. Um desse projetos é coordenado por um investigador português, o Prof. António Branco, da Universidade de Lisboa.
As equipas portuguesas que participam neste projeto pertencem ao Departamento de Informática da Faculdade de Ciências da Universidade de Lisboa (DI/FCUL, Prof. António Branco), ao Centro de Linguística da Faculdade de Letras da Universidade de Lisboa (CLUL, Profa. Amália Mendes), e ao Instituto Superior Técnico (IST, Profa. Isabel Trancoso).
Mais informação sobre a Rede Europeia de Excelência em I&D META-NET
Contacto para mais informação
Ana Tavares
Project Officer
tel. 217 500 461, [email protected]
Universidade de Lisboa
Departamento de Informática, Faculdade de Ciências
Projeto METANET4U