OVH NEWS | ATUALIDADE, INOVAÇÃO E TENDÊNCIAS TI


Descobrir, compreender e antecipar












03/04/2017
Partilhe

Artigo redigido por Hugo Bonnaffé


A tradução revolucionada através de neurónios artificiais. Um encontro com a SYSTRAN


A empresa SYSTRAN, criada em 1968 pelo Dr. Peter Toma, um linguista húngaro, tem contribuído significativamente para a história das soluções de tradução, desde as plataformas "mainframe" fornecidas à Força Aérea dos Estados Unidos, à União Europeia ou à NASA, até aos primeiros portais Web como o Babelfish, Google ou Yahoo, todos usaram a tecnologia SYSTRAN. Esta empresa, hoje em dia coreana, realiza a maioria da sua Pesquisa e Desenvolvimento (P&D) em Paris. Foi aí que surgiu um novo recurso de tradução inédito que se baseia em neurónios artificiais, estes aproveitam as capacidades únicas de processamento dos servidores GPU. Entrevista.





O que é a SYSTRAN?


É uma empresa comprada em 2014 por CSLi, uma empresa sul-coreana que mudou de nome para SYSTRAN International, esta tem sede em Seul e possui 2 escritórios regionais, um em Paris e outro em San Diego. A Pesquisa e Desenvolvimento (P&D) é sobretudo realizada em Paris. O grupo Systran conta atualmente com 200 funcionários distribuídos em 3 locais, dos quais cerca de 100 são engenheiros em P&D e linguistas especializados.
As soluções de tradução automática da SYSTRAN permitem às empresas melhorar a comunicação multilingue assim como a produtividade em vários setores.
Os principais usos abrangem a colaboração interna, a gestão e a interpretação do Big Data, o eDiscovery ou Electronic discovery (este consiste na busca de provas em documentos armazenados de forma eletrónica, isto no âmbito de procedimentos legais), a gestão de conteúdo, o apoio ao cliente e o comércio on-line. Com mais de 140 pares de línguas, SYSTRAN, é, em termos de tecnologia da tradução, uma referência para empresas multinacionais, para as organizações de defesa e de segurança, mas também para as agências de tradução. Os softwares SYSTRAN são, rapidamente e facilmente, personalizáveis a uma área específica, ou seja, a uma terminologia muito particular: o mundo da engenharia, do jurídico, da indústria, da tecnologia da informação, etc.







Na prática, quais são as vossas soluções?


As soluções SYSTRAN proporcionam, aos profissionais, ferramentas de comunicação multilingues eficazes e seguras que se adaptam às necessidades e ao ambiente de trabalho destes.
O nosso principal produto, o SYSTRAN Enterprise Server (SES) oferece um acesso, em qualquer lugar e a qualquer hora, ao poder das nossas ferramentas de tradução através de uma interface Web que também permite a administração da plataforma. O servidor pode ser hospedado por nós na Nuvem (nomeadamente na OVH) ou localizado no ambiente TI (Tecnologia da Informação) do cliente. Em ambos os casos, a segurança, a integridade dos dados, o respeito da propriedade intelectual e dos dados pessoais são elementos fundamentais. Muitos dos nossos maiores clientes utilizam SYSTRAN para impedir que dados confidenciais sejam libertados, pelos seus funcionários, aos agentes gratuitos da Internet sem que exista qualquer garantia quanto ao uso que estes poderiam fazer desses dados.
Pode acontecer que o cliente precise de ir além dos objetivos do nosso produto: para esse efeito, oferecemos uma Interface de Programação de Aplicações (API), abrindo o caminho para soluções aperfeiçoadas que integram a tecnologia SYSTRAN (por exemplo, a integração com uma ferramenta CRM – Customer Relationship Management).
A nossa API também está disponível em modo SaaS, uma abordagem que tem tido algum sucesso junto de empresas cujo volume de necessidades varia muito ou é pouco previsível.
Em alguns casos, o trabalho de integração já foi efetuado por nós ou pelo parceiro em questão, na sua continuação, oferecemos plugins prontos para o uso (por exemplo, na forma de um add-on para a solução e-Discovery da Kcura).
Alguns clientes desejam desenvolver uma ferramenta abrangente em torno do recurso SYSTRAN. Neste caso, os nossos “kits” de desenvolvimento (SDK) são ideais.
Finalmente, uma versão desktop está também disponível para os utilizadores profissionais isolados ou para empresas de tamanho reduzido.
Por outro lado, os nossos serviços profissionais são desenvolvidos para apoiar os nossos clientes no que concerne à adoção e à integração dos nossos produtos. Estes serviços incluem a formação, a gestão da mudança, a assistência com a instalação, mas também a personalização do ambiente, da terminologia, das línguas suportadas, etc.
Para concluir, o nosso portefólio de produtos e serviços procura ser o mais amplo e abrangente possível por forma a apoiar os nossos clientes no sucesso que estes têm relativamente ao desenvolvimento internacional. Por exemplo, para nós, um projeto comum é desenvolvido em todos os continentes, através uns quarenta pares de línguas para 80 000 utilizadores ou mais.



Quem são os vossos clientes?


O mercado da empresa SYSTRAN é, por natureza, global e multissectorial. Desta forma, os nossos clientes tanto são pequenas ou médias empresas como também são grandes empresas, públicas e privadas, entre as quais: Adobe, PSA, Ford, Claas, Boehringer Ingelheim, Lombard Odier, Société Générale, Petit Futé, Symantec, Hewlett Packard Enterprise, Cisco, PwC, Xerox Litigation Services...



No mercado das soluções de tradução, as ofertas são parecidas umas com as outras e as tecnologias utilizadas são bastante semelhantes. O que diferencia Systran dos concorrentes pagos ou gratuitos?


Os nossos pontos fortes tanto incluem os produtos como os serviços. No que diz respeito aos produtos, um investimento significativo foi feito na P&D, por forma a permanecer sempre um passo à frente. Sendo assim, fomos os primeiros a colocar no mercado um produto comercial que incorpora a tecnologia de tradução neuronal - Pure NeuralTM Machine Translation (PNMT TM). Também damos muita importância ao controle de qualidade através de uma equipa dedicada.
A nossa capacidade para personalizar as ferramentas, nomeadamente com novos pares de línguas, mas também através da especialização das terminologias, torna os nossos produtos muito mais atraentes do que soluções "generalistas" que estão, inevitavelmente, distantes da profissão do cliente.
Além disso, a segurança é uma obsessão para nós. Os servidores que acolhem os SES (SYSTRAN Enterprise Server) estão localizados em datacenters perfeitamente seguros ou são utilizados offline. Neste sentido, os parceiros como a OVH cumprem com estes requisitos de segurança exigentes.
Por fim, a nossa capacidade em apoiar os nossos clientes com serviços profissionais, incluindo o elemento de personalização, diferencia-nos dos agentes que apenas oferecem produtos já prontos.







Relativamente ao vosso recurso de tradução neuronal, como é que este funciona?


O nosso recurso PNMTTM é, de um ponto de vista tecnológico, totalmente diferente das gerações anteriores de recursos de tradução. Este tem por base o "Deep Neural Network" (aprendizagem profunda) e não usa nenhuma representação de conhecimento linguístico. Isto representa uma enorme diferença em relação à abordagem RBMT que é sustentada por uma base de dados de regras linguísticas (por exemplo, dicionários), ou ao método estatístico (SMT) desenvolvido através de uma base de dados de fragmentos de frases alinhadas. Como acontece num cérebro humano, o conhecimento linguístico está codificado dentro das ligações entre os neurónios artificiais; estas ligações são aprendidas e ajustadas automaticamente durante a fase de aprendizagem do sistema (o mesmo ocorre quando um ser humano aprende uma língua). Na verdade, o recurso PNMTTM adquire conhecimento através de várias fontes de dados. As tecnologias anteriores não foram capazes de operar automaticamente essas fontes de dados como são a semântica, o estilo, o género, o conceito de positivo/negativo...



Que novas utilizações o vosso recurso de tradução neuronal torna possível?


Pela primeira vez, contamos com uma tecnologia capaz de compreender as frases no seu contexto e de as traduzir com uma maior qualidade do que a maioria dos não-nativos da língua em questão. Acreditamos que esta tecnologia vai se tornar num assistente indispensável para quem viaja, comunica em línguas estrangeiras (e-mails, chat’s de conversa, redação de artigos científicos...). Estamos também a estudar o desenvolvimento de aplicativos secundários, tais como assistentes para a aprendizagem de línguas ou chatbot’s multilingues...
No futuro, a questão já não será traduzir, mas sim comunicar em diferentes línguas e linguagens, e isto, sem deixar de parte as especificidades e peculiaridades que oferecem, a cada uma destas línguas, riqueza e singularidade.
Pode testar por si mesmo a qualidade de uma tradução neuronal genérica usando o nosso servidor de demonstração: https://demo-pnmt.systran.net/



Quando falamos em machine learning, diz-se muitas vezes que a qualidade dos dados apresentados aos algoritmos para permitir a aprendizagem é tão importante quanto a qualidade dos próprios algoritmos. De que são constituídos os corpora de textos que fazem parte dos neurónios artificiais do vosso recurso de tradução?


Trata-se, sobretudo, de corpora livres e de open source fornecidos por instituições como as Nações Unidas, a União Europeia, o Banco Central Europeu, o Parlamento canadiano, o Instituto de Patentes, ou então por comunidades como o OpenSubtitles e muitas outras. Também desenvolvemos o nosso próprio corpus para áreas específicas e adquirimos corpora junto de agências especializadas. Além disso, os nossos clientes têm, evidentemente, a possibilidade de utilizar as suas próprias memórias de tradução por forma a especializar as suas traduções.



Que infraestrutura foi criada junto da OVH para hospedar este recurso de tradução neuronal?


A infraestrutura é composta por 2 "front-ends" e de vários “compute nodes”. Os "front-ends" usam o servidor infraestrutura EG-64-S: 64 GB RAM, CPU E5-1650v2, disco Softraid 2x4 TB e os “compute nodes” são compostos por uma mistura entre o servidor CPU: Infraestrutura HG (Intel 2x Xeon E5-2640v3, 16c / 32t - 2,6 GHz / 3,4 GHz, 256 GB de RAM, 2x4 TB HD) e o servidor GPU: GPU-4X-1080: 128G 2xE5-2630v3 240 GB SSD 4xGTX 1080.



Qual é a mais-valia dos servidores GPU para o vosso setor de atividade em comparação com o uso de servidores com CPU?


Os servidores GPU proporcionam tempos de tradução mais curtos. A velocidade de tradução GPU é atualmente 3 vezes superior à dos núcleos de processamento CPU. As limitações da tecnologia GPU são a RAM GPU (cada modelo utiliza, em média, 2 Gb de RAM GPU) e a capacidade computacional (8,9 TFlops). Os servidores GPU também permitem a criação de modelos de tradução. Estes modelos possuem tamanhos bem mais compactos que os demais e produzem uma tradução com uma qualidade acrescida.



Como vê o futuro do vosso setor de atividade? A tradução imediata de uma conversa oral ainda faz parte da ficção científica?


Estamos empenhados em oferecer ao mercado soluções especializadas baseadas no nosso conhecimento no domínio das línguas. Este passo vai muito além da capacidade a produzir tradução automática e genérica.
Do ponto de vista dos negócios, isto significa que para qualquer empresa global, o processamento dos diferentes idiomas será parte integrante dos seus processos, e que os falantes de língua francesa, inglesa ou chinesa poderão comunicar entre si de forma espontânea e transparente na língua de cada um deles. Hoje em dia, as soluções que existem são geralmente implementadas no final do processo. Por exemplo, só depois de receber um e-mail escrito numa língua estrangeira, um pedido de proposta oriundo da China, etc. Já percebemos que precisamos da tradução, todavia, a solução não está integrada no interior do processo: aquando da criação de um documento, durante uma chamada de conferência ou então quando precisa de comentar um documento numa outra língua que não a sua, etc.
As perspetivas evidenciadas pela inteligência artificial e pelos algoritmos que criamos são infinitas. Em breve, poderemos usar essas mesmas redes neuronais para facilitar a aprendizagem de uma língua estrangeira e para produzir, diretamente, conteúdo multilingue. Também será possível falarmos na nossa língua materna e sermos entendidos pelo nosso interlocutor estrangeiro através de um "objeto conectado" colocado no ouvido que estará a traduzir em tempo real… Está longe de se tratar de ficção científica, este cenário é uma perspetiva real e realizável a muito curto prazo. A inteligência artificial ainda nos reserva muitas surpresas e vai continuar a enriquecer a nossa prática profissional. Estamos apenas no início...