Alguns anos atrás, quando comecei a saber mais sobre serviços gratuitos de Internet, os cookies e a transferência de dados privados, considerei a possibilidade de escrever sobre o tema. No entanto, o meio em que eu trabalhava na época não tinha espaço físico suficiente para tratar o assunto com alguma profundidade e, para ser honesta, não me sentia totalmente confortável em fazê-lo. Por um lado, tinha as paranoias pessoais e não sabia como abordar a questão para que resultasse o mais objetiva possível. Depois de um tempo, o termo Big Data (ou dados massivos) começou a ser ouvido nos media, as políticas de proteção de dados tornaram-se mais percetíveis, a falta de segurança sobre eles com o caso Snowden e a NSA em primeiro plano tornou-se mais presente. Há alguns meses atrás finalmente me propus começar a trabalhar e colocar em ordem a documentação que tinha sido recolhida. O que mais havia era informação sobre o tema. Assisti a vários eventos da IBM, onde a gestão de Big Data foi amplamente tocada, principalmente do ponto de vista mais comercial. No canal 2 da televisão pública espanhola, emitiram uma entrevista com três convidados (Fernando Villaespín, Juan Manuel García Campo e Antonio Martínez Ron) no programa “Torres y Reyes”, foi dedicada a isso. Os jornais faziam eco do tema todos os dias, e a edição de janeiro de 2014 da Investigação e Ciência dedica uma reportagem especial aos macro dados.

Que contribuição adicional se pode dar quando os dados em massa já se tinham convertido num tema popular do qual todos falavam? A primeira conclusão que vejo em tudo ao redor dos Big Data é que são, simplesmente, uma ferramenta. Algo útil em muitas frentes: saúde, economia, marketing, publicidade, psicologia, defesa… O que é preocupante não é o que são, mas para o que são usados e, acima de tudo, quem os usa. Mas vamos começar pelo princípio (e terminar no final, como diria Les Luthiers).

O que é Big Data?

Há milhares de anos, o Egito já tinha um censo onde registava tanto as propriedades como os proprietários. Também foi importante, dadas as limitações físicas do território fértil do país, manter o nível populacional o mais estável possível. Esse censo foi muito útil para o conseguir. As tábuas de argila da Mesopotâmia registaram praticamente todas as questões burocráticas e administrativas de interesse das sociedades que habitavam entre os dois rios. Nas antigas Grécia e Roma, foram realizados censos populacionais periódicos para gerenciar a arrecadação de impostos e os recursos que dispunham os territórios. Algo não muito diferente aconteceu na antiga China.

Durante muitos, muitos séculos, a recolha e gestão destes dados foi feita inteiramente à mão, com funcionários deslocando-se para os confins mais distantes das suas fronteiras, anotando, um a um, os habitantes, bens e outros dados de interesse para o bom funcionamento do Estado. O problema costumava ser que quando a recontagem acabava e os dados estavam nas mãos de administradores e governantes, eles já estavam obsoletos.

Mas os estados não só precisavam saber o número de habitantes pelos municípios, o seu sexo, idade, estado civil ou as suas profissões e formações. Ao fazê-lo, esperavam obter informações originárias para ajudá-los a prever tendências de crescimento ou declínio, ajustar impostos ou gerenciar as reservas de alimentos. Historicamente, Ibn Khaldun (século XIV) é considerado o primeiro demógrafo da história. A sua contribuição fundamental foi a representação de dados estatísticos e a recolha, a partir daí, de novos dados que ele habilmente, sabia como analisar e interrelacionar nas suas obras. Na sua visão da história, Ibn Khaldun entende que saber analisar adequadamente os acontecimentos passados nos permite entender o que acontece no presente. Posteriormente, no século XVIII, o britânico Thomas Robert Malthus analisou os dados populacionais da época e já se falava sobre a constante tendência de crescimento desta, muito acima da produção de alimentos. É por estes mesmos anos, principalmente no século XIX, que se descreve a estatística como ciência capaz de recolher e classificar os dados. E chamava-se estatística porque nasceu da necessidade de os Estados de conhecerem mais sobre o que se passava dentro das suas fronteiras. Isso não quer dizer que nas civilizações antigas não a colocassem em prática. O que acontece é que não foi até os últimos séculos que foi alcançada uma sistematização e um maior desenvolvimento de técnicas de recolha e análise de dados. Mas não de todos os dados. O objetivo, neste caso, foi, com base numa pequena amostra de dados que representasse o total, obter resultados precisos e extrapolados para a maior parte do conjunto.

A grande revolução disso foi que já não era necessário ir pessoa por pessoa perguntando, mas que poderiam ser inquiridos alguns e assumir que o resto da população produziria dados semelhantes. As possibilidades de obter resultados mais rápido e mais barato cresceram, mas não a sua fiabilidade. Com o tempo, surgiram fórmulas de correção que ajudaram a afinar ainda mais as previsões, equilibrando as possíveis falhas na recolha de dados e aprendendo a maneira correta de selecionar a amostra

A Estatística abriu as portas a todo o tipo de pesquisas e sondagens para eleições ou referendos e, claro, não apenas encomendadas pelos governos. Empresas de todos os tipos queriam saber a opinião dos cidadãos, consumidores, público, clientes e usuários: Indica de 1 a 10, sendo 1 nada satisfeito e 10 muito satisfeito, a sua satisfação com a atenção recebida. Com a chegada da era digital, a comodidade de realizar pesquisas online e digitalizar os resultados rapidamente aumentou a quantidade de dados processados. Mas não acaba aqui.

O VALOR DO BIG DATA ESTÁ NOS RESULTADOS DAS CORRELAÇÕES

As administrações públicas, as seguradoras e os bancos, foram as entidades que tradicionalmente tinham mais informações sobre nós: idade, sexo, estado civil, estudos, dívidas, empréstimos, hipotecas, contas, capacidade de poupança, emprego, cursos extracurriculares, bolsas de estudo, doenças, acidentes, ações judiciais, etc. Com esses dados nas mãos, os bancos nos ofereceram (ou não) cartões de crédito e empréstimos pessoais com certas garantias de pagamento da nossa parte sem sequer ter de efetuar o pedido. Depois vieram as companhias telefónicas: para quem ligamos com maior frequência, a que horas, durante quanto tempo e se é durante a semana ou fim de semana. É perfeito para desenvolver planos personalizados com base nos usos da maioria dos grupos populacionais e garantir a permanência dos clientes. Ficam com o trabalho já feito. Mas, e se esses dados pudessem ser cruzados com os bancários? Ou os de nacionalidade do censo? Ou quanto aos cuidados de saúde ou não-pagamentos com as companhias de seguros? Como acertar com os preços das tarifas para que, por exemplo, os alunos (sempre com falta de guita) se interessem e se unam à empresa? E com os imigrantes? Poderiam avaliar as seguradoras a conveniência de assinar ou não a apólice com alguém?

Figura 2 – Tratado em fisiognomonia. Domínio Público

O maior valor dos dados massivos está precisamente na capacidade de fazer correlações inteligentes. Um exemplo disso é a cadeia Walmart, segundo explicam no livro “Big Data. A revolução dos dados massivos”, Viktor Mayer-Schénberger e Kenneth Cukier. Analisando os seus dados de vendas, descobriram que havia uma relação entre o aviso de aproximação de furacões e o aumento das vendas de lanternas e um doce chamado Pop-Tarts. As razões desse facto são irrelevantes, só tinham que estar pendentes aos alertas meteorológicos e colocar, antes de um furacão, os Pop-Tarts na frente das lojas, perto dos kits habituais para furacões e aumentariam as vendas.

Ainda nos estamos a mover dentro do mundo da probabilidade e da sondagem. A principal desvantagem disso é que, como regra geral (mais do que se acredita), as pessoas mentem nas urnas. Uma investigação do University College of London, com dados do Ministério das Finanças e Aduaneiras britânico, concluiu precisamente que as pessoas mentem nas urnas, e que a razão é que eles tentam adaptar a sua resposta ao que eles assumem que outros responderão, mais preocupados com a sua imagem do que com a importância do estudo. Os médicos e os advogados não ficarão surpreendidos com isso. Um velho ditado recomenda: “Ao médico, ao confessor e ao advogado, falem claro”, mas quase ninguém o faz, e os profissionais de saúde e as leis acumulam muitas experiências com pacientes e clientes para provar isso. Se, como o Dr. House alegou, “toda a gente mente”, quanta verdade se pode esperar de uma pesquisa? Claro que, por essa regra de três, quanta verdade se pode esperar das redes sociais? Mesmo quando as próprias redes querem se vender afirmando que as pessoas são mais propensas a dizer a verdade no meio virtual do que no real.

Com a Internet, o uso de dados teve uma nova reviravolta. Os serviços de correio online, mecanismos de busca e as redes sociais começaram a acumular enormes quantidades de dados sobre os usuários, as suas amizades, gostos, costumes, associações, preocupações, famílias, empregos, opiniões, viagens, leituras, músicas… e o melhor, sem ter que perguntar nada. Todos esses dados são fornecidos pelos usuários da Internet de forma voluntária e constante. E o que é mais curioso; grátis. E o dossiê pessoal de informações entregues inclui fotos, compras online, gestão bancária, procedimentos administrativos, vídeos, áudios, opiniões políticas, avaliações de produtos e empresas, comentários sobre as nossas inimizades com outros usuários da rede, o que vamos fazer e o que fizemos… Há até aqueles que dão a sua identificação, número de conta bancária e endereço pessoal, e logo sobre isso eles pensam ser sinceros. Não é por nada que sites como o Facebook que chamam de “Biografia” a página inicial de cada perfil. Se a isto acrescentar todas as bibliotecas, documentos e arquivos que foram digitalizados nos últimos anos, a quantidade de dados armazenados é estonteante.

Um exemplo é que o Google processa diariamente mais de 24 petabytes, o que equivale a milhares de vezes o número total de textos impressos na Biblioteca do Congresso dos Estados Unidos. Com toda essa informação disponível praticamente em tempo real, tudo o que tinha que fazer era saber como usá-la. O problema de ter em mãos um volume tão mastodôntico de dados é que tem que se criar algoritmos que sejam efetivamente capazes de processar todos eles. Um processamento que facilita a tarefa depois: analisá-los para obter pistas com as quais “adivinhar” o futuro.

O Big Data tem sido chamado de “o novo recurso natural”. De facto, num dos encontros organizados pela IBM, onde se tratava a questão dos dados massivos, comparava-se a obtenção de Big Data com o processo de extração de ouro: fazer pesquisas para localizar veios, cavar até eles, extrair o minério bruto, separando-o do que não vale, fundi-lo para obter um lingote de ouro e trabalhá-lo na forma de uma joia para agregar ainda mais valor. Como novo “ouro”, os dados massivos também precisam dos seus próprios cofres para protegê-los de roubos.

Não deixa de ser uma ironia que os direitos de exploração e lucro das nossas vidas (cedidas gratuitamente) pertença a outros. Pessoalmente, fico maravilhada com a medida em que, a ausência de uma educação real nas pessoas (não a que ensina a acumular dados, mas a que ensina a pensar por si mesmo e a ter uma sólida ética pessoal), facilita a geração e a proliferação deste tipo de negócios.

Como se tira ouro desta mina?

Um dos “picos e pás” com que os mineradores da Internet cavam em busca ouro é chamado cookie. Segundo explica Google na sua seção Políticas e Princípios: “Um cookie é um pequeno fragmento de texto que os sites que visitamos enviam ao navegador e permite que o site lembre informações sobre a tua visita, como o teu idioma preferido e outras opções, o que pode facilitar a tua próxima visita e tornar o site mais útil para ti.” Também diz: “O Google usa cookies com diversos propósitos, incluindo lembrar as tuas preferências do SafeSearch, aumentar a relevância dos anúncios que vês, contar o número de visitas que recebemos para aceder a uma página, ajudar a te registares nos nossos serviços e proteger os teus dados.”

Google recolhe todo tipo de informação sobre o usuário da rede. Não só para lembrar as preferências de navegação e evitar o “terrível” incómodo de digitar mais do que duas vezes a mesma coisa. Ao grande mecanismo de busca demos-lhe o nosso telefone e inúmeros dados pessoais, mas o que não lhe demos o tomou sozinho. Lê os nossos chats, correio eletrónico, incluindo os anexos, sabe a quem escrevemos e o que escrevemos, a nossa filiação e relação com essas pessoas, conhece os nossos locais habituais e também pretende conhecer nossos gostos e preferências.

Figura 3 – Métodos e inventário de vigilância de combate do Exército dos EUA. Domínio Público

Quem usa o Chrome e tem uma conta do Gmail não perceberá há muito tempo que o Google lhe oferece, com frequência, publicidade relacionada com as conversas do Hangouts que tenha tido com amigos ou correios eletrónicos que cruzou com a família. O Google garante que em nenhum momento são os correios eletrónicos lidos por pessoas, apenas por robôs (ou, o que é o mesmo, os cookies) e com a única intenção de poder oferecer publicidade e promoções das coisas que realmente nos interessam. No entanto, na ausência de ter o mesmo arsenal de informações que o Google, ouso dizer que o número de pessoas no mundo que estão realmente interessadas em receber publicidade não é suficiente para dar-lhe o nome de “nicho de mercado“.

OS COOKIES DO GOOGLE LEEM CORREIOS ELETRONICOS, CHATS E ANEXOS

Os GPS são outro dos dispositivos de busca de dados. Neste caso sobre a localização das pessoas, além dos meios de transporte que usa nas suas viagens, a velocidade em que o faz, onde param, quanto tempo e também quem está nas proximidades ou, diretamente connosco. Os dados de geoposicionamento por satélite podem ser recolhidos através de dispositivos instalados em carros. Muitas empresas de correios controlam a posição e as rotas dos seus veículos graças a esta tecnologia. Também é possível saber com bastante precisão onde se encontra uma pessoa triangulando a sua posição de acordo com os routers wi-fi ou torres telefónicas que ligam e a intensidade do sinal recebido. A vantagem deste sistema é que pode localizar alguém onde o GPS não chega, que está no interior dos edifícios. Enquanto o Google percorria as cidades do mundo com os seus carros para mapear o Google Street View, ficou conhecido que quando as suas câmaras tiraram fotos do ambiente, outros dispositivos capturaram informações dos routers wi-fi (muitos deles privados) que havia e onde estavam. A reviravolta não foi exatamente pequena quando também tornou público que tinham vindo para capturar trechos de conversas no Messenger com nomes de usuário incluídos. É melhor pedir desculpas do que permissão, dizem alguns. O Google pediu desculpas pelo descuido.

As operadoras telefónicas também recolhem e analisam dados dos seus usuários. Primeiro faziam para melhorar o serviço prestado aos seus clientes. Posteriormente, esses dados, e muitos outros sistematicamente recolhidos como a localização (mesmo que não haja um aplicativo específico que possa fazê-lo), têm sido usados para fornecer-lhes algo que todos (mesmo que não saibam) querem ter: publicidade personalizada segundo o lugar onde se encontre nesse momento.

Mas não há uma lei de proteção de dados? A lei existe, mas uma lei não é um sistema de segurança, e a frequência com que a Lei de Proteção de Dados se ignora, é prova disso. De acordo com a Agência Espanhola de Proteção de Dados, a proteção de dados é um direito fundamental que “reconhece ao cidadão a faculdade de controlar os seus dados pessoais e a capacidade de dispor e decidir sobre eles”. Esclarece ainda que os dados pessoais são “qualquer informação que permita identificar-te ou tornar-te identificável”, e que “a lei reconhece a todos o direito de saber porquê, para quê e como vão ser processados os seus dados pessoais e decidir sobre seu uso“. Este último inclui que as empresas que armazenam dados pessoais, devem informar de forma clara, evidente e inequivocamente compreensível, sobre a identidade e endereço da empresa, sobre a existência do ficheiro ou o processamento em que incluirão os nossos dados, a finalidade deles, se os vão fornecer a terceiros e como podemos aceder aos nossos e corrigi-los. Isto é, entre outras coisas, o que diz a lei, mas na realidade, o que geralmente acontece é algo muito diferente.

No entanto, várias experiências mostram que, por mais anónimos que sejam os dados recolhidos, é tanta a informações disponível que o algoritmo adequado pode pegar um conjunto de dados e vinculá-los exclusivamente a uma pessoa. De acordo com a lei, os dados pessoais só podem ser recolhidos e usados se o usuário tiver dado o seu consentimento. Com uma única exceção. Somente se os dados pessoais forem recolhidos para as necessidades da Administração Pública para o exercício das suas próprias funções, poderão ser obtidos sem o consentimento da pessoa. Mas mesmo que tenhamos dado nosso consentimento, este deve ser gratuito (exceto como dissemos em algumas questões da administração pública que podem obrigar-nos a dar os nossos dados), antes e informados ou, o que é o mesmo, antes de dar o consentimento, eles devem ter-nos explicado muito claramente para quê os dados serão usados. Basta simplesmente dizer que pedem os nossos dados para melhorar a nossa experiência de navegação, de usuário, com a conta, com a aplicação, etc., são só alguns exemplos. Isto não é dizer claramente para quê os dados serão usados. O Google já foi denunciado em vários países por ignorar as suas respetivas leis de proteção de dados, incluindo a Espanha.

Antes que as pessoas começassem a se perguntar como as redes sociais como o Facebook poderiam ganhar tanto dinheiro se eram gratuitas (vale o mesmo para alguns serviços online e apps), estas já levavam muitas informações sobre os milhões de usuários que, voluntariamente, haviam compartilhado suas relações de amizade, amor e família, férias, fotos, estudos, cidades, opiniões , vídeos, projetos, música, interesses, preocupações e qualquer outra coisa que possamos pensar.

Figura 4 – Lanternas mágicas, Conroy Maddox (1938). WikiArt

Com cerca de uns mil milhões de usuários em todo o mundo interligados entre si, o Facebook tem, sozinho, uma parte do bolo de dados equivalente a 10% do total do planeta. O seu botão “Like” é sem dúvida uma das invenções mais lucrativas dos últimos tempos. O Twitter, por sua vez, conseguiu aproveitar os pensamentos e humores que as pessoas transformam, às vezes impulsivamente, nos seus 140 caracteres.

Os governos também têm seu próprio e ilimitado Big Data: dados censitários, altas e perdas na segurança social, subsídios e auxílios estatais, escolaridade, criação e encerramento de empresas, património, heranças, historial médico, contas com as finanças, veículos, processos judiciais, animais de estimação… Quase qualquer área da vida que nos passa pela cabeça requer, em algum ou outro momento, ir à administração pública e preencher um formulário com os nossos dados. É desnecessário dizer, que há o banco, a companhia de seguros, a empresa financeira, o supermercado, o posto de gasolina, etc. Sobre a pergunta “Como se tira ouro desta mina?”, a resposta é “Agarra tudo, qualquer coisa pode valer a pena“.

Para que se usa?

A empresa Quantifying Movie Magic assegurava, em junho de 2013, que poderia prever, com um nível de certeza de 94%, o sucesso ou fracasso que um filme teria apenas analisando as pesquisas que os usuários faziam no Google. Três anos antes, em 2010, informáticos do Social Computing Lab da HP realizaram pesquisas nas quais afirmavam ser capazes de calcular, graças ao número e frequência de publicações de tweets num determinado filme, se teria sucesso nas bilheterias. Numa série de futurologia, também afirmaram ser capazes de prever qual seria a bilheteira, com uma margem de erro muito baixa. E a partir do momento em que aprendes a prever o futuro, é-te indiferente oito ou oitenta, venderam a invenção como uma ferramenta perfeita para conhecer, previamente, tanto o resultado dos processos eleitorais como o sucesso dos produtos antes de chegar ao mercado.

Os dotes divinatórios das redes sociais estão desde então sob os holofotes. Tendo o algoritmo a capacidade de avançar neste tipo de coisas com alguma precisão, uma empresa poderia realmente ter muitos benefícios. O que não está tão claro é se essa leitura do Big Data é realmente possível. Daniel Gayo, professor de ciência da computação da Universidade de Oviedo, afirma categoricamente que não se pode. As razões que alega para isso não estão isentas de sentido lógico: Nem todos estão usando o Twitter, por isso não se pode ser considerado uma amostra significativa da população eleitoral. Então, nem todos os que dão a sua opinião no Twitter, comentam sobre política, nem tudo o que é dito no Twitter é verdade, ou como disse Anatole França: “Se 50 milhões de pessoas acreditam em tolices, continua a ser um absurdo”. Finalmente, deve-se ter em conta que, mesmo que se criem muitas ferramentas de análise, há algo que nenhuma é ainda capaz de fazer, que é reconhecer o sarcasmo e a ironia dos escribas, algo a partir do qual os comentários sobre política não são exatamente isentos.

Podem os sistemas de análise de sentimentos ter 100% de certeza das interpretações que fazem? Parece que não é assim tão simples. A denominada análise de sentimentos pode não ser capaz, por enquanto, de se tornar um meio preditivo confiável, mas que as grandes corporações que lidam com os dados estão a tentar, isso é mais que certo. Sem ir mais longe, o Facebook tem trabalhado para tirar proveito de uma riqueza de informações “psicopessoais”, que deve parecer para esta empresa pouco mais valiosas do que o elmo de Mambrino. Resumindo. Imagina que acabas de ter aquela gota que enche o copo da paciência e decides desabafar no teu muro. Começas a escrever, mas, antes de publicar, te arrependes de algumas das passagens mais difíceis e as excluis. E já que tens tempo para relê-lo, adicionas isto, removes aquilo, e depois isso, aprovas interiormente uma mensagem talvez mais correta e menos carregada de emoção. Não pensavas que era uma sorte que a tua ideia original tivesse ficado atrás do “Enter”? Não eras tu o único que sabia exatamente o que estavas prestes a dizer? Ao menos na segunda pergunta, enganas-te de princípio ao fim. Acontece que o Facebook tem guardado tudo o que escreves. Mesmo que não o publiques. Quais são as implicações disto? Que utilidade tem para as empresas conhecerem os nossos filtros autocensura? Aquilo que nós mesmos somos incapazes de dizer, mas que obviamente pensamos?

De acordo com o site da Ars Technica, no caso das compras online, serve para detetar quais são os fatores que fazem o usuário arrepender-se de um processo de compra antes de realizá-lo. O facto de que a privacidade da consciência não é respeitada e de que o seu direito de repensar as coisas parece que não é tão importante, em comparação com a necessidade urgente de conseguir que o potencial cliente chega ao fim quando se trata de comprar.

Figura 5 – Desportistas, Kazimir Malevich (1931). Domínio Público

O FACEBOOK GUARDA TUDO O QUE ESCREVES AINDA QUE NÃO O PUBLIQUES

Nota: Os movimentos do rato sobre o ecrã também são monitorados, fundamentalmente para saber o que é que o usuário segue com o olhar no monitor, qual a ordem e durante quanto tempo. Mais uma vez, a Lei de Proteção de Dados é usada como papel de rascunho.

O ouro é mais valioso quando se sabe o que fazer com ele, e ainda mais enquanto se encontram aplicações novas e inovadoras. Por exemplo: prever se a pessoa vai pagar o crédito para decidir se lhe concede ou não. Ou ver se alguém está mais predisposto a ter algum tipo de doença ou acidente. As companhias de seguros venderiam a sua alma (ou a tua) para saber isso. E se se pudesse saber que uma pessoa é um assassino e pará-lo antes que ele mate alguém? Espere, isso foi um filme… Minority Report, não? No entanto, uma pesquisa da Universidade Lund Sverker Sikstrom, na Suécia, analisa os perfis e publicações no Facebook para determinar traços de psicopatia nas pessoas. Além disso, com a ideia de “Diz-me com quem andas e te direi quem és”, há pesquisas que estudam as relações das pessoas através das redes sociais para marcar grupos de amizade para características psicológicas semelhantes. É como se entre as tuas amizades há pessoas que não estão em dia nas suas contas com as finanças, se poderia entender que a tua mentalidade, como a dos defraudadores, é fraudadora em potência. Se estes dados forem levados em consideração nas entidades bancárias, confere a tua lista de amigos da próxima vez que te negarem um crédito.

Os usos que se dão aos dados massivos são tão amplos como a capacidade progressiva de encontrar correlações. As previsões do PIB baseadas na atividade económica mundial, prevenir golpes de companhias de seguros, a reação a uma nova campanha de TV, conhecer a necessidade de criar novas infraestruturas de telefone móvel, onde detetar surtos mundiais de gripe, determinar o valor dos placards com base no número de pessoas que passam por essa zona, ampliar o crédito a uma pessoa, melhorar o reconhecimento de voz e texto, previsões de negócios, detetar relações entre hábitos alimentares e doenças, fazer recomendações de compra… quase tudo o que se imagina poderia ter um link para análise dos Big Data.

Como reconhecer a linguagem natural

Uma das questões fundamentais da informática é a comunicação. Comunicar com uma máquina para que possamos dizer o que queremos que faça e entenda o que dizemos. Desde que o nosso mundo se move, compartilha, ordena e busca através de um computador, tem sido necessário avançar na linguagem. Uma vez que já não é um pequeno grupo de especialistas em informática que interagem com máquinas, mas todos através de um computador, tablet, telefone, etc. o mais prático é fazer que entendam a linguagem natural.

Quando se trata de digitar um termo num motor de busca, já não pensamos tanto em como nos expressar para que nos entenda. O desenvolvimento das tecnologias de interpretação de linguagem e cookies, permite que o motor de busca não só entenda o significado de uma frase, mas também conhecer com bastante precisão a que se refere uma determinada pessoa, extraindo dados do seu histórico de navegação, entre outras coisas. Esta necessidade é o que permitiu uma relação curiosa; a da tecnologia com os filólogos. Sobre este assunto TnL esteve conversando com Josu Gómez, cofundador da Bitext, uma empresa fundada por filólogos que consegue que as máquinas entendam a linguagem natural e a analisem, sem se desviar muito do real significado das palavras.

Aqueles que na escola sempre reclamaram que a análise sintática e gramatical era inútil agora terão um argumento de peso para reconhecer o seu erro. “Basicamente, a linguagem é linguística. Para entender o castelhano tem que pesquisar o dicionário, com os seus mais de três milhões de palavras e, em seguida, pegar textos e aplicar-lhes as regras gramaticais. Se isso for usado de forma flexível, é possível aplicar regras de construção de idiomas a meios tão diversas como os sms ou Twitter e, a partir daí, aplicar módulos de negócios“, explica Josu Gómez.

Entre 2008 e 2010, as empresas perceberam que tinham muitas informações acumuladas no interior, embora precisem das ferramentas para encontrá-las e lucrar com isso. Então perceberam que há ainda mais informações que lhes interessam, como tudo o que os usuários dizem sobre eles nas redes sociais. Querem saber o que é dito sobre eles, e para isso devem determinar quais são as estruturas dos textos que abrigam sentimentos. Como explica Gomez: “A estrutura quando se trata de falar a linguagem natural, tem parâmetros bastante fixos“.

AS MÁQUINAS AINDA NÃO CONSEGUEM DETECTAR A IRONIA HUMANA

Um exemplo. A frase “Está melhor” pode ser classificada como positiva, no entanto, pode ter outras conotações, como se ainda não estivesse totalmente bem. No caso de frases comparativas, terá significados positivos para um e negativo para outro: “Apple é melhor que a Samsung”. Em casos como este, os sistemas de algoritmos adicionariam um negativo mais um positivo e o resultado seria uma frase neutra, quando na verdade seria positivo para a Apple e negativo para a Samsung.

Algo semelhante acontecia com frases como “Pepephone tem um bom serviço técnico”. A avaliação positiva que é feita então não pode ser aplicada ao conjunto, mas à particularidade da qual se diz ser boa, ou seja, o serviço técnico. O que a Bitext fez foi rotular, um por um e pessoalmente, cada post como positivo e negativo, até um milhão de cada tipo, e isso foi usado como exemplo. Em seguida, dez mil posts foram colocados e o programa já era capaz de dizer quais eram positivos e quais negativos. Nas páginas turísticas, as pontuações dos usuários com estrelas são frequentemente usadas para classificar um lugar, mas isso não permite saber o que é que efetivamente o usuário gostou ou não gostou. Uma frase que diz “Tive um acidente e chamei a Mapfre” não pode colocar o rótulo negativo na frase só porque inclui a palavra “acidente”.

A Bitext garante que pode dar, até 80%, o significado real e avaliação de cada frase. A margem de erro é de 30%. Utilizando a estatística, um 80% de sucesso num milhão de posts, dá uma correlação mais aproximada da realidade do que 100% em 10 post que este sim é impossível de atingir, comenta Gómez. Para Josu Gómez, na realidade, as máquinas não aprendem automaticamente, mas melhoram de acordo com a programação que é feita nelas.

Figura 6 – Aparelho de medição de crânio e cliometria, de 1902. Domínio Público

No caso do Bitext, as frases são conferidas manualmente e as correções necessárias são inseridas no sistema para corrigir falhas ou deficiências. Os clientes querem saber quando uma campanha está sendo feita contra eles, quais classificações são feitas dos partidos políticos antes das eleições, ou quando um protesto será feito a um banco ou entidade pública.

Onde há uma lacuna inultrapassável, por enquanto, é na deteção de ironia ou o sarcasmo. “Atualmente é absolutamente impossível diferenciá-los sem ter a pessoa à sua frente e ainda assim não é algo fácil de identificar, precisamente porque a ironia é pensada para ser indetetável, para que pareça realidade. Se às vezes temos dificuldade em vê-la, para uma máquina é muito mais difícil“, explica Gomez. Para poder detetá-lo, os programas deveriam ser capazes de entrar na mente do interlocutor. Não andamos longe, porque os neurocientistas da Universidade de Berkley já estão tomando medidas no desenvolvimento de um sistema que nos permitirá “ler” o pensamento. E se realmente queremos ficar paranoicos, a ciência também está trazendo mais perto da realidade ficções como a daquele filme de Schwarzenegger, Desafio Total. E investigadores do MIT implantaram com sucesso falsas memórias em ratos.

Figura 7 – Plano do Panóptico (1791). Domínio Público

A privacidade é possível?

Embora a Internet ainda não tivesse sido inventada, a privacidade como tal não existia. Se José Mota triunfou com a sua personagem “Vieja del visillo” é porque retrata a realidade dos boatos. Sempre teve que lidar com vizinhos curiosos, questionando e intrigando. Sendo realistas, a menos que se more numa ilha deserta, ou nalgum lugar recôndito longe de qualquer ser humano, a absoluta privacidade é impossível.

É inevitável ter que dar informações pessoais às administrações públicas, ao Tesouro, ao banco ou às lojas online para trabalhar em todo o mundo, mas podemos aspirar a um grau razoável de privacidade. Para isso é bom distinguir entre os dados pessoais que precisamos dar para formalidades ou para receber um serviço (por exemplo, dar nosso endereço e telefone para nos enviar uma compra a casa), e os dados que empresas ou instituições recolhem fora disto, e daqueles que lucram.

A implementação de novas funcionalidades em serviços online para “melhorar o uso”, especialmente as gratuitas (atenção que um serviço que seja pago não significa que ele não use os dados pessoais dos seus usuários), geralmente tem uma pequena invasão na privacidade das pessoas, ou um certo grau de pressão para inclinar a liberdade de escolha numa direção ou noutra. O serviço de geolocalização do Twitter, Shazam ou Google, a integração de mensagens de texto no Hangouts, o envio de correio eletrónico para usuários do Google+ sem ter que conhecer o seu email, enviar fotos para o Whatsapp, mensagens de voz e vídeo… todos eles recolhem dados que não têm nada a ver diretamente com a função original e que não só melhoram a experiência do usuário.

Praticamente ninguém lê os termos e condições de uso dos serviços online, talvez porque a necessidade ou desejo de dispor deles é muito mais imperativo do que as possíveis consequências de o fazer. Se, por exemplo, dermos uma vista de olhos nos termos de Candy Crush Saga, veremos coisas como as que se seguem. O desenvolvedor, King, pode alterar a qualquer momento os termos de uso, alterações que o usuário poderá ver se aceder à página King Games – Termos de Uso.

NADA É GRÁTIS. NADA É GRÁTIS. NADA É GRÁTIS. NADA É GRÁTIS…

Eles entendem que enquanto estás usando o jogo, estás de acordo com as condições de uso. Basicamente, se não concordas que tenham os teus dados bancários, os teus dados de usuário, as tuas interações em redes sociais, o teu IP, as tuas mensagens e a correspondência com eles, com o teu acordo para transferir os teus dados com terceiros, não tenhas o jogo. Ao enviar conteúdo através do jogo, entende-se que o usuário concede a King “o direito de editar, adaptar, publicar e utilizar a sua entrada e qualquer trabalho derivativo que possamos criar a partir dele, em todos e qualquer um dos meios (existente agora ou no futuro) para qualquer finalidade, a perpetuidade e sem ter que fazer qualquer pagamento em compensação”. Não gostas do que lês? É fácil. Se não concorda com isto, não jogues Candy Crush. Se jogas Candy Crush, é que estás de acordo.

Esta política de privacidade não é exclusiva da Candy Crush. Não há nada melhor que fazer um bom café e começar a picar os termos correspondentes de links de uso, para ver que a grande maioria tem uma política muito semelhante, embora em alguns casos a redação dele possa ser realmente enigmática e ambígua. Nem redes, nem serviços nem jogos são somente para diversão, entretenimento ou expandir a funcionalidades. Nada é grátis. Nada é grátis.

Dentro do razoável grau de privacidade que podemos alcançar, as empresas têm a responsabilidade de cumprir quanto ao processamento e segurança da nossa informação, mas o usuário tem a sua. Parte dessa responsabilidade é a de contar com a possibilidade de que as empresas terminem fazendo uso dos seus dados com os quais não estará de acordo. Se tem isto em conta de início, é possível o bom senso acompanhá-lo no resto das suas ações.

Para o bem ou para o mal, a principal falha de segurança total não é o software, o hardware, os protocolos ou qualquer coisa assim: a principal falha de segurança está no próprio ser humano. Em algumas circunstâncias, que seja assim não é necessariamente mau. Desde que não descubram como implantar o conhecimento com uma pílula, a aprendizagem precisa de tentativa e erro, e por mais perfeitas que as máquinas se tornem, o que há e sempre haverá por trás disso é um processo de aproveitamento das experiências humanas. Poucas coisas são tão valiosas quanto isso, pelo que pretender eliminá-lo (diferente de minimizar) pode ser contranatura.

Em qualquer circunstância, e com qualquer tipo de dispositivo e sistema operacional (telemóvel, tablet ou PC, Android, iOS ou Linux), é muito recomendável usar um bom antivírus e mantê-lo atualizado. Essa é a primeira barreira para evitar problemas, embora não seja a única. Também é aconselhável alterar as senhas dos sites que acedemos com alguma frequência e criá-las seguras (sem 0000), excluir cookies, arquivos temporários e dados de navegação após cada sessão e fazer backup dos dados. Ler sempre as políticas de privacidade antes de se fazer um serviço. E mesmo aceitando-os, não compartilhe ou exponha informações pessoais confidenciais sobre você ou outras pessoas, incluindo fotografias. Nunca deixar abertos correio eletrónico, redes sociais ou comércio eletrónico. Bloquear pop-ups e usar filtros restritivos em serviços de navegação e correio. Não se ligar a wi-fi abertos. Não divulgar senhas a terceiros e fazer uma sessão de convidados se tivermos que emprestar o nosso equipamento para outras pessoas (até mesmo para a família). Tem que ter também cuidado com os arquivos que descarregamos ou se descarregam no nosso computador. Se entrarmos num computador de uso público ou, simplesmente, que não é o nosso, tomar cuidado para que esteja ativada a opção de guardar a senha… As práticas de segurança são muito extensas, mas essencialmente obedecem ao princípio de sensatez.

Em circunstâncias normais, esse senso comum é suficiente para evitar a fuga de dados e o uso indesejado dos mesmos. O número de serviços, meios e programas que, todos os dias, anunciam o uso de cookies para melhorar a navegação do usuário não teria mais transcendência se fosse apenas isso. A realidade indica que a conveniência que tem para o usuário não ter que digitar a sua senha para aceder a um site, é o gancho perfeito para garantir a intenção de recolher dados sobre os hábitos e formas de navegar do usuário.

Figura 8- Edward Snowden recebe o prémio Sam Adams por Integridade da Inteligência em Moscovo (2013). Creative Commons

Talvez uma das vantagens de não haver nada privado (como o Facebook ao manter os textos “corrigidos” dos seus “amigos” ou os trajetos do rato) é que estão começando a transcender publicamente. A partir de um certo limite, as melhorias na experiência de navegação do usuário tornam-se em espionagem. Diante disso, o que podemos fazer para salvaguardar a nossa privacidade pouco importa, porque a determinação de certas entidades (acima de qualquer coisa) para saber o que fazemos e como o fazemos torna inúteis muitas das nossas medidas de proteção. Especialmente se não são hackers ou cibercriminosos que quebram as regras, mas as próprias empresas que nos fornecem os serviços ou os governos que elaboram leis de privacidade.

O caso Snowden descobriu documentos e relatórios probatórios da espionagem sistemática da NSA não só a países e cidadãos estrangeiros, mas para os seus próprios concidadãos. Sob a bandeira da segurança nacional, os EUA têm recolhido sistematicamente informações de cidadãos em todo o mundo, intercetado correios eletrónicos, dados de navegação e conversas, analisado relacionamentos pessoais, tendências, localização e simpatias.

Tudo ficou ainda mais perturbado quando Julian Assange afirma que o governo dos EUA pode matar com drones os seus próprios cidadãos sem se preocupar em levá-los a julgamento, apenas com as informações obtidas sobre eles tornando-os suspeitos de serem potenciais terroristas. De acordo com relatos nos media em fevereiro de 2013, o Departamento de Justiça dos EUA teria autorizado o assassinato seletivo (sem julgamento e secretamente) de cidadãos americanos fora do território nacional se os dados fossem obtidos ligando-os a possíveis ações terroristas. Dados que, é claro, já tomaram a liberdade de pesquisar.

É então lícito espiar o mundo para prevenir ataques e proteger o país? Em vez disso, devemos perguntar se estamos diante de um sistema infalível ou se a própria NSA assume um certo grau de erro ou, como se denomina na gíria militar, danos colaterais, alegando a vida de inocentes que nem sequer tiveram a oportunidade de defesa. Embora certamente culpáveis, a transferência dos limites da própria justiça implica, infalivelmente, a transferência de mais e mais limites, até que não haja mais nada para proteger, nada mais a ser transferido. Chegar a isso é o fim de qualquer coisa que você queria defender.

Conclusões

Há alguns meses, recebi no meu telemóvel um aviso de hangouts sobre a integração de SMS no seu serviço. Não sabia bem ao que se referia, mas aceitei. A partir de então, todos os sms entraram através de hangouts, assim como os alertas. Isso foi mau? Não, nem bom nem mau, mas eu não gostei. Preferia que as mensagens chegassem na bandeja de mensagens e os chats na bandeja de hangouts. Com a ajuda de um amigo desativei a função das opções de hangout. Então as mensagens pararam de funcionar. Ocorreu um aviso em que a mesma mensagem foi exibida na barra de notificação várias vezes. Mensagem que não podia ser apagada. O telefone começou a não funcionar bem. Reiniciei-o várias vezes, mas não serviu de nada. A única e mais eficaz solução foi voltar a ativar as mensagens no hangouts. Um fracasso no programa? Eles fazem isso de propósito para forçar os usuários a dar os nossos dados por SMS para o Google? Não sei. Mas quando vejo isto, só posso desconfiar.

As práticas de empresas como Google, Facebook, Twitter ou dos diferentes governos que, como são conhecidos, espiam os seus cidadãos, tendem a nos desviar da questão fundamental. O Big Data é o inimigo? É questionável recolher informações dos usuários? Há algo de errado em oferecer publicidade personalizada? Seria aconselhável estar fora de todas as redes sociais? Acredito que sobre isso e qualquer outro assunto na vida, tem que saber como valorizar as coisas na medida certa. São os dados massivos, as redes sociais ou os cookies prejudiciais? É necessário reverter os nossos esforços para combatê-los? Com certeza que não.

O BIG DATA NÃO ENTENDE O BEM E O MAL. O SER HUMANO SIM

Há um perigo inerente na comodidade de ficar na superfície das coisas. À medida que as notícias sobre violações de privacidade ou espionagem da NSA saltam para os media, ninguém questiona o que está no fundo de tudo isso. Nem os Big Data são prejudiciais, nem as redes sociais são o diabo. No campo da saúde, o acesso a dados massivos está ajudando os investigadores a encontrar correlações que, até então, passaram despercebidas. Os avanços no reconhecimento de texto, baseados na análise de milhões de páginas digitalizadas, permitem pesquisar documentos muito antigos que, até então, estavam apenas em alguma prateleira duma biblioteca distante. O reconhecimento de voz agora permite que pessoas cegas façam consultas verbais ao Google e recebam a resposta também verbalmente. Os exemplos dos benefícios de estudos de dados massivos são enormes.

Figura 9 – Prismas elétricos, Sonia Delaunay. Wikioo.org

Não se pode fazer juízos de valor sobre isso. O problema não está aí, mas no uso que se faz dele. E o que depende do uso de dados em massa? Bem, mesmo que pareça velho, depende dos valores éticos das pessoas que os usam.

É o ser humano que pode fazer do átomo uma tecnologia para curar ou uma arma para matar. Do que dependem os valores éticos? Estes sempre dependem da educação assimilada e do exemplo recebido. Por educação, não me refiro a ter estudado em Oxford e vir de um ambiente culto ou socialmente elevado. Digo simplesmente, a educação é o que faz que uma pessoa seja capaz de distinguir o que está certo do errado e, sabendo isso, decida conscientemente fazer o correto. A melhor maneira de ensinar é com o exemplo. Deste ponto de vista, os Big Data pode ser o novo “ouro”, mas as pessoas éticas sempre foram, e continuarão a ser verdadeiros diamantes.

À pergunta o que deve preocupar-te com o Big Data, questiona-te isto, que tipo de pessoas são as que lidam com Big Data? Dependendo da resposta podes preocupar-te ou não.

Fátima Gordillo
Publicado em Teknlife a 13 de janeiro de 2014

Imagem de destaque: Imagem de Big Data. Creative Commons