Lomeutec - Tutoriais e Informação

A relação entre o reCAPTCHA e a digitalização de textos

  • Publicidade: Powered by Google

    Captcha (Completely Automated Turing Test To Tell Computers and Humans Apart) são aquelas letras que alguns sites dispõem para evitar que seus serviços sejam manipulados por 'bots' - que executam tarefas automatizadas - provocando uma série de problemas como a geração de spans, enchendo o site de propagandas e mensagens indesejadas. Uma dessas opções de captcha é o reCAPTCHA que além de oferecer essa barreira ainda presta outro tipo função.

    Curiosidade

    Você encontra serviço de captcha em vários site e blogs, inclusive aqui. Para evitar que nos apareçam mensagens geradas por sistemas automatizados (bots), na hora em que um visitante vai fazer o seu comentário tem que fazer a confirmação através da digitação de algumas letras que aparecem em uma imagem. É disso que estou falando, a diferença é que o dono de um site que deseja esse serviço e opta pelo reCAPTCHA para disponibilizá-lo, ajuda na digitalização de textos. É que toda vez que alguém digita aquelas letras que aparecem, aleatóriamente e às vezes distorcidas, está na verdade digitando palavras que que foram scaneadas de livros antigos que após terem sido completamente digitalizados farão parte do Internet Archive. As palavras que são apresentadas são as que não foram identificadas por computadores durante o scaneamento. Isso acontece por erro de OCR (Optical Character Recognition - Reconhecimento Óptico de Caracteres) ao qual estão sujeitos os scaners mediante vários fatores como por exemplo, textos apagados, manchados, com erros de digitação, etc. Esse é um projeto da School of Computer Science que faz com que sejam poupadas 150 mil horas de trabalho que seriam gastas na verificação das palavras que não foram corretamente digitalizadas. São mais de 200 milhões de captchas resolvidos todos os dias tomando apenas 10 segundos de cada pessoa. o.o

    O sistema, a grosso modo, funciona assim:

    As palavras que não são lidas ou identificadas corretamente pelo OCR são passadas aos usuários com uma outra palavra para a qual a resposta já seja conhecida. O usuário é solicitado a ler as palavras. Se ele resolver aquela cuja resposta seja reconhecida pelo sistema e a outra que não é reconhecida, então subentende-se que a resposta pode estar correta, gera a mesma imagem para outras pessoas e repete o processo para poder determinar com maior exatidão se estava realmente originalmente correta.

    Mais informações no próprio site.

    Pois é, você ajuda de graça a digitalizar livros e nem sabia disso né? Mas não se preocupe não que é por uma boa causa. ;)

    Veja também como baixar música legalizada e gratuita.

    Nilton (LOMEUTEC)
    É formado como técnico em informática com ênfase em análise de sistemas e programação comercial. No entanto gosta mesmo é de fazer publicações para o blog lomeutec.blogspot.com onde compartilha grande parte do pouco conhecimento autodidata que adquire através de experiências, estudos diários e até mesmo de tudo aquilo que descobre enquanto navega despreocupadamente pela internet em seus momentos de ócio. Aqui no LTI acumula funções de publicador, moderador, editor, administrador e o que mais for possível e necessário.