Captura de tela como parar os sanguessugas de dados invisíveis da Internet
NotíciaOs dados são o bem mais valioso da sua empresa, por isso nunca é uma boa ideia deixá-lo cair nas mãos dos concorrentes.
Às vezes, no entanto, isso pode ser difícil de evitar devido a uma técnica automatizada conhecida como 'screen scraping' que há anos fornece uma maneira de extrair dados das páginas do site para serem indexadas ao longo do tempo..
Isso coloca dois problemas principais: primeiro, que os dados poderiam ser usados para obter uma vantagem comercial - da redução dos preços (no caso de um site de comparação de preços, por exemplo) até a obtenção de informações sobre a disponibilidade do produto..
A captura persistente também pode afetar o desempenho de um site, que aconteceu recentemente ao LinkedIn quando hackers usaram software automatizado para registrar milhares de contas falsas em uma tentativa de extrair e copiar dados de páginas de perfil de membros..
Ashley Stephenson, CEO da Corero Network Security, explica as origens por trás do fenômeno, como ele pode estar afetando seu negócio agora e como se defender dele.
TechRadar Pro: O que é a captura de tela? Você pode nos falar sobre algumas das técnicas e por que alguém faria isso??
Ashley Stephenson: O screen scraping é um conceito que foi iniciado pelos programas de emulação de terminais anteriores, décadas atrás. É um método programático para extrair dados de telas projetadas principalmente para serem vistas por humanos..
Basicamente, o programa de screen scraping finge ser um ser humano e "lê" a tela, coletando os dados interessantes em listas que podem ser processadas automaticamente. O formato mais comum é nome: pares de valores. Por exemplo, as informações extraídas de uma tela de reserva de um site de viagens podem se parecer com as seguintes -
Origem: Boston, Destino: Atlanta, Data: 10/12/13, Vôo: DL4431, Preço: US $ 650
A raspagem de tela evoluiu significativamente ao longo dos anos. Um importante marco histórico ocorreu quando o conceito de raspagem de tela foi aplicado à Internet e o rastreador da web foi inventado.
Os rastreadores da web originalmente "leram" ou rastrearam as páginas do website e indexaram as informações para referência futura (por exemplo, pesquisa). Isso deu origem à indústria de motores de busca. Hoje, os webcrawlers são muito mais sofisticados e os sites incluem informações (tags) dedicadas ao rastreador e nunca devem ser lidas por um ser humano.
Outro marco subseqüente na evolução da captura de tela foi o desenvolvimento da captura de tela de varejo eletrônico, talvez o exemplo mais conhecido seja a introdução de sites de comparação de preços..
Esses sites empregam programas de captura de tela para visitar periodicamente uma lista de sites de varejo eletrônico conhecidos para obter as informações mais recentes sobre preço e disponibilidade de um conjunto específico de produtos ou serviços. Essas informações são armazenadas em um banco de dados e usadas para fornecer visualizações comparativas agregadas do cenário de varejo eletrônico aos clientes interessados.
Em geral, as técnicas de captura de tela descritas anteriormente foram bem-vindas pelos operadores de sites que querem que seus sites sejam indexados pelos principais mecanismos de pesquisa, como Google ou Bing, e os varejistas querem que seus produtos sejam exibidos nos principais sites de comparação de compras..
O eBay introduziu uma API em 2004 para combater a captura de tela (credit: homerjoe426)TRP: Houve algum desenvolvimento recente na captura de tela competitiva?
COMO: Em contraste, ao longo dos últimos anos, desenvolvimentos recentes em raspagem de tela competitiva não são necessariamente bem-vindos. Para um site ser rastreado por um rastreador de mecanismo de pesquisa, tudo bem se as visitas do rastreador não forem frequentes.
Para um site ser o alvo de um raspador de site de comparação de preços é OK se a informação obtida é usada de forma justa. No entanto, à medida que o número de mecanismos de busca especializados continua a aumentar e a frequência de visitas de verificação de preços dispara, essas visualizações de páginas automatizadas podem subir para níveis que afetam a operação pretendida do site de destino.
Mais especificamente, se o site de destino é vítima de raspagem competitiva, as informações obtidas podem ser usadas para minar os negócios do proprietário do site. Por exemplo, reduzir os preços, vencer as cotações, adquirir agressivamente bilhetes de eventos, reservar estoques, etc..