Hjemmesider

Ny software registrerer Bots Scraping-webstedsdata

MARINE ELECTRONICS: Communications at Sea, Navigation, and Sailing Apps (Iridium Go? Sextant?) #35

MARINE ELECTRONICS: Communications at Sea, Navigation, and Sailing Apps (Iridium Go? Sextant?) #35
Anonim

Websider som jobbrætter står over for et vedvarende problem: deres data bliver konstant præget af automatiserede bots.

Dataene slutter på andre konkurrerende jobbrætter, der har stjålet indholdet. Det er et problem, der plager ethvert websted, hvis intellektuelle ejendomsrettigheder skal offentliggøres gratis eller endda dem med abonnementsmodeller.

Men et Atlanta-baseret sikkerhedsfirma, der har specialiseret sig i at registrere bots, har udviklet software, der kan opdage disse skærmskrabninger og data-mining bots.

[Yderligere læsning: Sådan fjernes malware fra din Windows-pc]

Pramana's hovedprodukt, HumanPresent, registrerer automatiserede bots, der for eksempel indtaster spam i webbaserede formularer eller registrerer gratis e-mail-konti, der skal bruges til spam.

Pramana har nu udviklet et modul kaldet "data mining og screen scraping prevention" til HumanPresent. Det virker på mange af de samme principper som sit hovedprodukt, men er blevet ændret til data-mining scenarier, siger David Crowder, Pramana's CEO.

HumanPresent kan registrere bots ved at bemærke forskelle i, hvordan et menneske normalt ville interagere med en web side og kontrasterer det med, hvordan bots opfører sig. Det ser på mere end 30 målinger, såsom tastaturstrøg, museklik og timingen for disse handlinger.

HumanPresent ser på enkelttransaktioner, men data-mining modulet er blevet ændret for at se på en tidsbegrænset periode, når enten en bot eller mennesket er på stedet, sagde Crowder.

Data-mining bots har tendens til helt at omgå en browsers brugergrænseflade. For eksempel kan en bot anmode om en webside med masser og mange data, men ruller aldrig eller klikker på en side. Hvis en række sider åbnes og ses på den måde, kan det betyde, at en data mining bot er ankommet.

Pramana tildeler et unikt id til den besøgende, og efter at have analyseret den besøgendes adfærd kan man afgøre, om man skal mærke den besøgende en bot eller ej. Der er flere forskellige måder, hvorpå en webstedsoperatør kan vælge at håndtere situationen.

IP-adressen (Internet Protocol) på botens computer kan blokere permanent. Én bil auktion websted, der tester Pramana data mining modul besluttede at flytte mistænkte bots til en "sandbox", hvor det serveres helt falske data.

"De er faktisk data minedrift - det er bare dårligt," Crowder sagde.

Andre valgmuligheder omfatter at spørge besøgende på webstedet med en udfordring eller opgave, som nogle robotter ikke er i stand til at fuldføre.

Data mining koster virksomheder dyrt. Virksomheder, der sælger premium data, vil opdage, at deres konkurrenter vil købe et abonnement og derefter bruge automatiserede robotter til at stjæle dataene til deres egne websteder. I et eksempel viser et websted, der har gigabyte data om brugte bilpriser, at deres data var blevet skrabet og var til salg på eBay.

"De konkurrerer faktisk med deres eget indhold," sagde Crowder. Websteder har dårlige designs, der gør dataskrabning meget lettere. Den anvendte bilplads havde URL'er (Uniform Resource Locators) kunne ændres successivt for at afsløre flere data, sagde Crowder.

Data-mining modulet vil blive pakket ind i HumanPresent-produktet for nu, men i begyndelsen af ​​næste år planlægger Pramana at sælge det separat sagde Crowder. Pramana tilbyder HumanPresent enten som et påbegyndt apparat eller som en software-as-as-service-konfiguration.

For SaaS (software som en tjeneste) tilbyder Pramana's teknologi er integreret i en webapplikation, og sessionoplysninger sendes tilbage til Pramana til analyse. Crowder sagde, at Pramana har været i stand til at skære betydeligt ned på latens tid i sin nyeste version. For kunder, der har brug for mere fart, er apparatet tilgængeligt.