Definice spiderů a webových prohledávačů

Spiderů a webových prohledávačů: Co potřebujete vědět o ochraně webových dat

Spiderů jsou programy (nebo automatizované skripty), které "procházejí" na webu a hledají data. Pavouci cestují přes webové stránky webových stránek a mohou vytahovat data z webových stránek, jako jsou e-mailové adresy. Páry se také používají k tomu, aby informace vyhledávané na internetových stránkách vyhledávaly.

Pavouci, které jsou také označovány jako "webové prohledávače", vyhledávají na webu a ne všechny jsou přátelské v jejich záměru.

Webové stránky Spammers Spider pro shromažďování informací

Google, Yahoo!

a další vyhledávače nejsou jediné, kteří mají zájem o procházení webových stránek - stejně tak jsou podvodníci a spamátoři.

Páry a další automatizované nástroje používají spammeři k vyhledání e-mailových adres (na internetu se tato praxe často označuje jako "sklizeň") na webových stránkách a pak je používá k vytvoření spamových seznamů.

Páry jsou také nástroj používaný vyhledávači k vyhledání dalších informací o vašem webu, ale ponechané bez kontroly, webové stránky bez pokynů (nebo "oprávnění") o tom, jak procházet vaše stránky, mohou představovat závažná rizika informační bezpečnosti. Pavouci cestují podle následujících odkazů a jsou velice obeznámeni s vyhledáváním odkazů na databáze, programové soubory a další informace, na které nemusíte mít přístup.

Webmasteři mohou zobrazovat protokoly, aby zjistili, jaké pavouci a další roboty navštívili své stránky. Tyto informace pomáhají správcům webu vědět, kdo indexuje jejich stránky a jak často.

Tyto informace jsou užitečné, protože webmasteři mohou jemně vyladit jejich SEO a aktualizovat soubory robot.txt, aby zabránili určitým robotům procházet si jejich stránky v budoucnu.

Tipy na ochranu vašeho webu před nechtěnými prohledávači robotů

Existuje poměrně jednoduchý způsob, jak z webových stránek nechat nechtěné crawlery. Dokonce i když nejste znepokojeni škodlivými pavouci procházením vašeho webu (zamlžování e-mailové adresy vás nebude chránit před většinou prohledávačů), měli byste stále poskytovat vyhledávačům důležité instrukce.

Všechny weby by měly mít soubor umístěný v kořenovém adresáři nazvaném soubor robots.txt. Tento soubor umožňuje instruovat webové prolézací moduly, u kterých chcete hledat na indexové stránky (pokud není uvedeno jinak v metadatách určité stránky, které mají být neindexovány), pokud se jedná o vyhledávač.

Stejně, jak můžete říci, že chtějí crawlery, kde chcete procházet, můžete jim také říct, kam nesmějí jít a dokonce zablokovat specifické prohledávače z vašich webových stránek.

Je důležité mít na paměti, že dobře sestavený soubor robots.txt bude mít pro vyhledávače obrovskou hodnotu a mohl by být i klíčovým prvkem při zlepšování výkonu vašeho webu, ale některé prolézací roboty stále budou ignorovat vaše pokyny. Z tohoto důvodu je důležité, aby byl celý software, pluginy a aplikace stále aktuální.

Související články a informace

Vzhledem k výskytu shromažďování informací používaných k hanebným (nevyžádaným) účelům byla v roce 2003 přijata legislativa, která učinila některé praktiky nezákonné. Tyto zákony na ochranu spotřebitelů spadají pod zákon CAN-SPAM z roku 2003.

Je důležité věnovat pozornost zákonu CAN-SPAM, pokud se vaše firma zabývá hromadnou poštou nebo sběrem informací.

Můžete se dozvědět více o právních předpisech týkajících se spamu ao tom, jak se vypořádat se spammery a co vy jako vlastník firmy nemusíte dělat, když si přečtete následující články: