Spiderů a webových prohledávačů: Co potřebujete vědět o ochraně webových dat
Pavouci, které jsou také označovány jako "webové prohledávače", vyhledávají na webu a ne všechny jsou přátelské v jejich záměru.
Webové stránky Spammers Spider pro shromažďování informací
Google, Yahoo!
a další vyhledávače nejsou jediné, kteří mají zájem o procházení webových stránek - stejně tak jsou podvodníci a spamátoři.
Páry a další automatizované nástroje používají spammeři k vyhledání e-mailových adres (na internetu se tato praxe často označuje jako "sklizeň") na webových stránkách a pak je používá k vytvoření spamových seznamů.
Páry jsou také nástroj používaný vyhledávači k vyhledání dalších informací o vašem webu, ale ponechané bez kontroly, webové stránky bez pokynů (nebo "oprávnění") o tom, jak procházet vaše stránky, mohou představovat závažná rizika informační bezpečnosti. Pavouci cestují podle následujících odkazů a jsou velice obeznámeni s vyhledáváním odkazů na databáze, programové soubory a další informace, na které nemusíte mít přístup.
Webmasteři mohou zobrazovat protokoly, aby zjistili, jaké pavouci a další roboty navštívili své stránky. Tyto informace pomáhají správcům webu vědět, kdo indexuje jejich stránky a jak často.
Tyto informace jsou užitečné, protože webmasteři mohou jemně vyladit jejich SEO a aktualizovat soubory robot.txt, aby zabránili určitým robotům procházet si jejich stránky v budoucnu.
Tipy na ochranu vašeho webu před nechtěnými prohledávači robotů
Existuje poměrně jednoduchý způsob, jak z webových stránek nechat nechtěné crawlery. Dokonce i když nejste znepokojeni škodlivými pavouci procházením vašeho webu (zamlžování e-mailové adresy vás nebude chránit před většinou prohledávačů), měli byste stále poskytovat vyhledávačům důležité instrukce.
Všechny weby by měly mít soubor umístěný v kořenovém adresáři nazvaném soubor robots.txt. Tento soubor umožňuje instruovat webové prolézací moduly, u kterých chcete hledat na indexové stránky (pokud není uvedeno jinak v metadatách určité stránky, které mají být neindexovány), pokud se jedná o vyhledávač.
Stejně, jak můžete říci, že chtějí crawlery, kde chcete procházet, můžete jim také říct, kam nesmějí jít a dokonce zablokovat specifické prohledávače z vašich webových stránek.
Je důležité mít na paměti, že dobře sestavený soubor robots.txt bude mít pro vyhledávače obrovskou hodnotu a mohl by být i klíčovým prvkem při zlepšování výkonu vašeho webu, ale některé prolézací roboty stále budou ignorovat vaše pokyny. Z tohoto důvodu je důležité, aby byl celý software, pluginy a aplikace stále aktuální.
Související články a informace
Vzhledem k výskytu shromažďování informací používaných k hanebným (nevyžádaným) účelům byla v roce 2003 přijata legislativa, která učinila některé praktiky nezákonné. Tyto zákony na ochranu spotřebitelů spadají pod zákon CAN-SPAM z roku 2003.
Je důležité věnovat pozornost zákonu CAN-SPAM, pokud se vaše firma zabývá hromadnou poštou nebo sběrem informací.
Můžete se dozvědět více o právních předpisech týkajících se spamu ao tom, jak se vypořádat se spammery a co vy jako vlastník firmy nemusíte dělat, když si přečtete následující články:
- CAN-SPAM Act 2003
- Pravidla CAN-SPAM zákona pro neziskové organizace
- 5 Pravidla CAN-SPAM potřebují pochopit vlastníky malých firem