Semalt предоставя съвети за това как да се справим с ботове, паяци и гусени

Освен че създава приятелски URL адреси за търсачките , .htaccess файлът позволява на уебмастърите да блокират достъпа на конкретни ботове до техния уебсайт. Един от начините за блокиране на тези роботи е чрез файла robots.txt. Въпреки това, Рос Барбър, мениджърът за успех на клиентите на Semalt , заявява, че е видял някои сканери да игнорират тази молба. Един от най-добрите начини е да използвате .htaccess файла, за да им попречите да индексират съдържанието ви.
Какви са тези ботове?
Те са вид софтуер, използван от търсачките за изтриване на ново съдържание от интернет за целите на индексирането.

Те изпълняват следните задачи:
- Посетете уеб страници, към които сте свързали
- Проверете вашия HTML код за грешки
- Те запазват кои уеб страници, към които свързвате, и виждат какви уеб страници свързват към съдържанието ви
- Те индексират съдържанието ви
Някои ботове обаче са злонамерени и търсят във вашия сайт имейл адреси и формуляри, които обикновено се използват за изпращане на нежелани съобщения или спам. Други дори търсят вратички за сигурност във вашия код.
Какво е необходимо за блокиране на уеб сървъри?
Преди да използвате .htaccess файла, трябва да проверите следните неща:
1. Вашият сайт трябва да работи на Apache сървър. В днешно време дори тези уеб хостинг компании, наполовина прилични в работата си, ви дават достъп до необходимия файл.
2. Трябва да имате достъп до необработените сървърни регистри на вашия уебсайт, за да можете да намерите какви ботове посещават вашите уеб страници.
Имайте предвид, че няма начин да можете да блокирате всички вредни ботове, освен ако не блокирате всички, дори и тези, които считате за полезни. Всеки ден се появяват нови ботове, а по-старите се модифицират. Най-ефективният начин е да защитите кода си и да затруднявате ботовете да ви спам.
Идентифициране на ботове
Ботовете могат да бъдат идентифицирани или по IP адреса, или от техния "Низ на потребителски агент", който те изпращат в HTTP заглавките. Например, Google използва „Googlebot“.
Може да ви е необходим този списък с 302 бота, ако вече имате името на бота, който бихте искали да продължите да използвате .htaccess
Друг начин е да изтеглите всички лог файлове от сървъра и да ги отворите с помощта на текстов редактор. Местоположението им на сървъра може да се промени в зависимост от конфигурацията на вашия сървър. Ако не можете да ги намерите, потърсете помощ от вашия уеб-домакин.

Ако знаете коя страница е посетена или времето на посещение, е по-лесно да дойдете с нежелан бот. Можете да търсите в дневника с тези параметри.
Веднъж сте отбелязали какви ботове трябва да блокирате; след това можете да ги включите във файла .htaccess. Моля, обърнете внимание, че блокирането на бота не е достатъчно, за да го спре. Може да се върне с нов IP адрес или име.
Как да ги блокирам
Изтеглете копие на файла .htaccess. Направете резервни копия, ако е необходимо.
Метод 1: блокиране от IP
Този кодов фрагмент блокира бота, използвайки IP адреса 197.0.0.1
Поръчайте Отказ, Разрешаване
Отказ от 197.0.0.1
Първият ред означава, че сървърът ще блокира всички заявки, съответстващи на посочените от вас модели, и ще позволи на всички останали.
Вторият ред казва на сървъра да издаде страница 403: забранено
Метод 2: Блокиране от потребителски агенти
Най-лесният начин е да използвате двигателя за пренаписване на Apache
ПренапишетеEngine на
RewriteCond% {HTTP_USER_AGENT} BotUserAgent
RewriteRule. - [F, L]
Първият ред гарантира, че модулът за презапис е активиран. Втора линия е условието, за което важи правилото. "F" в ред 4 казва на сървъра да върне 403: Забранено, докато "L" означава, че това е последното правило.
След това ще качите .htaccess файла на вашия сървър и ще презапише съществуващия. С времето ще трябва да актуализирате IP на бота. В случай, че направите грешка, просто качете резервната копия, която сте направили.