Как владельцу или администратору сайта, вам важно знать о плохих ботах и некоторых плохих последствиях, которые они могут иметь для вашего сайта, а также о том, как их блокировать. Все это и многое другое будет рассмотрено ниже. Примерно половина интернет-трафика – это бот-трафик, и половина из них – от плохих ботов. Что это значит для вас как владельца веб-сервиса или даже администратора? Если вы не будете осторожны, вы будете принимать решения на основе загрязненных данных – благодаря бот-трафику. У меня был опыт общения с владельцами сайтов-новичков, которые утверждали, что у них более 1К просмотров страниц, а я копал глубже и сообщал им печальную новость – значительная часть этого трафика исходит не от человека – на другом конце находятся компьютеры, взаимодействующие с вашим сайтом в автоматическом режиме, и вы приняли некоторые их действия за действия человека. К сожалению, некоторые из этих действий имеют негативные последствия – или доступ к контенту, который они не должны иметь. По этим причинам вам необходимо действовать на опережение и научиться определять, когда плохой бот возится с вашей веб-собственностью. Если этого не сделать, вы будете принимать все, что вам подбрасывает ваш конкурент, а вы знаете, что это значит? В этой статье я открою вам глаза на мир плохих ботов, как они влияют на ваш сайт и как их блокировать, а также расскажу о других уроках, которые необходимо усвоить.
Что такое интернет-бот?
В этой статье речь пойдет об интернет-ботах с акцентом на плохих. По этой причине давайте рассмотрим, что такое интернет-боты. Интернет-боты, также известные как веб-боты или просто боты, – это компьютерные программы, выполняющие автоматизированные задачи в Интернете. По сути, они отправляют веб-запросы так же, как вы это делаете с помощью веб-браузера, но имеют возможность делать это в повторяющемся режиме и с высокой скоростью. В то время как человек может отправить лишь несколько запросов за минуту, веб-бот может отправить сотни и даже тысячи запросов за минуту. О веб-ботах нужно знать, что они выполняют повторяющиеся и простые задачи, но некоторые из них могут выполнять и сложные задачи.

С помощью бота можно автоматизировать процесс оформления покупки ограниченного тиража товаров, контролировать производительность сайта, проводить SEO-аудит и парсить данные с веб-страниц. Аналогичным образом можно использовать компьютерных ботов для проведения атаки типа “отказ в обслуживании”. Их также можно использовать для мошенничества с кликами, просмотрами и даже спама. Из этих двух групп видно, что существуют как плохие, так и хорошие боты. В то время как вы хотите сохранить хороших ботов, вы должны максимально оградить свой сайт от плохих ботов.
Что делает бота плохим ботом?
Из вышесказанного вы уже поняли, что не все боты плохие. Так что же делает бота плохим? В целом, то, что делает бота плохим ботом, субъективно. Возьмем, к примеру, веб-гусеницу поисковой системы Bing, которая может быть полезна вам как владельцу сайта, поскольку она помогает индексировать ваш сайт – и потенциально может присылать вам трафик. Однако если та же самая поисковая машина Bing просматривает поисковую систему Google SERPs и копирует ее листинг и рейтинг, чтобы использовать их для улучшения собственного рейтинга, то она становится плохим ботом для Google, в то время как для вас она хороша. Однако это не означает, что не существует общепринятого мнения о том, что делает бота плохим ботом.

Бот становится плохим ботом, когда он используется для выполнения вредоносных действий. Но нет, это еще не все, есть боты, которые могут и не иметь вредоносных намерений, например, бот для веб-скреппинга, но из-за того, что они могут оказывать негативное влияние на сайты, с которых они извлекают данные без какой-либо пользы для сайта или его владельца, их также можно отнести к плохим ботам. Плохие боты также могут быть отнесены к вредоносным ботам. Их деятельность направлена на вознаграждение своих операторов за счет сайтов, на которых они работают. К сожалению, трафик плохих ботов растет, и вам следует остерегаться их.
Хорошие боты против плохих ботов
Из вышесказанного вы имеете представление о том, что такое плохие боты. А как насчет их хороших аналогов? Намерения, стоящие за ботом, обычно делают его хорошим ботом, если он придерживается этих намерений и не оказывает негативного влияния на сайты, на которых работает. Есть два момента, на которые следует обратить внимание. Первое – намерение должно быть хорошим, а второе – он не должен оказывать никакого негативного влияния на сайты, с которыми взаимодействует. Кроме того, хорошие боты уважают директивы robots.txt сайта, а плохие – нет. При этом вы должны понимать, что хороший бот может быстро превратиться в плохого. Возьмем, к примеру, краулер, созданный для индексации вашего сайта, может негативно повлиять на ваш сайт, если он посылает слишком много запросов, которые ваш сайт не может обработать.

Итак, в отличие от плохих ботов, хорошие боты стремятся помочь вам. Итак, каковы же примеры хороших ботов? Возможно, наиболее яркими примерами хороших ботов являются поисковые роботы, такие как Googlebot. Эти боты ползают по вашему сайту, чтобы проиндексировать содержимое вашего сайта и, когда пользователь ищет соответствующие ключевые слова, направить его на ваш сайт. Эти сайты уважают файл robots.txt и не будут ползать по вашему сайту, если вы не хотите, чтобы они ползали по вашему сайту. Помимо поисковых машин, существуют боты для помощи в поиске по авторским правам, боты для SEO-аудита, которые являются хорошими ботами. Некоторые из этих ботов могут быть не полезны для вас, но не вредны и приносят пользу для улучшения Интернета, например, боты для поиска архивов Интернета. Хорошие боты известны также как полезные боты.
Типы плохих ботов
Если вы не знаете, на рынке существует множество типов вредоносных ботов, и каждый из них совершает вредоносные действия, для которых он предназначен. В этом разделе статьи мы рассмотрим популярные типы плохих ботов, взаимодействующих с веб-сайтами и веб-сервисами в Интернете.
Traffic Bot

Трафик-боты – это типы интернет-ботов, которые были разработаны для отправки поддельного трафика на сайт. Это боты, которые будут увеличивать количество просмотров страниц, давая вам надежду на увеличение трафика, в то время как на самом деле никакого увеличения трафика не было. Эти типы ботов используются веб-сервисами, которые продают трафик. Они обещают отправить реальных пользователей на ваш сайт, но в итоге отправляют бот-трафик. Существуют различные вариации трафик-ботов. В то время как описанные выше занимаются накруткой количества просмотров страниц, у нас есть те, которые используются для кликов по рекламе в случае мошенничества с рекламой, некоторые смотрят видео и переходят по ссылкам, среди прочих.
Спам-боты

Спам-боты – это типы интернет-ботов, которые посещают веб-страницы и выполняют задачи, которые могут быть расценены как спам. Одним из ярких примеров спам-ботов являются боты, которые размещают автоматические комментарии в разделе комментариев блога или на дискуссионном форуме. Если вы управляете блогом или сайтом, который позволяет генерировать пользовательский контент, то велика вероятность того, что вы сталкивались с этим типом ботов, поскольку комментарии являются общими, спамерскими и обычно содержат URL-адреса, в которых заинтересованы операторы. Некоторые спам-боты используются для проведения политических кампаний и изменения повествования.
Парсеры

Паресры – это такие интернет-боты, которых называют ботами, способствующими краже контента. Это связано с тем, что они предназначены для посещения веб-страниц и извлечения из них данных даже без разрешения владельца или администратора сайта. Они являются инструментом для извлечения веб-данных. Хотя акт парсинга перед лицом закона является законным, поскольку контент является общедоступным, не требует аутентификации для доступа, и на спарсенный контент не распространяется авторское право, владельцы веб-сайтов относятся к нему неодобрительно, и, как таковой, он может рассматриваться как плохой бот. В некоторых ситуациях парсеры могут даже отключить маломощный сайт, если они посылают слишком много запросов.
Ботнеты

Ботнет можно назвать совокупностью компьютеров-зомби. Зомби-компьютеры – это взломанные компьютеры, к которым хакеры имеют доступ без ведома их владельцев. Хакеры могут использовать бот-сети для скоординированных DDoS-атак, чтобы вывести из строя компьютер. Они также могут использовать их для других вредоносных задач.
Кассовые боты

Другой класс ботов, которые считаются плохими ботами, – это боты для проверки, используемые во время выпуска ограниченного тиража. Известно, что выпуски ограниченного тиража являются конкурентными, и пользователь имеет право только на одну единицу товара, It’s hot on sneaker copping.However, some bots have been developed to go through the process of the purchase at a fast speed to purchase more units, thus depriving others the opportunity of making a purchase only to turn out and sell to them at resale prices. Это распространено на рынке одежды, билетов и кроссовок. Помимо вышеперечисленных типов плохих ботов, существует множество других, но описанные выше – самые распространенные в Интернете.
Влияние плохих ботов
Из вышесказанного, если вы читали между строк, вы знаете некоторые негативные последствия плохих ботов. Но если нет. Тогда не волнуйтесь, мы подробно рассмотрим их ниже.
Боты загрязняют ваши данные о вовлеченности

Необходимо понять одну вещь: в то время как некоторые виды бот-трафика можно обнаружить и отделить от реального человеческого трафика, некоторые являются скрытными, и вы никак не сможете отличить их от человеческого трафика. И здесь кроется проблема. Трафик ботов может увеличить количество просмотров страниц и даже создать впечатление, что у вас есть уникальные посетители. Если это происходит, то знайте, что ваши данные о привлечении были загрязнены, и любое решение, которое вы примете на их основе, будет неверным, за исключением тех случаев, когда вы сможете оценить процент бот-трафика и затем вычесть его из общего трафика.
Замедляет производительность
Когда веб-сервер получает слишком много запросов, больше, чем он может обработать, его производительность снижается. К сожалению, известно, что боты посылают слишком много запросов и, как таковые, могут перегрузить веб-сервер, если он маломощный. Именно по этой причине некоторые операторы ботов запускают своих ботов только ночью. Помимо ботов, которые не были специально разработаны для замедления работы сайта, есть и такие, которые были разработаны для атаки на сайт, посылая ему слишком много запросов, больше, чем он может обработать, и из-за этого он отключается. Этот тип кибер-атаки известен как DDoS-атака и осуществляется с помощью ботнетов.
Кража данных
Еще одним побочным эффектом плохих ботов с точки зрения администратора сайта является то, что данные на их сайтах извлекаются без их согласия и разрешения, что может означать кражу. В некоторых случаях эти данные стоят сайту денег и доступны только за платной стеной. С помощью веб-скрепера эти данные можно собрать и сделать общедоступными.
Увеличение эксплуатационных расходов на сервер
Если есть возможность, лучше не допускать ботов на свой сайт. Это связано с тем, что даже если вы не видите никакого побочного эффекта, который он оказывает непосредственно на ваш сайт, то вы должны знать, что они увеличивают ваши текущие расходы, поскольку веб-подъемнику все равно, от кого поступают запросы – от человека или от бота, и поэтому они могут увеличиваться, и тогда поступает слишком много запросов, и тогда ваши расходы увеличиваются. К сожалению, бот-трафик, особенно плохой, не приносит вам никакой пользы.
Как обнаружить плохих ботов
Плохие боты были разработаны таким образом, чтобы их нельзя было обнаружить, и поэтому, чтобы узнать, есть ли на вашем сайте атака бот-трафика, нужно тщательно покопаться. Давайте рассмотрим некоторые признаки бот-трафика.
Необычный всплеск трафика
Как владелец сайта, вы должны использовать в качестве метрики средний просмотр страниц и уникальное ежедневное посещение. Если наблюдается необычный всплеск трафика и вы не можете точно определить его причину, то, скорее всего, с вашим сайтом взаимодействуют боты. Вы не только получите всплеск трафика, но в большинстве случаев это будет прямой трафик с весьма необычным показателем отказов. Место, откуда идет трафик, также может дать вам подсказку, особенно если он идет из мест, откуда вы не получаете такого количества трафика. Еще одна вещь, на которую следует обратить внимание, – это несоответствие данных о просмотрах страниц между Google Analytics и другими сервисами анализа трафика, такими как Crazyegg и Microsoft Clarity, которые предлагают запись и воспроизведение пользовательских сессий и тепловые карты для анализа – бот это или нет! Многие аналитические сервисы поддерживают фильтрацию бот-трафика – но алгоритм, который они используют при определении бот-трафика, отличается, и поэтому вы можете использовать несоответствие, которого раньше не было, чтобы определить, когда на ваш сайт заходят боты.
Неожиданное снижение производительности сервера
Этот пункт связан с количеством запросов, отправленных за короткий промежуток времени. Если за короткий промежуток времени будет отправлено слишком много запросов, это повлияет на производительность вашего сайта, если инфраструктура имеет низкую мощность. Как веб-администратор, вы также должны вести учет производительности вашего сайта с точки зрения времени отклика и скорости. Если ваш сайт работает медленно, но при этом наблюдается всплеск трафика, то, скорее всего, ваш сайт подделывают вредоносные боты. На это не всегда можно положиться, поскольку боты могут имитировать людей и замедлять скорость отправки запросов, тем самым сохраняя производительность на прежнем уровне и выполняя свои задачи незаметно.
Нежелательная деятельность и размещение контента
Один из самых простых способов обнаружения ботов – по контенту, который они публикуют. Обычно у операторов ботов нет времени на создание хорошего контента, и поэтому вы можете использовать это как указатель. Если вы начинаете получать комментарии или сообщения, которые являются общими, бессмысленными и содержат встроенные URL-адреса, то вы должны знать, что это не боты, а реальные пользователи. Кроме того, необычное количество созданных аккаунтов со странными электронными адресами и другой личной информацией – тоже указатель.
Запрос на инспекцию заголовка
Большинство простых и неискушенных ботов не отправляют все заголовки, которые отправляют браузеры. В большинстве случаев они даже забывают установить заголовок user-agent. Те же, кто отправляет заголовки, вряд ли отправляют больше, чем строку user-agent. Напротив, большинство браузеров отправляют достаточное количество заголовочной информации, которая используется для согласования содержимого. Если вы получаете запросы, в которых практически не представлены заголовки, то можете быть уверены, что запрос исходит от бота.
Как блокировать вредоносных ботов
Когда речь заходит о блокировке доступа ботов к вашему сайту, необходимо знать, что добиться стопроцентного успеха невозможно. Это не удалось сделать Facebook, а также Google, Amazon и другим крупным веб-сервисам. Все, что вы можете сделать, это попытаться, а затем сделать это непривлекательным, потому что им придется пройти дополнительный путь.
Установка лимитов запросов IP-адресов
IP-адреса являются одними из уникальных идентификаторов, к которым имеют доступ веб-администраторы и которые они могут использовать для поиска пользователей. Это можно использовать в своих интересах, установив количество запросов, разрешенных с IP-адреса за определенный период времени. Если вы получаете больше запросов с IP-адреса, это становится неестественным, и поэтому вы можете блокировать последующие запросы с такого IP-адреса. Также важно, чтобы вы блокировали хостинг-провайдеров, используемых прокси-провайдерами центров обработки данных, и их IP-сети.
Используйте услугу Captcha
Наверняка вам приходилось сталкиваться с Captcha на каком-то этапе работы в Интернете. Captcha – это аббревиатура от Completely Automated Public Turing Test, позволяющая отличить компьютер от человека. Когда служба captcha обнаруживает необычную или похожую на бота активность, она заставляет вас решить проблему, чтобы получить доступ. В то время как людям легко решить эту задачу, компьютерным программам, таким как боты, это сделать сложно. На самом деле, существуют продвинутые системы Captcha, которые практически не решаются ботами. Однако необходимо знать, что Captcha может встать на пути законных пользователей и нарушить пользовательский опыт.
Блокировка неизвестных браузеров
Другой способ блокировки ботов – запись отпечатков основных браузеров и последующая блокировка запросов от источников, которые не соответствуют ни одному из браузеров, которые вы запечатлели. Это сработает для неопытных разработчиков ботов, поскольку они не используют безголовые браузеры и не выполняют JavaScript. Вы даже можете ввести триггеры JavaScript и блокировать любой запрос, который не запускает JavaScript на выполнение.
Заключение
Глядя на вышесказанное, можно сказать, что с плохими ботами трудно справиться. Большинство методов, которые вы можете использовать для их блокировки, можно обойти. Например, если вы используете отслеживание IP-адресов, прокси-серверы сделают их бесполезными. Существуют сервисы для борьбы с Captcha, которые помогут решить проблему Captcha, а использование безголовых браузеров позаботится обо всех методах борьбы с ботами, связанных с JavaScript. Вместо того чтобы пытаться обнаружить и блокировать их самостоятельно, я бы посоветовал вам воспользоваться сторонними сервисами, которые могут обнаружить плохих ботов и заблокировать их – это будет лучшим вариантом, чем использование грубых методов, которые можно легко обойти.