Раньше я всегда радовался, когда просматривал данные о посещаемости своего сайта и замечал увеличение числа посетителей. Теперь я знаю, что не весь трафик, который вы замечаете на своем сайте, генерируется людьми. Большая часть веб-трафика – это нечеловеческий трафик. Если вы не будете осторожны, то в итоге будете принимать неверные решения на основе показателей вовлеченности пользователей, которые уже были загрязнены бот-трафиком. Я уже бывал там и знаю, как сильно бот-трафик может испортить ваш процесс принятия решений. Они не только портят данные о трафике, но и могут нанести вред вашему сайту. Учитывая негативное влияние бот-трафика на веб-сайты, владельцам и администраторам сайтов важно знать о нем. Однако подавляющее число из них даже не подозревают о существовании бот-трафика. Зная о бот-трафике, о том, чего они хотят добиться и как это может испортить ваш сайт и его метрику, вы сможете повысить эффективность своей игры и предотвратить их появление – или исключить их данные из вашей системы принятия решений. Эта статья послужит окончательным руководством по бот-трафику.
Трафик ботов – обзор
Бот-трафик – это трафик, генерируемый компьютерными программами и скриптами. Это нечеловеческий трафик для сайта, и, как таковой, он, скорее всего, не нужен в вашей аналитике. Веб-боты – основной источник бот-трафика. Боты разрабатываются для выполнения конкретных, а иногда и периодических задач в Интернете. Они выполняют повторяющиеся, утомительные, рутинные, отнимающие много времени задачи, которые человек находит непривлекательными и отнимающими много времени. Это может быть что угодно: от кликов по рекламе, как в случае рекламного мошенничества, до Googlebot, ползающего и индексирующего ваш сайт.

Неважно, относится ли действие бота к категории хороших или плохих, важно то, что вы должны знать, как отличить его от данных о человеческом трафике. Одна из интересных статистических данных о ботах заключается в том, что на них приходится более 40 % интернет-трафика. Как никогда ранее, люди активно автоматизируют все больше своих действий в Интернете, например автоматизируют покупки, твиты, сбор данных и многое другое.
Веб-краулинг и веб-скраппинг. Веб-скрапинг
Хорошие боты против плохих ботов

Прежде чем мы продолжим обсуждение, лучше провести различие между хорошими и плохими ботами, чтобы в итоге не блокировать трафик от хороших ботов.
Хорошие боты

Хорошие боты – это те боты, которые не оказывают негативного влияния на работу сайта, а конечный результат их действий полезен для посещаемых ими сайтов. Одними из самых популярных хороших ботов в Интернете являются боты поисковых систем, такие как Googlebot. Среди них могут быть боты для мониторинга сайтов, чат-боты, боты для мониторинга авторских прав и т. д. Несмотря на то, что они могут быть полезны, вы должны дать им соответствующие директивы с помощью robots.txt, чтобы они не влияли на производительность вашего сайта. Также необходимо отделять трафик ботов при анализе данных о посещаемости.
Плохие боты

Они находятся на вашем сайте ради собственной корысти. В большинстве случаев плохие боты даже не признают и не соблюдают директивы в файлах robots.txt. Они выполняют задания, которые противоречат условиям использования сайтов, не приносят никакой пользы посещаемым сайтам и в итоге могут замедлить работу сайтов, с которыми взаимодействуют. Подавляющее большинство плохих ботов на рынке имитируют Google Chrome, чтобы избежать обнаружения и блокировки. Вам придется искать способы их обнаружения и блокировки. Эти способы будут рассмотрены далее в статье.
Прокси для предотвращения запретов и капчи при скрапинге Google
Типы плохих ботов, трафик от которых вам не нужен
Несомненно, без хороших ботов Интернет не был бы таким, какой он есть, и ваш сайт не пользовался бы тем, чем он пользуется сейчас с точки зрения пользовательского трафика. Однако плохие боты разрушают Интернет. Поскольку они не приносят никакой пользы вашему сайту, вам не нужен трафик от них на вашем сайте. Вам нужно следить за трафиком от этих плохих ботов и по возможности отменять некоторые из их действий.
Боты для кликов/просмотра/загрузки

Я объединил клик-боты, боты для просмотра и боты для загрузки не случайно – они предназначены для мошенничества. Клик-боты посещают веб-сайты и кликают по рекламе ради получения незаработанного дохода. Клик-боты, боты для просмотра и боты для загрузки также предназначены для симулирования вовлеченности. Это худшие виды ботов, которые могут взаимодействовать с вашим сайтом, и их трафик плохо сказывается на ваших данных о посещаемости. На таких сайтах, как TikTok, боты просмотров могут подделать вовлеченность и сделать видео вирусным. Они могут раздуть количество просмотров и загрузок и вселить в человека ложную надежду.
Боты-скреперы

Боты-скреперы предназначены для сбора данных с веб-сайтов. Эти боты отправляют веб-запросы на веб-серверы, загружая интересующие вас веб-страницы. Затем они извлекают необходимые данные. Они предназначены для кражи контента без разрешения владельцев сайтов. Боты-скреперы печально известны тем, что непреднамеренно замедляют работу сайтов, поскольку отправляют слишком много запросов в минуту. Как владельцу сайта, вам может быть сложно защитить свой сайт от кражи контента с помощью скрапботов. Однако вы можете сделать скрапинг непривлекательным, предоставив API и разработав интеллектуальные системы защиты от скрапинга.
Спам-боты

Вы заметили, что на вашем блоге появилось большое количество спам-комментариев? В основном они автоматизированы и оставляются спам-ботами. Некоторые спам-боты делают это в целях наращивания ссылочной массы, а некоторые – в качестве негативной SEO-техники, чтобы навредить рейтингу конкурента. Трафик спам-ботов огромен на крупных платформах социальных сетей, таких как Twitter, поскольку они используются для политической пропаганды и маркетинговых кампаний в Интернете.
Как обнаружить бот-трафик
Из вышесказанного вы, должно быть, поняли, что бот-трафик занимает большую часть интернет-трафика. Как администратор сайта, вы должны знать, содержит ли трафик, регистрируемый вашим аналитическим инструментом, ботовый трафик. Конечно, вы не сможете прочесывать отдельные запросы вручную. Однако вы можете определить, что ваши сайты заполнены ботами, и принять меры, чтобы предотвратить их посещение. Ниже перечислены индикаторы бот-трафика, на которые вы всегда должны обращать внимание.
Аномалии в данных о трафике

Как администратор сайта, вы должны следить за некоторыми показателями трафика, и если вы заметите в них какие-либо отклонения от нормы, знайте: это бот трафик портит вам жизнь. Количество просмотров страниц, показатель отказов и средняя продолжительность сеанса – эти три показателя помогут вам понять, проникают ли на ваш сайт боты. Если вы заметили резкий рост просмотров страниц, а также необоснованное увеличение показателя отказов, то просто примите это как указатель на бот-трафик. Средняя продолжительность сеанса также может быть указателем. Если в этих данных наблюдаются значительные изменения, а другие показатели тоже отклоняются от нормы, знайте, что на ваш сайт заходят боты.
Следите за скоростью загрузки вашего сайта
В отличие от показателей трафика, вы не можете использовать только скорость загрузки, чтобы сделать правильный вывод о том, что боты нарушают работу вашего сайта. Это связано с тем, что существует множество причин, по которым ваш сайт замедляется. Это может быть проблема на сервере, в сети и даже недавние изменения на сайте. Однако если все это не работает, и вдруг скорость загрузки страниц вашего сайта начинает падать, посмотрите на данные о трафике. Вы заметите всплеск. Боты могут отправлять слишком много запросов за минуту, и это сказывается на производительности маломощных сайтов.
Странные источники трафика
Иногда для того, чтобы обнаружить ботов на вашем сайте, необходимо глубоко залезть в журнал сервера и просмотреть исходные данные. Делать это вручную – значит тратить время и даже не быть эффективным и результативным. Существуют такие инструменты, как Deep Log Analyzer, с помощью которых можно обнаружить странные источники трафика. Если вы заметили слишком много запросов, поступающих из мест, из которых обычно нет трафика, считайте это ботовым трафиком. Если вы заметили слишком много запросов с одного и того же IP-адреса – это тоже признак.
Плохая конверсия
Некоторые боты оставляют следы, которые вы можете использовать в качестве указателя. Когда боты заполняют формы, они делают это по-спамерски, используя поддельные имена, электронные адреса и номера телефонов. Некоторые из них оставляют дубликаты, а другие используют бессмысленные предложения. Если вы заметили что-то подобное, знайте, что за этим стоит бот. Боты, занимающиеся построением ссылок, печально известны тем, что забрасывают автоматическими сообщениями разделы комментариев в блогах.
Как блокировать бот-трафик
Буду с вами откровенен – блокировать весь трафик плохих ботов невероятно сложно. Крупным корпорациям это не удается. Это связано с тем, что большинство ботов выдают себя за легитимных пользователей, используя строку user-agent популярных браузеров. Хотя вы не можете заблокировать весь бот-трафик, вы можете сделать этот процесс непривлекательным и сложным – это уменьшит количество ботов, которые смогут получить доступ к вашему сайту.
Установка и соблюдение лимитов на запросы

Самый популярный метод блокировки бот-трафика – установка ограничений на количество запросов, которые устройство может отправить за определенный период времени. Устройствам, подключенным к Интернету, присваиваются IP-адреса. Несмотря на то, что адрес не остается неизменным для некоторых устройств, он является лучшим идентификатором устройств в Интернете. Для каждого запроса, отправленного на ваш сайт, IP-адрес связывается с запросом. Благодаря этому вы можете установить лимиты запросов и убедиться, что конкретное устройство не отправляет больше допустимого количества запросов. Когда это происходит, вы вносите IP-адрес в черный список и блокируете его, чтобы он не мог отправлять дальнейшие запросы. Устанавливая этот лимит, убедитесь, что вы установили его таким образом, чтобы он был удобен для ваших тяжелых пользователей. Поскольку боты отправляют слишком много запросов, они превысят этот лимит и будут заблокированы.
Настройте службу Captcha на своем сайте

Captcha – это тест, используемый для определения того, является ли трафик человеческим или нет. Google reCAPTCHA, которую называют легкой для людей и трудной для машин, является одним из сервисов Captcha, который вы можете использовать для блокировки бот-трафика. Наверняка вам уже приходилось разгадывать капчу. Это происходит, когда в вашем трафике есть что-то необычное – вы должны доказать, что вы человек, чтобы продолжить доступ к сайту в этот момент. Большинству ботов сложно решить Captchas, и поэтому в некоторых случаях это может быть эффективно.
Используйте решение для управления ботами

Два вышеперечисленных метода могут оказаться не слишком эффективными. Кроме того, у вас может не хватить технических знаний, времени и терпения для эффективного управления бот-трафиком. Поэтому использование решения для управления ботами будет очень полезным. Такое решение для управления ботами, как Cloudfare Bot Management, использует множество указателей и искусственный интеллект для блокировки бот-трафика.
Вопросы и ответы о бот-трафике
- Вреден ли бот-трафик для моего сайта?
Трафик ботов, будь то хороший или плохой, может исказить показатели вовлеченности пользователей вашего сайта. Однако если говорить о реальном смысле этого слова (вредный), то плохие боты могут нанести вред. Плохие боты могут замедлить работу сайта или даже вывести сервер из строя из-за слишком большого количества запросов в случае атаки типа “отказ в обслуживании” (Denial-of-Service, DOS). Они также крадут контент и могут навредить вашему SEO. Кроме того, они дают ложную надежду.
- Можно ли блокировать бот-трафик?
Как уже говорилось, вы не можете заблокировать весь бот-трафик. Вы можете только усложнить и сделать его непривлекательным, а затем исключить данные о нем из анализа трафика. Сложность блокировки заключается в том, что разработчики ботов используют методы, позволяющие избежать обнаружения. Например, использование прокси-серверов и решателей капчи делает отслеживание IP-адресов и капчи бесполезными соответственно.
- Как исключить бот-трафик из Google Analytics
Google Analytics может обнаруживать бот-трафик. Надеемся, мы сможем использовать ее для получения реальных показателей трафика, исключив бот-трафик из общих данных. Для этого перейдите в настройки просмотра и установите флажок фильтрации ботов. Затем сохраните.
- Как остановить бот-трафик для WordPress?
WordPress не помогает блокировать бот-трафик по умолчанию. Вы должны настроить его, установив плагины для блокировки ботов. Их можно установить множество. Хорошими вариантами являются плагины Blackhole и Cloudfare WordPress.
Заключение
Бот-трафик становится частью современного интернета, и, похоже, в ближайшее время он не исчезнет. Хотя некоторые из них хороши, большая часть плоха, и мы должны защищаться от них, чтобы не испортить нам жизнь. К сожалению, обнаружить и заблокировать их может быть гораздо сложнее, чем мы думаем. Хотя сделать это в открытую будет сложно, создание труднодоступного для ботов сайта поможет сократить трафик ботов. Если есть возможность, предоставьте API для разработчиков, как это сделал Twitter.