Каптча и ее влияние на парсинг сайтов

Применения каптчи на сайтах, ее альтернатива и методы обхода

CAPTCHA - полностью автоматизированный публичный тест Тьюринга. Цель теста Тьюринга - отличить людей от машин, а каптча, как частный случай теста, вводится чтобы предотвратить взаимодействие ботов и спамеров с веб-сайтами.


Капчи пользуются тем фактом, что люди исключительно хороши в некоторых вещах, которые компьютеры считают очень сложными. Самые ранние текстовые капчи использовали человеческую способность распознавать неправильно сформированные и искаженные буквы. Со временем, по мере того, как компьютеры стали более мощными, а алгоритмы более сложными, капчи эволюционировали, чтобы использовать распознавание изображений и другие альтернативные подходы.

История CAPTCHA

Капчи используются с начала 2000-х годов, когда они в основном выглядели так:

Первоначально разработанная в Университете Карнеги-Меллона Луисом фон Аном, reCAPTCHA была основана на массовом сотрудничестве для оцифровки книг с парой слов, представленных пользователю. Один использовался для контроля, второй расшифровал неопределенное слово, используя силу краудсорсинга.

После того, как reCAPTCHA была куплена Google в 2009 году, она была использована для оцифровки Google Books и пиково отображала более 100 миллионов капч в день. Google представил изображения Google Street View в reCAPTCHA в 2012 году, и тем самым изменил способ работы reCAPTCHA в 2014 году, перейдя на дополнительный поведенческий анализ активности пользователей для обнаружения ботов, а также введя что-то более близкое к типу капчи изображений, с которыми мы все знакомы сегодня, например, эта запутанная капча с кошкой ниже:

Несмотря на то, что Google пытался заставить свой сервис капчи перейти на задний план с каждой новой версией текущую версию «сервисом обнаружения мошенничества без трения», но капчи по-прежнему так же раздражают многих пользователей, как и всплывающие окна согласия об отслеживания файлов cookie.

Преимущества CAPTCHA

Каптча решала реальную проблему в первые дни Интернета и продолжает, по крайней мере, замедлять случайных мошенников или делать слишком дорогими для них автоматизированные атаки, и не дает причинять слишком много вреда. Даже простой краткий обзор того, что делают капчи, показывает, что они помогают:


  • Замедляет атаки грубой силы, чтобы взломать пароли
  • Затрудняет хакерам массовую регистрацию учетных записей на веб-сайте
  • Ограничить количество мошенников, генерирующих поддельные лиды, при заполнении форм
  • Помогает предотвратить покупку билетов оптом
  • Добавляет дополнительный уровень безопасности, защищая от спамеров в онлайн-деятельности (опросы, покупки и форумы).

Но обратите внимание, что каждый из этих пунктов пытается замедлить автоматизированные программы (ботов) или отсечь тех, у кого нет финансового или другого стимула обойти капчу. На самом деле это не сплошная кирпичная стена, чтобы об нее убиться.

Недостатки CAPTCHA

Плохой пользовательский опыт

Капчи предназначены для решения реальной проблемы, но это плохой выбор дизайна. Хороший пользовательский опыт (UX) должен сделать жизнь проще для пользователей, а не сложнее. Мы все столкиваемся с капчами, которые не можем разгадать. Например, ситуация когда из условия не понятно считается ли велосипедный знак велосипедом.

Недоступность

И проблема еще хуже для пользователей с ограниченными возможностями, при этом captchasack признан W3C, чтобы эффективно выступать в качестве "отказ в обслуживании этих пользователей". Одним из худших примеров является петиция Белого дома о помощи слепым в 2013 году, которая становится недоступной для слепых.


То же самое относится и к капчам, которые предполагают знание английского языка или западных латинских символов. Тысячи людей во всем мире либо вынуждены бороться с незнакомыми письмами, незнакомыми культурными образами, либо остаются не в состоянии получить доступ к иногда важной информации о других странах.


Есть альтернативы капче, и любой дизайнер веб-сайтов, который хочет быть как можно более инклюзивным, должен изучить их. Медовая ловушка, например, - это капча, видимая ботам, но не людям. Бот попытается решить капчу, тем самым доказав, что она не человек, в то время как человеку даже не придется видеть капчу. Другие варианты заключаются в том, чтобы полагаться на третьи стороны, такие как Google, для проверки ваших посетителей или Cloudflare Bot Management для идентификации ботов на основе их поведения.


Капчи нарушают работу пользователей, потому что они буквально препятствуют доступу к веб-сайтам. И по мере того, как боты становятся умнее благодаря машинному обучению, проблема только усугубляется.

Скорость загрузки и конверсия

CAPTCHA также влияет на скорость загрузки страниц в браузерах. По оценкам некоторых исследований, даже NoCaptcha от Google reCaptcha, по оценкам, добавляет 350- 550 миллисекунд по всему миру на веб-сайт. Любой вид аналогичной скорости в эти дни, скорее всего, заставит ваших посетителей просто уйти к конкурентам.


Тогда возникает проблема конверсий. Получить трафик и посетителей в наши дни достаточно сложно и дорого, да еще и требуя от них решения каптч. Хотя исследование онлайн-сайтов и сайтов электронной коммерции, основанное на CAPTCHA, сделанных несколько лет назад, показало, что до 12% потенциальных клиентов просто покинут сайт, а не будут иметь дело со сложной каптчей. Всегда есть другое место с лучшим UX.

Легко обходится

И самая грустная новость заключается в том, что каптчу легко обойти при парсинге сайтов. Если кому-то нужен доступ к веб-сайту, защищенному CAPTCHA, он может прибегнуть к ряду способов ее обхода.

Убийцы CAPTCHA

Существует ряд сайтов, таких как 2Captcha, Anti Captcha или Best Captcha Solver, для обхода CAPTCHA.


Это подводит нас к гораздо более темной стороне CAPTCHA. В то время как капчи могут быть побеждены с помощью сложного машинного обучения, часто используемый метод заключается в том, чтобы воспользоваться низкооплачиваемым трудом реальных людей из Индии, Бангладеша и т.п. для их решения. Возможно, мы разработали каптчу, чтобы отличить людей от ботов, но что происходит, когда армия людей может решить их так же быстро и дешево, как боты?


Индия, Филлипины - одни из немногих стран мира, где предприятиям имеет смысл создавать компании, специализирующихся на решении каптчей. Если человеку можно заплатить два доллара за решение тысячи каптч, этого может быть достаточно, чтобы дать ему реальное преимущество перед своими согражданами, даже если они могут зарабатывать только около 1,20 доллара в день после 11 часов безостановочной работы.

Выводы

Вероятно, борьба между веб-сайтами, которые используют CAPTCHA, и компаниями, которые находят способы обойти их, чтобы получить нужные данные, еще не закончится долго. Поэтому лучший совет для создателей парсеров - стараться не причинить вреда сайту, не перегружать его серверы и не собирать личные данные. Мы все должны делиться интернетом, так что давайте попробуем сделать его отличным местом для работы и совместной жизни, а также раздвинем границы того, что мы можем сделать со всеми этими удивительными технологиями, с которыми нам приходится работать.

Нужен парсинг сайтов?