Есть у меня парсер, который парсит некий сайт. Причем делает это не агрессивно, создавая минимум проблем для донора - раз в пять минут запрашивает страничку, собирает список и потом опять же раз в пять минут обходит этот список по одной странице.
Работает на оснвое хрома, селениума и явы. Пару дней назад начались с ним проблемы (с сайтом донором). Присмотревшись повнимательнее - нашлась защита от Qrator, которая выдавала боту ошибку 403.
Выполнив пару шагов больше имитации, плюс подключив профиль от гугла в полуручном режиме парсер заработал (точнее, стал проходить защиту). Почему в полуручном? А все просто - даже с профилем гугла открывая сайт выдается сначала страница 403. Но если потом вручную открыть еще одну вкладку и туда ввести или скопировать адрес, то дальше уже страницы открываются корректно (ставится кука на несколько минут).
И вот интересно - чт овкладку надо открыть именно руками. Я быстро сымитировал селениумом - не хочет принимать кьюраптор.
Дальше пока копать не стал, а заказчику выложил свои и сображения и результаты - пусть принимает решение - копаем дальше или нет. Дело в том, что обойти защиту скорее всего получится, но сколько времени это займет и будет ли стабильно - никто не знает.