Этот сайт лучше всего просматривать в современном браузере с включённым JavaScript.

Обход Qrator на селениум

up7

Есть у меня парсер, который парсит некий сайт. Причем делает это не агрессивно, создавая минимум проблем для донора - раз в пять минут запрашивает страничку, собирает список и потом опять же раз в пять минут обходит этот список по одной странице.

Работает на оснвое хрома, селениума и явы. Пару дней назад начались с ним проблемы (с сайтом донором). Присмотревшись повнимательнее - нашлась защита от Qrator, которая выдавала боту ошибку 403.

Выполнив пару шагов больше имитации, плюс подключив профиль от гугла в полуручном режиме парсер заработал (точнее, стал проходить защиту). Почему в полуручном? А все просто - даже с профилем гугла открывая сайт выдается сначала страница 403. Но если потом вручную открыть еще одну вкладку и туда ввести или скопировать адрес, то дальше уже страницы открываются корректно (ставится кука на несколько минут).

И вот интересно - чт овкладку надо открыть именно руками. Я быстро сымитировал селениумом - не хочет принимать кьюраптор.

Дальше пока копать не стал, а заказчику выложил свои и сображения и результаты - пусть принимает решение - копаем дальше или нет. Дело в том, что обойти защиту скорее всего получится, но сколько времени это займет и будет ли стабильно - никто не знает.

up7

Напишу дальше потом продолжением, чем закончится. Самому с одной стороны хотелось бы, чтобы заказчик согласился (полезный опыт), но с другой - будет много работы, которая не факт, что закончится успехом.