Не знал. А вы проверяли? Имхо это довольно нелогично.
У них это на сайте написано Использование robots.txt писал(а):
В самом robots.txt проверяется наличие записей, начинающихся с 'User-agent:', в них ищутся подстроки 'Yandex', либо '*' (регистр значения не имеет), причем, если обнаружено 'User-agent: Yandex', директивы для 'User-agent: *' не учитываются. Если записи 'User-agent: Yandex' и 'User-agent: *' отсутствуют, считается, что доступ роботу не ограничен.
Я попробовал проверить с помощью онлайн-проверки на их сайте. Все так. Секцию * игнорирует и видит только три строки, которые для него лично указаны...
Как видно, все эти параметры начинаются с вопросительного знака
Гугл в таких случаях заблокировать доступ ко всем URL-адресам, содержащим знак вопроса (?) (то есть ко всем URL-адресам, которые начинаются с названия домена и содержат вопросительный знак),использовать следующую строку в файле robots.txt
User-agent: Googlebot
Disallow: /*?
Возможно, этот шаблон подойдет и для других ботов, в том числе и яндекса.
Я понимаю под дублями ссылки, которые ведут на одну страницу
Директива Clean-param: записана в robots.txt совсем недавно, пока в поиске яндекса и гугла все равно присутстувуют дублирующиеся страницы и в логе хостинга видно, что поисковики (YandexBot/3.0 и Googlebot/2.1) их закачивают вместе со знаками вопроса.
Robots.txt проверен сервисом яндекса.
Поштучно ставить всем мусорным ссылкам Disallow: конечно же, не выход.