Как составить правильный файл robots.txt?
Здравствуйте дорогие друзья. Сегодня я расскажу про файл robots.txt, что это за файл и как его составить. И почему файл robots.txt очень важен при продвижении блога.
Я думаю, что многие уже знают, что такое robots.txt, многие сталкивались с этим понятием. Но, новичкам нужно объяснить, что это такое.
Файл robots.txt — это текстовый документ, файл, который находится в корневой папке вашего блога и куда входят инструкции по индексированию файлов блога.
Простым языком этот файлик запрещает поисковым системам индексировать некоторые файлы и папки вашего блога, а так же указывает на «зеркало сайта».
А зачем, спросите вы нужно создавать этот файл, настраивать? Как я уже сказал, он влияет на индексирование и не позволяет поисковому роботу индексировать то, что ему не нужно. Во-вторых, он настраивает зеркало сайта.
Зеркало сайта, это вид вашего блога. То есть он будет с www, или без www. Причем для поисковиков это два разных домена, соответственно если покупать ссылки, например на блог с www, а сам сайт без www, то ссылки куплены в пустую.
И в третьих в файле robots.txt задается карта сайта в формате xml, чтобы ваш блог быстрее индексировался. Кстати, если у вас нет карты сайта, то ее нужно создать обязательно. Информация тут.
Правильный файл robots.txt для блога на WordPress
User-agent: * Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /webstat/ Disallow: /feed/ Disallow: /trackback Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /*?* Disallow: /*? Disallow: /category/*/* Disallow: /wp-content/ Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /comments User-agent: Yandex Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /webstat/ Disallow: /feed/ Disallow: /trackback Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /*?* Disallow: /*? Disallow: /category/*/* Disallow: /wp-content/ Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /comments Host: today-life.ru Sitemap: http://today-life.ru/sitemap.xml
Вот он правильный файлик, который должен присутствовать у каждого блога. Чтобы его создать, нужно лишь сделать документ на компьютере, например через блокнот или программу Notepad++, и назвать его «robots.txt».
Так, а теперь давайте его немного изменим и я вам объясню, что к чему. Если вы скопируете этот файл на свой блог, то у вас будут настройки моего блога, а это нам не надо.
Видим строчки:
-
Host: today-life.ru
Здесь вам нужно заменить на свой домен и указать, будь то с www, или без него. Заметьте, у меня просто адрес домена(без трех в )
Дальше, вам нужно заменить строчку на свою.
- Sitemap: http://today-life.ru/sitemap.xml
Это ссылка ведет на карту сайта для поисковиков. У меня на блоге есть статья, почитайте, в ней я подробно рассказал про создание карты(двух видов).
Кстати, некоторые еще ставят ссылку на карту сайта в формате архива( http://today-life.ru/sitemap.xml.gz), но я этого делать не стал.
Теперь давайте немного разберемся с разными значениями. Видите с чего начинаются строчки? Они начинаются с
User-agent:
Эти строки дают знать поисковикам, что не нужно индексировать. То есть строка
User-agent: Yandex
Обозначает, что все ниже перечисленное в этом файле не индексируется Яндексом. А вот эта строка со звездочкой
User-agent: *
Обозначает заперт всем поисковым системам. Вот так. . Но это еще не все, например, строчки
Disallow:
говорят, что именно не нужно индексировать. Будь то wp-admin, или wp-content, это не нужно знать поисковикам.
На этом я статью заканчиваю. Надеюсь вы узнали, что такое файл robots.txt и как его составлять, а так же что-за что отвечает.
P.S. Подписывайтесь на обновление блога, так как я в следующей статье расскажу про грамотную внутреннюю перелинковку блога.
Успехов вам и продвижения.
С уважением, Фокеев Тимофей
Первые свои шаги в оптимизации блога у меня были именно с создания файла робота и карты сайта
Вот, Тимофей, спасибо тебе. Мне часто пишут как это сделать, как то сделать. Блин, вроде не удобно отвечать типа «Ребята это не моя тема, идите к тем кто об этом пишет!» Но потом что-то меня останавливает и я начинаю отвечать на вопросы не по своей теме, а это по тайм-менеджменту НЕ айс. Так что всех к тебе буду отправлять. Блин пытаюсь объяснить что да, я это знаю, но я об этом не пишу!!!!
Руслан — спасибо, приятно. Да, и так в последнее время времени в обрез, а тут к тебе со своими вопросами
Молодец, все хорошо расписал!
Вот сейчас то мы и будем работать с файлом robots.txt. Никогда ему не уделял большого внимания. Возможно, поэтому и результаты не блестали.
Не прописана директива Disallow: /wp-content/cache будут дубли страниц взятые из кеша
Бывает же такие совпадения: мой последний пост на эту же тему. К чему бы это
?
Знать для себя это просто необходимо, но вот писать на данную тему, наверное нет смысла. Задайте в поиск Яндекса или Гугла, и выйдет великое множество ответов.
Виталик — спасибо буду знать
Glamour-Kiso — смысл есть, я же тоже хочу попасть в топ. Чтобы набирали этот запрос и меня находили.
Геннадий — получается бывают
Слава Богу, что курс Саши Борисова у меня есть, так что все правильно у меня!
А для тех, у кого его нет, Тимофей, ты просто обалденную подсказку дал. Молодец
Спасибо! У меня всё время выдаёт при проверке, две ошибки. постараюсь разобраться.
Смело ты, Тимофей, назвал этот файл самым правильным. Вот у многих «продвинутых» блогеров этот файл прописан совсем иначе, и тоже хорошо (даже отлично) индексируются ПС. Но для тех, кто захочет составить данный файл, ты очень хорошо раскрыл эту тему. спасибо...
Спасибо когда первый раз делала было легко
помню намучался с этим роботом, но сейчас составить его проще некуда ...)