Web Art Solutions
 

������� / ������ / ����������� ����� robots.txt

����������� ����� robots.txt

�����:

��� ��������, ���� robots.txt ������������ ��� ������� ���������� ����� ��� ����� ����� ������������� ��������. ���������� ����������� ����� ����� �������� �������� ���������� ����������, ��� ���������� �� ���������������.

������ ����� robots.txt

robots.txt — ������� ��������� ����1, ������� ������ ���������� � �������� ���������� �������. ��� ����� ������ ���� � ������ �������� (ROBOTS.TXT, Robots.txt — �����������).

� ����� ���������� ������, ���������� ����� ��� ����������� ������� �������� (������������ CR, CRNL, NL ��� \r, \r\n, \n). ������ ������, � ���� �������, ������� �� ����� ���������� ����:

���_����:[�������������� �������]��������[�������������� �������]

���� �������� ���������������� � �������� (case insensitive).

������ ������ ���������� ����� ��� ����������� ��������, ��� ���_����=User-agent, ����� ���� ������� ���� ��� ��������� �����, ��� ���_����=Disallow, ����� �����, ������� ���������� �� ���� ���������, ������������2.

���� «#» ��������, ��� ������� ����� ��� � ��� ������� �� ����� ������ �������� ������������. ������, ���������� ������ �����������, ������������ � �� ����� �������������� ��� ���������� �������.

User-agent

  • ��������� ����� ���� �������� ��� ������, � �������� ����������� ������� ���������;
  • ���� ����� � User-agent ���������, �� ��� ���� ������� ����������� ���������� �������, ������� ����������� � ������� ������;
  • ���� �������� ���� ����� «*», �� ������� ����������� � ������ ������, ��� �������� ��� ��������� ������. � ����� robots.txt ����� ���� ������ ���� ������ � User-agent: *.

Disallow

  • � ������ ������ ���� ���� �� ���� ���� Disallow;
  • � ���� Disallow ����������� ��������� ��� ������ ���� (URL), ������� �� ����� �������;
  • ������ �������� (Disallow: ) ���������������� ��� ���������� �� ��������� ����� ��������;
  • ���������� ��������� � ������� ����������� ���������3.

��������

� �������� ��������� ����� ������ ����� ������ ������ ��� ��������� � ����� ������ ���������� �� ����� robots.txt. ��� ������ ������ ���������� ���� (http://www.site.com/path/to/file.html), ����� ���� � ����� ���� ����������� �� ������� ������� ����������. ����� � ����� ���� ������ Disallow: /path/to, ��� ������������ � ��������������� ���������� ������:
http://www.site.com/path/to/file1.html — ��������� ���������;
http://www.site.com/path/to/file2.html — ��������� ���������;
http://www.site.com/path/file3.html — ��������� ���������.

����� ��������� ������ ��������� ������������ �������, ����� ������������ ��������� ����. ��������, ����� ��������� ��������� ������� ��� ������ ���� http://www.site.com/index.php?action=print&id=1, �� ��������� ��������� ������� ���� http://www.site.com/index.php?action=view&id=1, ���������� � robots.txt �������� ���������:
Disallow: /index.php?action=print
������ ������� ��������� ������� ���������� � ������. ���, ��������� �������� ����� �������:
http://www.site.com/index.php?id=1&action=print
http://www.site.com/?action=print&id=1

������ ����� robots.txt

User-agent: *
Disallow: /news
# ��������� ���� ������� ������������� ������,
#������� ���������� � /news
 
User-agent: StackRambler
User-agent: Aport
Disallow: /eng
Disallow: /news
#�������� � ������ ��������� ���������� ������,
#������� ���������� � /news � /eng
 
User-agent: Yandex
Disallow:
#������� ��������� ���.

������� ��������, ��� ���� robots.txt �� �������� ��������, ��� ��� ��� ������� ���������� ���������� ������ «����������» ������, � ������ � ���� ���������� ����� ������ �������, �������� � ��������, ������� �� ������� �������� ����������, ���� ���������� ������������� ����� robots.txt �� �����.

����� ����� � ���� ���������� �� ����� ��������� ���� � ������, � ������������� ������� �� ������� ����� ����������� �����. ���� robots.txt �������� ����, ������� ����������� ��� �����, ����� Disallow: /admin, ������ ���������� ��������� ����������� � ���������� ����������� ��������.

����������

1. � ��������� ������� ������������ ������������ ������������ ����� robots.txt, ��� ������ � ���������.

2. ��������� ������� ������������ �������������� ����. ������, ��������, ���������� ���� Host ��� ����������� ��������� ������� �����.

3. ��������� ������� ��������� ������������� ���������� ���������. ��� ����, ������� ����� ����� �� ������������, ������ PDF � ������, ������������ � ���� Disallow ������� «*» (����� ������������������ ��������) � «$» (��������� ������ ������). ��� ��������� ��������� �������������� ������������� ���� ������:
User-agent: Googlebot
Disallow: *.pdf$
#������ ���������� ������ PDF

�� ������ ������ ��� ���������� ����������, ��� ��� � ��� �� ������� ����� ������� ��� ��������� PDF � ��������� ������� � ��������� ��� ��������������:
User-agent: *
Disallow: /pdf/