Thứ Tư, 17 tháng 9, 2014

Robots.txt là gì?


Robots.txt là  một file text mà người quản trị web tạo ra để hướng dẫn robot (bọ tìm kiếm của công cụ tìm kiếm) làm thế nào để thu thập dữ liệu và index các pages trên trang web của họ. Exclusion Protocol (REP) là một nhóm các tiêu chuẩn web để điều chỉnh hành vi Robot Web và lập chỉ mục cho công cụ tìm kiếm.


Mẫu code

Chặn tất cả robot với tất cả các nội dung
User-agent: *
Disallow: /


Chặn 1 robot với 1 folder
User-agent: Googlebot
Disallow: /no-google/


Chặn 1 robot với 1 trang
User-agent: Googlebot
Disallow: /no-google/blocked-page.html


Cho phép 1 robot vào 1 trang
User-agent: *
Disallow: /no-bots/block-all-bots-except-rogerbot-page.html
User-agent: rogerbot
Allow: /no-bots/block-all-bots-except-rogerbot-page.html


Thông số sitemap
User-agent: *
Disallow:
Sitemap: http://www.example.com/none-standard-location/sitemap.xml

Format tối ưu

Robots.txt cần được đặt ở thư mục gốc của tên miền để có thể phát huy tác dụng
Ví dụ: http:/www.example.com/robots.txt

Áp dụng tốt nhất trong SEO

Chặn trang (Blocking page)

Có một số cách để ngăn chặn các công cụ tìm kiếm truy cập một tên miền nhất định:

Chặn với Robots.txt

Điều này nói cho Google Spider không nên thu thập dữ liệu URL được nhắc tới, nhưng cũng nói cho Google Spider rằng có thể giữ cho các trang trong chỉ mục và hiển thị nó trong trong kết quả.

Chặn bởi Nofollowing Liên kết (Block by Nofollowing Links)

Đây gần như là cách làm kém hiệu quả nhất. Bởi vì vẫn có thể cho các công cụ tìm kiếm khám phá các trang theo những cách khác. (Thông qua thanh công cụ trình duyệt, các liên kết từ các trang khác, analytics, ...).

0 nhận xét:

Đăng nhận xét