Thứ Năm, 30 tháng 10, 2014

Hôm nay Hồng Designer đến với một nhận thức hạn viết blog rất hữu ích và phải đó là Robots.txt. Trong blogger nó được gọi là tùy chỉnh Robots.txt đó có nghĩa là bây giờ bạn có thể tùy chỉnh tập tin này theo sự lựa chọn của bạn. Trong ngày hôm nay chúng tôi sẽ thảo luận về thuật ngữ này trong sâu và đến để biết về sử dụng và lợi ích của nó. Tôi cũng sẽ cho bạn biết làm thế nào để thêm tập tin robots.txt tùy chỉnh trong blogger. Bắt đầu nhé

Robots.txt là gì?

Robots.txt 

Là một tập tin văn bản, trong đó có vài dòng mã đơn giản. Nó được lưu trên trang web hoặc máy chủ của blog mà hướng dẫn các trình thu thập web làm thế nào để chỉ mục và thu thập dữ liệu blog của bạn trong kết quả tìm kiếm. Điều đó có nghĩa bạn có thể hạn chế bất kỳ trang web trên blog của bạn từ trình thu thập web để nó không thể được lập chỉ mục trong công cụ tìm kiếm như trang blog nhãn của bạn, trang giới thiệu của bạn hoặc bất kỳ trang nào khác mà không phải là quan trọng để có được lập chỉ mục. Luôn luôn nhớ rằng trình thu thập tìm kiếm quét các tập tin robots.txt trước khi thu thập dữ liệu bất kỳ trang web.
Mỗi blog lưu trữ trên blogger có tập tin robots.txt mặc định của nó là một cái gì đó trông như thế này:
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: /
Sitemap: http://ishare247.blogspot.com/feeds/posts/default?orderby=UPDATED

Trong đó :

Mediapartners-Google :

 Mã này là dành cho robot Google Adsense mà giúp họ để phục vụ tốt hơn quảng cáo trên blog của bạn. Hoặc bạn đang sử dụng Google Adsense trên blog của bạn hay không chỉ đơn giản là để nó như nó là.

User-agent : 

Này là dành cho tất cả các robot có dấu hoa thị (*). Trong các thiết lập mặc định nhãn liên kết trên blog của chúng tôi bị hạn chế để lập chỉ mục bởi trình thu thập tìm kiếm đó có nghĩa là các trình thu thập web của chúng tôi liên kết trang nhãn vì mã dưới đây sẽ không chỉ mục.

Disallow: /search

Điều đó có nghĩa các liên kết có từ khóa tìm kiếm ngay sau khi tên miền sẽ bị bỏ qua. Xem dưới đây ví dụ đó là một liên kết của trang nhãn có tên là SEO
http://ishare247.blogspot.com/search/label/SEO
Và nếu chúng ta loại bỏ Disallow: / tìm kiếm từ đoạn code trên sau đó sẽ truy cập trình thu thập toàn bộ blog của chúng tôi để lập chỉ mục và thu thập thông tin tất cả các nội dung và các trang web của mình.
Dưới đây Allow: / đề cập đến trang chủ đó có nghĩa là thu thập web có thể thu thập thông tin và trang chủ chỉ mục blog của chúng tôi.

Disallow Particular Post

Bây giờ giả sử nếu chúng ta muốn loại trừ một bài cụ thể từ lập chỉ mục sau đó chúng ta có thể thêm vào bên dưới dòng trong code.
Disallow: /yyyy/mm/post-url.html
Dưới đây yyyy và mm đề cập đến năm xuất bản và tháng của bài viết tương ứng. Ví dụ, nếu chúng tôi đã xuất bản một bài trong năm 2013 trong tháng Ba thì chúng ta phải sử dụng định dạng dưới đây.
Disallow: /2013/03/post-url.html
Để thực hiện nhiệm vụ này dễ dàng, bạn chỉ có thể sao chép URL bài và loại bỏ các tên blog từ đầu.

Disallow Particular Page

Nếu chúng ta cần phải không cho phép một trang cụ thể sau đó chúng ta có thể sử dụng phương pháp tương tự như trên. Đơn giản chỉ cần sao chép URL trang và loại bỏ các địa chỉ blog, điều đó sẽ một cái gì đó giống như thế này:
Disallow: /p/page-url.html

Sitemap: http://ishare247.blogspot.com/feeds/posts/default?orderby=UPDATED

Mã này đề cập đến sitemap của blog của chúng tôi. Bằng cách thêm vào các đường dẫn sitemap ở đây chúng tôi chỉ đơn giản là tối ưu hóa tỷ lệ bò blog của chúng tôi. Có nghĩa là bất cứ khi nào các trình thu thập web quét tập tin robots.txt của chúng tôi họ sẽ tìm thấy một con đường dẫn tới sitemap của chúng tôi, nơi tất cả các liên kết của bài viết xuất bản của chúng tôi hiện nay. Trình thu thập web sẽ tìm thấy nó dễ dàng để thu thập thông tin tất cả các bài viết của chúng tôi. Do đó, có những cơ hội tốt hơn mà trình thu thập web thu thập thông tin tất cả các bài đăng trên blog của chúng tôi mà không bỏ qua một duy nhất. 
Lưu ý: Sơ đồ này sẽ chỉ cho các trình thu thập web về 25 bài viết gần đây. Nếu bạn muốn tăng số lượng các liên kết trong sitemap của bạn sau đó thay thế sơ đồ trang web mặc định dưới đây với một. Nó sẽ làm việc cho 500 bài viết gần đây đầu tiên
Sitemap: http://example.blogspot.com/atom.xml?redirect=false&start-index=1&max-results=500
Nếu bạn có nhiều hơn 500 bài viết được công bố trên blog của bạn thì bạn có thể sử dụng hai sơ đô web như dưới đây:
Sitemap: http://example.blogspot.com/atom.xml?redirect=false&start-index=1&max-results=500
Sitemap: http://example.blogspot.com/atom.xml?redirect=false&start-index=500&max-results=1000 

 Thêm tập tin tùy chỉnh Robots.txt trong Blogger

  1. Đi vào blog của blogger của bạn. 
  2. Tìm đến mục Settings >> Tùy chọn tìm kiếm >> Robots.txt tùy chỉnh  >> Edit >> Có 
  3. Bây giờ dán mã tập tin robots.txt của bạn trong hộp. 
  4. Click vào nút Save Changes. 
Bạn đã làm xong!

0 nhận xét:

Đăng nhận xét