• Downloading from our site will require you to have a paid membership. Upgrade to a Premium Membership from 10$ a month today!

    Dont forget read our Rules! Also anyone caught Sharing this content will be banned. By using this site you are agreeing to our rules so read them. Saying I did not know is simply not an excuse! You have been warned.

Tổng quan về robots.txt cho xenforo

Admin

Well-Known Member
Staff member
Administrator
Một trong những điều quan trọng để website của bạn có thể đạt thứ hạng cao khi tìm kiếm (Google) là bạn phải thiết lập cho mình một file Robots.txt đúng chuẩn.

tuoitrevnbiz28052013.jpg

Vậy file Robots.txt là gì?
Khi một search engine vào website của bạn vào tìm kiếm (Crawler), nó sẽ tìm một file đặc biệt trước tiên, đó là file robots.txt. File robots.txt cho search engine đó biết rằng, website này có thể index hoặc không (tùy theo lệnh được viết trong file robots.txt).

Thực chất, file robots.txt là một tập tin văn bản đơn giản (không chứa mã HTML) được đặt trong thư mục gốc của web site, ví dụ: vxf.vn/robots.txt.

Robots.txt hoạt động bằng cách xác định một user-agent và một command cho user-agent này.

Các tham số có trong file robots.txt
- User-agent: khai báo tên search engine mà bạn muốn thiết lập khu vực truy cập với nó. VD: Googlebot
- Disallow: là khu vực mà bạn muốn khoanh vùng không cho phép search engine truy cập.
- Crawl-Delay: thông số này xác định thời gian (tính bằng giây) search phải đợi trước khi chuyển sang site tiếp theo. Điều này sẽ có ích để ngăn chặn các search engine load server tùy tiện.
- Dấu # được sử dụng trước các dòng cần comment.

Tại sao bạn nên sử dụng Robots.txt?
- Ngăn chặn search engine tìm kiếm các trang bạn không mong muốn (có thể là nội dung riêng tư) hiển thị trong kết quả tìm kiếm.
- Ngăn chặn search engine tìm kiếm các thông tin "rác" (không có ích về nội dung). Do SE luôn luôn có bot truy cập vào toàn bộ website của bạn để thu thập thông tin. Bằng cách sử dụng robots.txt để loại bỏ "rác", bạn sẽ giúp SE tập trung thu thập chính xác nội dung của website, giảm thiểu các index không cần thiết. Khi chất lượng nội dung của website tăng lên thì các từ khóa cũng sẽ được đánh giá cao trên SE.

Làm thế nào để tạo ra một file robots.txt?
Rất đơn giản, bạn có thể mở chương trình Notepad hay bất cứ chương trình soạn thảo văn bản nào, lưu file với tên robots.txt là xong.

File Robots.txt "chuẩn"

HTML:
User-agent: *
Disallow: /account/
Disallow: /admin.php
Disallow: /ajax/
Disallow: /conversations/
Disallow: /find-new/
Disallow: /forums/-/
Disallow: /forums/tweets/
Disallow: /goto/
Disallow: /help/
Disallow: /login/
Disallow: /lost-password/
Disallow: /misc/style?*
Disallow: /misc/quick-navigation-menu?*
Disallow: /online/
Disallow: /posts/
Disallow: /threads/tera-tweet-from-*
Disallow: /credits/
Disallow: /register/
Disallow: /search/
Disallow: /members/
Disallow: /member-map/
Disallow: /attachments/
Allow: /



Những lưu ý khi tạo file robots.txt
Khi các bạn tạo và sử dụng robots.txt cho website cần chú ý các điểm sau:
- Không thay đổi trật tự của các dòng lệnh (User-agent luôn ở trên).
- Phân biệt chữ hoa chữ thường.
- Không được viết thiếu khoảng trắng.
- Không nên chèn thêm bất kỳ ký tự nào khác ngoài các cú pháp ở trên.
- Mỗi một câu lệnh nên viết trên 1 dòng.
- Không được để khoảng trắng ở đầu dòng.
 

Facebook Comments

Similar threads

New posts New threads New resources

Back
Top