• Downloading from our site will require you to have a paid membership. Upgrade to a Premium Membership from 10$ a month today!

    Dont forget read our Rules! Also anyone caught Sharing this content will be banned. By using this site you are agreeing to our rules so read them. Saying I did not know is simply not an excuse! You have been warned.

Hướng dẫn tạo và sử dụng file robots.txt

Status
Not open for further replies.

Admin

Well-Known Member
Staff member
Administrator
robots-txt.png

robots.txt là file văn bản có cấu trúc, khi các spider (bot, crawler) của các SE (Search engine) vào website để thu thập dữ liệu thì sẽ vào file robots.txt để xem các chỉ dẫn trong file này. robots.txt có thể quy định từng loại bot khác nhau của các SE khác nhau có thể vào website hay từng khu vực của website hay không?
Vài loại bot của các SE: Googlebot (Google), Googlebot-Image(Google), Yandex(SE của Nga), Bingbot(Bing)/Yahoo Slurp(Yahoo)...
Những cú pháp thông dụng trong file robots.txt
User-agent: đối tượng bot được chấp nhận
Disallow/Allow: URL muốn chặn/cho phép
*: Đại diện cho tất cả
Ví dụ: User-agent: * (Có nghĩa là chấp nhận tất cả các loại bot.)
Khóa toàn bộ site
Disallow: /Chặn 1 thư mục và mọi thứ nằm trong nó
Disallow: /wp-admin/
Chặn 1 trang
Disallow: /private_file.html
Loại bỏ 1 hình từ Google Images
User-agent: Googlebot-Image
Disallow: /images/***y.jpg
Bỏ tất cả các hình từ Google Images:
User-agent: Googlebot-Image
Disallow: /
Chặn 1 file hình bất kỳ, ví dụ .gif
User-agent: Googlebot
Disallow: /*.gif$
Những điều cần tránh trong file robots.txt
- Phân biệt chữ hoa chữ thường.
- Không được viết dư, thiếu khoản trắng.
- Không nên chèn thêm bất kỳ ký tự nào khác ngoài các cú pháp lệnh.
- Mỗi một câu lệnh nên viết trên 1 dòng.
Cách tạo và vị trí đặt
- Dùng notepad hay bất cứ chương trình nào tạo file, sau đó đổi tên file là robots.txt.
Bài hướng dẫn cách sử dụng file robots.txt hy vọng đã giúp ích được cho các bạn đọc.
 
Status
Not open for further replies.

Facebook Comments

Similar threads

New posts New threads New resources

Back
Top