Robots.txt là gì? Robots.txt có nhiệm vụ gì trong web của bạn? Giờ thì cùng tìm hiểu sâu vào Robots.txt là gì, cùng lúc đó Yatame sẽ hướng dẫn bạn cách tạo file robots txt chuẩn và tương tự tạo file robot txt cho website nhé.
Robots.txt là gì?
Robots.txt là một bản văn bản đặc biệt được đặt trên một trang web. Nó có tác dụng chỉ định các quy tắc và hướng dẫn các robot của công cụ tìm kiếm khi truy cập vào trang web đó. Tệp robots.txt cho phép chủ sở hữu trang web kiểm soát cách tìm kiếm hoạt động của robot trên trang web của mình.
Khi một robot tìm kiếm như Googlebot hoặc Bingbot truy cập vào một trang web. Nó sẽ tìm kiếm tệp robots.txt đầu tiên để xem dữ liệu có bất kỳ hướng dẫn nào về việc quét và thiết lập chỉ mục trang web đó hay không. Tệp robots.txt thường được đặt trong thư mục gốc của trang web.

Tệp robots.txt là gì? Làm nào để chỉ định các quy tắc?
Trong tệp robots.txt , bạn có thể chỉ định các quy tắc như sau:
- Tác nhân người dùng: Xác định loại tìm kiếm robot nào sẽ áp dụng quy tắc tiếp theo.
- Disallow: Chỉ định các phần của trang web mà bạn không muốn robot tìm kiếm truy cập.
- Allow: Chỉ định các phần của trang web mà bạn cho phép robot tìm kiếm truy cập, ngay cả khi có quy tắc Disallow chung.
- Sơ đồ trang web: Chỉ định đường dẫn đến sơ đồ trang web tệp của trang web, giúp robot tìm kiếm hiểu cấu trúc trang web và cài đặt chỉ mục nhanh chóng.
Tuy nhiên, tệp robots.txt chỉ là một hướng dẫn và không chặn các robot tìm kiếm quyền truy cập vào các phần của trang web nếu chúng không kèm thủ quy tắc. Một số robot tìm kiếm không chứa tệp robots.txt hoặc có thể bỏ qua nó hoàn toàn.
Việc sử dụng file robots.txt có thể hữu ích để kiểm soát quyền riêng tư, quản lý quyền truy cập và hướng dẫn bạn tìm kiếm robot trên trang web.
Tại sao bạn nên quan tâm đến tệp Robots.txt? Lợi ích của tệp Robots.txt là gì?
Đối với hầu hết các quản trị web, lợi ích của tệp robot.txt có cấu trúc tốt thường sẽ có hai tác dụng chính sau:
- Tối ưu hóa tài nguyên thu thập dữ liệu của các công cụ tìm kiếm bằng cách nói với họ đừng lãng phí thời gian trên các trang mà bạn không muốn được lập chỉ mục. Điều này giúp đảm bảo rằng các công cụ tìm kiếm tập trung vào việc thu thập dữ liệu các trang mà bạn quan tâm nhất.
- Tối ưu hóa việc sử dụng máy chủ của bạn bằng cách chặn các bot đang lãng phí tài nguyên. Nhiều trường hợp website gặp tình trạng chậm, lag do hosting/máy chủ phải cung cấp tài nguyên để phản hồi các request từ các bots.

Hướng dẫn cách tạo file robots txt chuẩn
Để tạo một tệp robots.txt chuẩn, bạn có thể tuân thủ các quy tắc và hướng dẫn sau:
- Mở trình soạn thảo văn bản hoặc trình chỉnh sửa mã nguồn của trang web của bạn.
- Tạo một tệp mới và đặt tên là “robots.txt”.
- Bắt đầu tệp robots.txt bằng cách chỉ định User-agent. Dòng này xác định robot tìm kiếm nào sẽ áp dụng quy tắc tiếp theo.
- Ví dụ: User-agent: *.
- Trong ví dụ trên, dấu sao (*) được sử dụng để chỉ định rằng quy tắc áp dụng cho tất cả các robot tìm kiếm.
- Để tạo một tệp robots.txt chuẩn tiếp theo, bạn có thể sử dụng các chỉ thị Disallow để chỉ định các phần của trang web mà bạn không muốn robot tìm kiếm truy cập.
- Ví dụ:
- Disallow: /private/.
- Disallow: /admin/.
- Trong ví dụ trên, các thư mục “/private/” và “/admin/” sẽ không được robot tìm kiếm truy cập.
- Ví dụ:
- Nếu bạn muốn chỉ định các phần của trang web mà bạn cho phép robot tìm kiếm truy cập, bạn có thể sử dụng chỉ thị Allow.
- Ví dụ: Allow: /public/.
- Trong ví dụ trên, thư mục “/public/” sẽ được robot tìm kiếm truy cập. Ngay cả khi có quy tắc Disallow chung.
- Nếu bạn muốn chỉ định đường dẫn đến tệp sitemap của trang web, bạn có thể sử dụng chỉ thị Sitemap.
- Ví dụ: Sitemap: https://www.example.com/sitemap.xml.
- Trong ví dụ trên, đường dẫn “https://www.example.com/sitemap.xml” là đường dẫn đến tệp sitemap của trang web.
- Lưu tệp robots.txt và tải lên thư mục gốc của trang web của bạn.
- Lưu ý rằng việc tạo tệp robots.txt chỉ là một phần trong việc quản lý quyền riêng tư và hướng dẫn robot tìm kiếm. Một số robot tìm kiếm có thể không tuân thủ tệp robots.txt hoặc có thể bỏ qua nó hoàn toàn.
Hướng dẫn cách tạo file robot txt cho website
Có nhiều cách để tạo file robot txt cho website. Một cách đơn giản là sử dụng plugin Yoast SEO – Plugin tối ưu SEO tổng hợp. Ngoài việc hỗ trợ tạo nhanh robots.txt thì bạn có thể tìm hiểu thêm những tính năng SEO vô cùng hữu ích từ Yoast SEO.

Tại giao diện quản trị website (Dashboard) → Plugins → Add new. Bạn có thể download plugin Yoast SEO miễn phí tại đây. Bạn cũng có thể tìm kiếm trong kho thư viện của WordPress với từ khóa “Yoast SEO” và tiến hành cài đặt vào website.
Tại Yoast SEO → Công cụ → Trình chỉnh sửa tập tin.

Nhấn chọn tạo file robot txt cho website, tiếp tục nhấn lưu thay đổi vào robots.txt. Để hoàn tất quá trình tạo file hoặc chỉnh sửa robots.txt.

Trong tệp Robots.txt có gì?
Được rồi, bây giờ bạn có tệp robot.txt vật lý trên máy chủ của mình mà bạn có thể chỉnh sửa khi cần. Nhưng bạn thực sự làm gì với tập tin đó? Chà, như bạn đã học trong phần đầu tiên, robot.txt cho phép bạn kiểm soát cách robot tương tác với trang web của bạn. Bạn làm điều đó với hai lệnh cốt lõi:
- User-agent – điều này cho phép bạn nhắm mục tiêu các bot cụ thể. User-agent là những gì bot sử dụng để nhận dạng chính họ. Với User-agent, ví dụ, bạn có thể tạo quy tắc áp dụng cho Bing, nhưng không áp dụng cho Google.
- Disallow – điều này cho phép bạn nói với robot không truy cập vào các khu vực nhất định trên trang web của bạn.
Ngoài ra còn có một lệnh Allow mà bạn sẽ sử dụng trong các tình huống thích hợp. Theo mặc định, mọi thứ trên trang web của bạn được đánh dấu bằng Allow. Do đó không cần thiết phải sử dụng lệnh Allow trong 99% tình huống. Nhưng nó có ích khi bạn muốn Disallow truy cập vào một thư mục. Các thư mục con của nó nhưng Allow truy cập vào một thư mục con cụ thể.
Cách thêm quy tắc bằng chỉ định cho Robots.txt là gì?
Trước tiên, bạn thêm quy tắc bằng cách chỉ định User-agent nào nên áp dụng quy tắc. Sau đó liệt kê các quy tắc sẽ áp dụng bằng Disallow và Allow. Ngoài ra còn có một số lệnh khác như Crawl-delay và Sitemap sẽ có những tác động sau:
- Bị bỏ qua bởi hầu hết các trình thu thập thông tin chính. Được diễn giải theo nhiều cách khác nhau (trong trường hợp trì hoãn thu thập thông tin)
- Được tạo dự phòng bằng các công cụ như Google Search Console (cho sơ đồ trang web)
Kết luận
Như vậy là bạn đã hiểu rõ robots.txt là gì, tác dụng của robots.txt trong web. Cách để tạo ra một file robots.txt chuẩn cho website và tùy chỉnh file robots.txt theo ý muốn. Yatame đã chia sẻ cho bạn những gì liên quan đến robots.txt rồi đấy chúc bạn thành công.