Tìm hiểu về tệp robots.txt

30/11/2019

Tệp robots.txt là gì?

Tệp robots.txt cho trình thu thập dữ liệu của công cụ tìm kiếm biết các trang hoặc tệp mà trình thu thập dữ liệu có thể hoặc không thể yêu cầu từ trang web của bạn. Tệp này chủ yếu dùng để ngăn trình thu thập dữ liệu gửi quá nhiều yêu cầu cho trang web của bạn; tệp không phải là cơ chế để ẩn một trang web khỏi Google. Để ẩn một trang web khỏi Google, bạn nên sử dụng thẻ hoặc chỉ thị noindex hoặc bảo vệ trang của bạn bằng mật khẩu.

Tệp robots.txt dùng cho mục đích gì?

Tệp robots.txt chủ yếu dùng để quản lý lưu lượng truy cập của trình thu thập dữ liệu vào trang web của bạn và đôi khi để ẩn trang khỏi Google, tùy thuộc vào loại tệp:

Loại trang	Quản lý lưu lượng	Ẩn khỏi Google	Mô tả
Trang web	✔	✗	Đối với các trang web (HTML, PDF hoặc các định dạng không phải đa phương tiện khác mà Google có thể đọc), robots.txt có thể dùng để quản lý lưu lượng thu thập dữ liệu nếu bạn cho rằng máy chủ của bạn sẽ nhận được quá nhiều yêu cầu từ trình thu thập dữ liệu của Google hoặc để tránh việc thu thập dữ liệu không quan trọng hoặc các trang tương tự nhau trên trang web của bạn. Bạn không nên sử dụng robots.txt như một phương tiện để ẩn các trang web của bạn khỏi kết quả tìm kiếm của Google. Điều này là vì Google vẫn có thể lập chỉ mục trang của bạn mà không cần truy cập trang nếu có các trang khác trỏ đến trang đó kèm theo văn bản mô tả. Nếu bạn muốn chặn trang của mình khỏi kết quả tìm kiếm, hãy sử dụng một phương pháp khác như bảo vệ bằng mật khẩu hoặc lệnh noindex. Nếu trang web của bạn bị chặn bằng tệp robots.txt, trang vẫn có thể xuất hiện trong kết quả tìm kiếm, nhưng kết quả tìm kiếm sẽ không có nội dung mô tả và trông giống như thế này. Các tệp hình ảnh, tệp video, tệp PDF và các tệp không phải HTML khác sẽ bị loại trừ. Nếu bạn thấy kết quả tìm kiếm này cho trang của mình và muốn sửa kết quả, hãy xóa lệnh chặn trang trong robots.txt. Nếu bạn muốn ẩn hoàn toàn trang khỏi kết quả tìm kiếm, hãy sử dụng phương thức khác.
Media file	✔	✔	Sử dụng robots.txt để quản lý lưu lượng truy cập thu thập dữ liệu và cũng để ngăn các tệp hình ảnh, video và âm thanh xuất hiện trong kết quả tìm kiếm của Google. (Lưu ý rằng tệp này sẽ không ngăn các trang hoặc người dùng khác liên kết đến tệp hình ảnh/video/âm thanh của bạn.) Đọc thêm về cách ngăn hình ảnh xuất hiện trên Google. Đọc thêm về ngăn các tệp video xuất hiện trên Google.
Tệp tài nguyên	✔	✔	Bạn có thể sử dụng robots.txt để chặn các tệp tài nguyên chẳng hạn như hình ảnh không quan trọng, tập lệnh hoặc các tệp định kiểu, nếu bạn nghĩ rằng các trang tải mà không có các tài nguyên này sẽ không bị ảnh hưởng đáng kể bởi lệnh chặn này. Tuy nhiên, nếu việc thiếu các tài nguyên này làm cho trình thu thập dữ liệu của Google khó hiểu được trang của bạn, bạn không nên chặn chúng, nếu không Google sẽ không thực hiện tốt trong việc phân tích những trang yêu cầu các tài nguyên này của bạn.

Loại trang

Quản lý lưu lượng

Ẩn khỏi Google

Mô tả

Trang web

✔

✗

Đối với các trang web (HTML, PDF hoặc các định dạng không phải đa phương tiện khác mà Google có thể đọc), robots.txt có thể dùng để quản lý lưu lượng thu thập dữ liệu nếu bạn cho rằng máy chủ của bạn sẽ nhận được quá nhiều yêu cầu từ trình thu thập dữ liệu của Google hoặc để tránh việc thu thập dữ liệu không quan trọng hoặc các trang tương tự nhau trên trang web của bạn.

Bạn không nên sử dụng robots.txt như một phương tiện để ẩn các trang web của bạn khỏi kết quả tìm kiếm của Google. Điều này là vì Google vẫn có thể lập chỉ mục trang của bạn mà không cần truy cập trang nếu có các trang khác trỏ đến trang đó kèm theo văn bản mô tả. Nếu bạn muốn chặn trang của mình khỏi kết quả tìm kiếm, hãy sử dụng một phương pháp khác như bảo vệ bằng mật khẩu hoặc lệnh noindex.

Nếu trang web của bạn bị chặn bằng tệp robots.txt, trang vẫn có thể xuất hiện trong kết quả tìm kiếm, nhưng kết quả tìm kiếm sẽ không có nội dung mô tả và trông giống như thế này. Các tệp hình ảnh, tệp video, tệp PDF và các tệp không phải HTML khác sẽ bị loại trừ. Nếu bạn thấy kết quả tìm kiếm này cho trang của mình và muốn sửa kết quả, hãy xóa lệnh chặn trang trong robots.txt. Nếu bạn muốn ẩn hoàn toàn trang khỏi kết quả tìm kiếm, hãy sử dụng phương thức khác.

Media file

✔

Sử dụng robots.txt để quản lý lưu lượng truy cập thu thập dữ liệu và cũng để ngăn các tệp hình ảnh, video và âm thanh xuất hiện trong kết quả tìm kiếm của Google. (Lưu ý rằng tệp này sẽ không ngăn các trang hoặc người dùng khác liên kết đến tệp hình ảnh/video/âm thanh của bạn.)

Tệp tài nguyên

✔

Bạn có thể sử dụng robots.txt để chặn các tệp tài nguyên chẳng hạn như hình ảnh không quan trọng, tập lệnh hoặc các tệp định kiểu, nếu bạn nghĩ rằng các trang tải mà không có các tài nguyên này sẽ không bị ảnh hưởng đáng kể bởi lệnh chặn này. Tuy nhiên, nếu việc thiếu các tài nguyên này làm cho trình thu thập dữ liệu của Google khó hiểu được trang của bạn, bạn không nên chặn chúng, nếu không Google sẽ không thực hiện tốt trong việc phân tích những trang yêu cầu các tài nguyên này của bạn.

Tôi sử dụng dịch vụ lưu trữ trang web

Nếu sử dụng dịch vụ lưu trữ trang web, chẳng hạn như WIX, Drupal hoặc Blogger, bạn có thể không cần (hoặc có thể) chỉnh sửa tệp robots.txt của mình trực tiếp. Thay vào đó, nhà cung cấp của bạn có thể hiển thị mục cài đặt trang hoặc một cơ chế khác để cho công cụ tìm kiếm biết có nên thu thập dữ liệu trang của bạn hay không.

Để xem liệu Google đã thu thập dữ liệu trang của bạn chưa, hãy tìm kiếm URL trang trong Google.

Nếu bạn muốn ẩn (hoặc bỏ ẩn) trang của mình, hãy thêm (hoặc xóa) yêu cầu đăng nhập trang và tìm hướng dẫn về việc sửa đổi chế độ hiển thị của trang trong công cụ tìm kiếm trên máy chủ lưu trữ trang web của bạn, ví dụ: wix ẩn trang khỏi công cụ tìm kiếm

Hiểu được những hạn chế của robots.txt

Trước khi tạo hoặc chỉnh sửa robots.txt, bạn nên biết các giới hạn của phương pháp chặn URL này. Đôi khi, bạn có thể muốn xem xét các cơ chế khác để đảm bảo URL của bạn không thể tìm thấy trên web.

Hướng dẫn trong robots.txt chỉ là lệnh
Các hướng dẫn trong tệp robots.txt không thể ép buộc hành vi của trình thu thập dữ liệu trên trang web của bạn; thay vào đó, những hướng dẫn này hoạt động như lệnh đối với trình thu thập dữ liệu truy cập vào trang web của bạn. Mặc dù Googlebot và các trình thu thập dữ liệu web có uy tín khác tuân thủ hướng dẫn trong tệp robots.txt, các trình thu thập dữ liệu khác có thể không. Vì vậy, nếu bạn muốn bảo vệ thông tin an toàn khỏi trình thu thập dữ liệu web, tốt hơn bạn nên sử dụng các phương pháp chặn khác, chẳng hạn như bảo vệ các tệp riêng tư bằng mật khẩu trên máy chủ của bạn.
Trình thu thập khác nhau phân tích cú pháp khác nhau
Mặc dù trình thu thập dữ liệu web có uy tín sẽ thực hiện theo lệnh trong tệp robots.txt, mỗi trình thu thập có thể phân tích lệnh theo cách khác nhau. Bạn nên biết cú pháp thích hợp để xử lý các trình thu thập dữ liệu web khác nhau vì một số trình thu thập có thể không hiểu được hướng dẫn nhất định.
Google vẫn có thể lập chỉ mục một trang bị chặn bởi robots.txt nếu trang được liên kết từ những trang web khác
Mặc dù Google sẽ không thu thập dữ liệu hoặc lập chỉ mục nội dung bị chặn bởi robots.txt, chúng tôi vẫn có thể tìm thấy và lập chỉ mục một URL không được phép nếu URL được liên kết từ những nơi khác trên web. Kết quả là địa chỉ URL và có thể các thông tin công khai khác như văn bản liên kết trong các liên kết đến trang vẫn có thể xuất hiện trong kết quả tìm kiếm của Google. Để chặn URL của bạn xuất hiện trong kết quả của Google Tìm kiếm, bạn nên bảo vệ các tệp trên máy chủ của mình bằng mật khẩu hoặc sử dụng thẻ meta noindex hay tiêu đề phản hồi (hoặc xóa trang hoàn toàn).

Lưu ý: Kết hợp nhiều lệnh thu thập dữ liệu và lập chỉ mục chỉ có thể khiến một số lệnh chống lại các lệnh khác. Tìm hiểu cách định cấu hình chính xác các chỉ thị bằng cách đọc phần Kết hợp thu thập dữ liệu với lệnh lập chỉ mục / phân phối của tài liệu Nhà phát triển của Google.

Kiểm tra một trang để xem có lệnh chặn trong robots.txt không

Bạn có thể kiểm tra xem một trang hoặc tài nguyên có bị chặn bởi quy tắc robots.txt hay không.

Để kiểm tra lệnh noindex, hãy sử dụng công cụ Kiểm tra URL.

* Nguồn: Google Search Console