Câu hỏi thường gặp về robot

30/11/2019

Các câu hỏi chung về robot

Trang web của tôi có cần tệp robots.txt không?
Tôi nên sử dụng phương pháp nào?
Tôi có thể sử dụng các phương pháp này để xóa trang web của người khác không?
Làm thế nào để tôi làm chậm quá trình thu thập dữ liệu trang web của Google?

Câu hỏi về robots.txt

Tôi sử dụng cùng một tệp robots.txt cho nhiều trang web. Tôi có thể sử dụng URL đầy đủ thay cho đường dẫn tương đối không?
Tôi có thể đặt tệp robots.txt trong thư mục con được không?
Tôi muốn chặn một thư mục riêng. Tôi có thể ngăn người khác đọc tệp robots.txt của tôi không?
Tôi có phải bao gồm lệnh allow để cho phép thu thập dữ liệu không?
Điều gì xảy ra nếu tôi gặp lỗi trong tệp robots.txt hoặc sử dụng lệnh không được hỗ trợ?
Tôi nên sử dụng chương trình gì để tạo tệp robots.txt?
Nếu tôi chặn Google thu thập dữ liệu một trang bằng lệnh disallow robots.txt, trang đó có biến mất khỏi kết quả tìm kiếm không?
Sẽ mất bao lâu để các thay đổi trong tệp robots.txt của tôi ảnh hưởng đến kết quả tìm kiếm?
Làm cách nào để chỉ định URL thu thập dữ liệu AJAX trong tệp robots.txt?
Làm thế nào để tôi tạm ngừng toàn bộ hoạt động thu thập dữ liệu trang web của tôi?
Máy chủ của tôi không phân biệt chữ hoa chữ thường. Làm thế nào để tôi chặn hoàn toàn việc thu thập dữ liệu một số thư mục?
Tôi trả lại 403 "Forbidden" (Bị cấm) cho tất cả các URL bao gồm tệp robots.txt. Tại sao trang web vẫn đang được thu thập dữ liệu?

Câu hỏi về thẻ meta robot

Thẻ meta robot có phải là thay thế cho tệp robots.txt không?
Có thể sử dụng thẻ meta robot để chặn lập chỉ mục một phần của trang không?
Tôi có thể sử dụng thẻ meta robot ngoài phần không?
Thẻ meta robot có chặn thu thập dữ liệu không?
Thẻ meta robot nofollow so với thuộc tính liên kết rel="nofollow" như thế nào?

Câu hỏi về tiêu đề HTTP X-Robos-Tag

Làm cách nào để kiểm tra X-Robots-Tag cho một URL?

Chúng tôi có bỏ qua câu hỏi thường gặp nào không? Vui lòng đăng bài trong Diễn đàn trợ giúp quản trị trang web của chúng tôi để được trợ giúp thêm!

Các câu hỏi chung về robot

Trang web của tôi có cần tệp robots.txt không?

Không. Khi Googlebot truy cập một trang web, trước tiên chúng tôi yêu cầu quyền thu thập dữ liệu bằng cách cố gắng truy xuất tệp robots.txt. Một trang web không có tệp robots.txt, thẻ meta robot hoặc các tiêu đề HTTP-Robots-Tag thường sẽ được thu thập dữ liệu và lập chỉ mục bình thường.

Tôi nên sử dụng phương pháp nào?

Còn tùy. Tóm lại, có những lý do thích hợp để sử dụng từng phương pháp sau:

robots.txt: Sử dụng tệp này nếu việc thu thập dữ liệu nội dung của bạn đang gây ra sự cố trên máy chủ của bạn. Ví dụ: bạn có thể muốn chặn thu thập dữ liệu tập lệnh lịch vô hạn. Bạn không nên sử dụng tệp robots.txt để chặn nội dung riêng tư (sử dụng xác thực phía máy chủ để thay thế) hoặc xử lý quá trình chuẩn hóa (xem Trung tâm trợ giúp của chúng tôi). Nếu bạn muốn chắc chắn rằng một URL không được lập chỉ mục, hãy sử dụng thẻ meta robot hoặc tiêu đề HTTP X-Robots-Tag để thay thế.
Thẻ meta robot: Sử dụng thẻ này nếu bạn cần kiểm soát cách thức trang HTML cá nhân được hiển thị trong kết quả tìm kiếm (hoặc để đảm bảo rằng nó không được hiển thị).
Tiêu đề HTTP X-Robots-Tag: Sử dụng tiêu đề này nếu bạn cần kiểm soát cách thức nội dung không phải HTML được hiển thị trong kết quả tìm kiếm (hoặc để đảm bảo rằng nó không được hiển thị).

Tôi có thể sử dụng các phương pháp này để xóa trang web của người khác không?

Không. Các phương pháp này chỉ phù hợp với các trang web mà bạn có thể sửa đổi mã hoặc thêm tệp. Nếu muốn xóa nội dung khỏi trang web của bên thứ ba, bạn cần phải liên hệ với quản trị viên web để họ xóa nội dung.

Làm thế nào để tôi làm chậm quá trình thu thập dữ liệu trang web của Google?

Nhìn chung bạn có thể điều chỉnh cài đặt tốc độ thu thập dữ liệu trong tài khoản Google Search Console của bạn.

Câu hỏi về robots.txt

Tôi sử dụng cùng một tệp robots.txt cho nhiều trang web. Tôi có thể sử dụng URL đầy đủ thay cho đường dẫn tương đối không?

Không. Các lệnh trong tệp robots.txt (ngoại trừ "Sơ đồ trang web:") chỉ áp dụng với các đường dẫn tương đối.

Tôi có thể đặt tệp robots.txt trong thư mục con được không?

Không. Tệp phải được đặt trong thư mục cấp cao nhất của trang web.

Tôi muốn chặn một thư mục riêng. Tôi có thể ngăn người khác đọc tệp robots.txt của tôi không?

Không. Các tệp robots.txt có thể đọc được bởi nhiều người dùng khác nhau. Nếu không muốn công khai thư mục hoặc tên tệp chứa nội dung, bạn không nên liệt kê chúng trong tệp robots.txt. Bạn không nên phân phối các tệp robots.txt khác nhau dựa trên tác nhân người dùng hoặc các thuộc tính khác.

Tôi có phải bao gồm lệnh `allow` để cho phép thu thập dữ liệu không?

Không, bạn không cần bao gồm lệnh allow. Lệnh allow được sử dụng để ghi đè các lệnh disallow trong cùng một tệp robots.txt.

Điều gì xảy ra nếu tôi gặp lỗi trong tệp robots.txt hoặc sử dụng lệnh không được hỗ trợ?

Trình thu thập dữ liệu web nói chung rất linh hoạt và thường sẽ không bị ảnh hưởng bởi những sai sót nhỏ trong tệp robots.txt. Nói chung, tình huống xấu nhất có thể xảy ra là lệnh không chính xác / không được hỗ trợ sẽ bị bỏ qua. Tuy vậy lưu ý rằng mặc dù Google không thể đọc được tâm ý khi diễn giải tệp robots.txt; chúng tôi phải phân tích tệp robots.txt mà chúng tôi tìm nạp. Tuy nhiên, nếu bạn biết sự cố trong tệp robots.txt của mình thì cũng dễ dàng khắc phục chúng.

Tôi nên sử dụng chương trình gì để tạo tệp robots.txt?

Bạn có thể sử dụng bất kỳ chương trình gì tạo ra một tệp văn bản hợp lệ. Các chương trình thường được dùng để tạo tệp robots.txt là Notepad, TextEdit, vi hoặc emacs. Google Search Console chứa một công cụ có thể giúp bạn tạo tệp robots.txt cho trang web của mình. Khi tệp robots.txt đã được đặt trên trang web, bạn có thể xác minh tính hợp lệ bằng cách sử dụng tính năng Tìm nạp như Googlebot trong Công cụ quản trị trang web của Google. Search Console có thể cũng giúp bạn tạo tệp robots.txt.

Nếu tôi chặn Google thu thập dữ liệu một trang bằng lệnh `disallow` robots.txt, trang đó có biến mất khỏi kết quả tìm kiếm không?

Việc chặn Google thu thập dữ liệu một trang có khả năng làm giảm xếp hạng của trang đó hoặc khiến trang biến mất hoàn toàn theo thời gian. Điều này cũng có thể làm giảm số lượng chi tiết được cung cấp cho người dùng trong văn bản bên dưới kết quả tìm kiếm. Điều này là vì khi không có nội dung trang, công cụ tìm kiếm phải làm việc với ít thông tin hơn rất nhiều.

Tuy nhiên, lệnh Disallow trong robots.txt không đảm bảo rằng một trang sẽ không xuất hiện trong kết quả: Google vẫn có thể quyết định, dựa trên thông tin bên ngoài như liên kết đến, rằng trang có liên quan. Nếu bạn muốn chặn lập chỉ mục một trang một cách rõ ràng, hãy sử dụng thẻ meta robot noindex hoặc tiêu đề HTTP X-Robots-Tag để thay thế. Trong trường hợp này, bạn không nên chặn thu thập dữ liệu trang trong robots.txt, vì trang phải được thu thập dữ liệu để Google nhìn thấy và tuân theo thẻ.

Sẽ mất bao lâu để các thay đổi trong tệp robots.txt của tôi ảnh hưởng đến kết quả tìm kiếm?

Thứ nhất, bộ nhớ cache của tệp robots.txt phải được làm mới (chúng tôi thường lưu nội dung vào bộ nhớ cache trong tối đa một ngày). Ngay cả sau khi tìm thấy thay đổi, thu thập dữ liệu và lập chỉ mục là một quá trình phức tạp mà đôi khi có thể mất thời gian khá lâu với các URL riêng lẻ, vì vậy chúng tôi không thể đưa ra thời gian chính xác. Ngoài ra, xin lưu ý rằng ngay cả khi tệp robots.txt của bạn không cho phép truy cập vào URL, URL đó có thể vẫn hiển thị trong kết quả tìm kiếm mặc dù chúng tôi không thể thu thập dữ liệu. Nếu bạn muốn đẩy nhanh việc xóa các trang mà bạn đã chặn khỏi Google, vui lòng gửi yêu cầu xóa qua Google Search Console.

Làm cách nào để tôi chỉ định URL thu thập dữ liệu AJAX trong tệp robots.txt?

Bạn phải sử dụng URL được thu thập dữ liệu khi chỉ định URL sử dụng đề xuất thu thập dữ liệu AJAX.

Làm thế nào để tôi tạm ngừng toàn bộ hoạt động thu thập dữ liệu trang web của tôi?

Bạn có thể tạm ngừng toàn bộ hoạt động thu thập dữ liệu bằng cách trả về mã kết quả HTTP 503 cho tất cả URL, bao gồm tệp robots.txt. Tệp robots.txt sẽ được thử lại định kỳ cho đến khi có thể truy cập lại vào tệp. Chúng tôi khuyên bạn không nên thay đổi tệp robots.txt để chặn thu thập dữ liệu.

Máy chủ của tôi không phân biệt chữ hoa chữ thường. Làm thế nào để tôi chặn hoàn toàn việc thu thập dữ liệu một số thư mục?

Lệnh trong tệp robots.txt có phân biệt chữ hoa chữ thường. Trong trường hợp này, bạn nên đảm bảo rằng chỉ một phiên bản của URL được lập chỉ mục bằng phương thức chuẩn hóa. Thực hiện điều này cho phép bạn đơn giản hóa tệp robots.txt. Nếu điều này không khả thi, chúng tôi khuyên bạn nên liệt kê các tổ hợp phổ biến của tên thư mục, hoặc để rút ngắn tên thư mục nhiều nhất có thể, chỉ sử dụng vài ký tự đầu tiên thay cho tên đầy đủ. Ví dụ: thay vì liệt kê tất cả các hoán vị viết hoa và viết thường của "/MyPrivateFolder", bạn có thể liệt kê các hoán vị của "/MyP" (nếu bạn chắc chắn rằng không tồn tại URL có thể thu thập dữ liệu nào có ký tự đầu tiên như thế). Hoặc bạn có thể sử dụng thẻ meta robot hoặc tiêu đề HTTP X-Robots-Tag để thay thế nếu thu thập dữ liệu không phải là vấn đề.

Tôi trả lại 403 "Forbidden" (Bị cấm) cho tất cả các URL bao gồm tệp robots.txt. Tại sao trang web vẫn đang được thu thập dữ liệu?

Mã kết quả HTTP 403 — như tất cả mã kết quả HTTP 4xx khác — được xem như một dấu hiệu rằng tệp robots.txt không tồn tại. Do đó, trình thu thập dữ liệu thường sẽ giả định rằng có thể thu thập dữ liệu tất cả URL của trang web. Để chặn thu thập dữ liệu trang web, robots.txt phải được trả về theo cách bình thường (với mã kết quả HTTP 200 "OK") và trong đó có lệnh "disallow" thích hợp.

Câu hỏi về thẻ meta robot

Thẻ meta robot có phải là thay thế cho tệp robots.txt không?

Không. Tệp robots.txt kiểm soát trang nào được truy cập. Thẻ meta robot kiểm soát liệu một trang có được lập chỉ mục hay không, nhưng để xem thẻ này trang cần phải được thu thập dữ liệu. Nếu việc thu thập dữ liệu một trang gây ra vấn đề (ví dụ: nếu trang dẫn đến tải cao trên máy chủ), bạn nên sử dụng tệp robots.txt. Nếu chỉ là vấn đề trang có được hiển thị trong kết quả tìm kiếm hay không, bạn có thể sử dụng thẻ meta robot.

Có thể sử dụng thẻ meta robot để chặn lập chỉ mục một phần của trang không?

Không, thẻ meta robot là cài đặt cấp độ trang.

Tôi có thể sử dụng thẻ meta robot ngoài phần không?

Không, thẻ meta robot hiện phải nằm trong phần của trang.

Thẻ meta robot có chặn thu thập dữ liệu không?

Không. Ngay cả nếu thẻ meta robot hiện có lệnh noindex, chúng tôi sẽ cần phải thỉnh thoảng thu thập lại dữ liệu URL đó để kiểm tra xem thẻ meta có thay đổi hay không.

Thẻ meta robot `nofollow` so với thuộc tính liên kết `rel="nofollow"` như thế nào?

Thẻ meta robot nofollow sẽ áp dụng cho tất cả các liên kết trên một trang. Thuộc tính liên kết rel="nofollow" chỉ áp dụng cho các liên kết cụ thể trên một trang. Để biết thêm thông tin về thuộc tính liên kết rel="nofollow" , vui lòng xem bài viết trong Trung tâm trợ giúp về spam do người dùng tạo và rel = "nofollow".

Câu hỏi về tiêu đề HTTP X-Robos-Tag

Làm cách nào để kiểm tra X-Robots-Tag cho URL?

Một cách đơn giản để xem tiêu đề máy chủ là sử dụng trình kiểm tra máy chủ dựa trên web hoặc sử dụng tính năng "Tìm nạp như Googlebot" trong Google Search Console.

* Nguồn: Google Search Console