Googlebot

30/11/2019

Googlebot là bot thu thập dữ liệu web của Google (đôi khi được gọi là "trình thu thập dữ liệu"). Thu thập dữ liệu là quá trình mà Googlebot phát hiện ra những trang mới, những trang được cập nhật để thêm vào chỉ mục của Google.

Chúng tôi sử dụng một tập hợp lớn máy tính để tìm nạp (hay "thu thập dữ liệu") hàng tỷ trang trên web. Googlebot sử dụng một quá trình thuật toán: các chương trình máy tính xác định sẽ thu thập dữ liệu trang web nào, với tần suất nào và sẽ tìm nạp bao nhiêu trang từ mỗi trang web.

Cách Googlebot truy cập trang web của bạn

Với hầu hết trang web, trung bình Googlebot sẽ không truy cập trang web của bạn nhiều hơn một lần trong vài giây. Tuy nhiên, do trễ mạng, có thể tốc độ truy cập trong những khoảng thời gian ngắn sẽ cao hơn một chút.

Googlebot được thiết kế để được phân phối trên vài máy nhằm cải thiện hiệu suất và quy mô khi web phát triển. Ngoài ra, để giảm sử dụng băng thông, chúng tôi chạy nhiều trình thu thập dữ liệu trên các máy nằm gần các trang web mà chúng đang lập chỉ mục trong mạng. Vì thế nhật ký của bạn có thể hiển thị các lần truy cập từ một số máy tại google.com, tất cả đều với tác nhân người dùng Googlebot. Mục tiêu của chúng tôi là cố gắng hết sức thu thập càng nhiều trang từ trang web của bạn mỗi lần ghé thăm càng tốt mà không làm băng thông máy chủ của bạn quá tải. Yêu cầu thay đổi tốc độ thu thập dữ liệu.

Chặn Googlebot khỏi nội dung trên trang web của bạn

Hầu như không thể giữ bí mật một máy chủ web bằng cách không xuất bản liên kết đến nó. Ngay khi một người nào đó theo một liên kết từ máy chủ "bí mật" của bạn đến một máy chủ web khác, URL "bí mật" của bạn có thể xuất hiện trong thẻ liên kết giới thiệu và có thể được lưu trữ và xuất bản bởi máy chủ web khác trong nhật ký liên kết giới thiệu của máy chủ đó. Tương tự, web có nhiều liên kết đã lỗi thời và bị hỏng. Mỗi khi ai đó xuất bản một liên kết không chính xác đến trang web của bạn hoặc không cập nhật liên kết để phản ánh thay đổi trong máy chủ của bạn, Googlebot sẽ cố tải xuống liên kết không chính xác từ trang web của bạn.

Nếu muốn ngăn Googlebot thu thập dữ liệu nội dung trên trang web của bạn, bạn có một số cách để làm điều đó. Hãy lưu ý sự khác biệt giữa việc ngăn Googlebot thu thập dữ liệu một trang, ngăn Googlebot lập chỉ mục một trang và ngăn cả trình thu thập dữ liệu hoặc người dùng truy cập một trang.

Vấn đề với kẻ dùng mánh khóe để tăng thứ hạng tìm kiếm và các tác nhân người dùng khác

Địa chỉ IP được sử dụng bởi Googlebot thay đổi theo thời gian. Googlebot có giá trị nhận dạng là một chuỗi tác nhân người dùng nhưng chuỗi này có thể bị giả mạo. Cách tốt nhất để xác định các lần truy cập của Googlebot là sử dụng tra cứu DNS ngược.

Googlebot và tất cả bot công cụ tìm kiếm có uy tín sẽ tôn trọng các lệnh trong robots.txt, nhưng một số người ác ý và kẻ dùng mánh khóe để tăng thứ hạng tìm kiếm không làm như vậy. Báo cáo spam cho Google.

Google có một số tác nhân người dùng khác, bao gồm Feedfetcher (tác nhân người dùng Feedfetcher-Google). Vì các yêu cầu Feedfetcher xuất phát từ hành động rõ ràng của những người dùng đã thêm nguồn cấp vào trang chủ Google của họ chứ không phải từ trình thu thập dữ liệu tự động, Feedfetcher không tuân theo nguyên tắc trong robots.txt. Bạn có thể ngăn Feedfetcher thu thập dữ liệu trang web của bạn bằng cách định cấu hình máy chủ để gửi mã 404, 410 hoặc các thông báo trạng thái lỗi khác đến tác nhân người dùng Feedfetcher-Google. Thêm thông tin về Feedfetcher.

* Nguồn: Google Search Console