Báo cáo Thống kê thu thập dữ liệu (trang web)

30/11/2019

Báo cáo Thống kê thu thập dữ liệu (chỉ dành cho trang web) cung cấp thông tin về hoạt động của Googlebot trên trang web của bạn trong 90 ngày qua. Những số liệu thống kê này xem xét tất cả các loại nội dung mà chúng tôi tải xuống (chẳng hạn như các tệp CSS, JavaScript, Flash và PDF và hình ảnh).

Mở báo cáo Thống kê thu thập dữ liệu

Thống kê thu thập dữ liệu chỉ có sẵn cho các trang web đã được xác minh.

Hiểu dữ liệu

Không có con số "tốt" cho thu thập dữ liệu, nhưng bạn sẽ thấy một biểu đồ khá cân bằng mà sẽ tăng theo thời gian khi tăng quy mô trang web. Nếu bạn nhìn thấy sự sụt giảm hay tăng đột ngột, hãy tiếp tục đọc.

Tại sao tốc độ thu thập dữ liệu của tôi giảm?

Nhìn chung, tốc độ thu thập dữ liệu của Google của bạn sẽ tương đối ổn định trong khoảng thời gian một hay hai tuần; nếu bạn thấy sự sụt giảm đột ngột, sau đây là một số nguyên nhân có thể:

  • Bạn đã thêm một quy tắc robots.txt mới (hoặc rất rộng). Hãy đảm bảo rằng bạn chỉ đang chặn tài nguyên mà bạn cần chặn. Nếu Google cần tài nguyên cụ thể như CSS hay JavaScript để hiểu nội dung, hãy đảm bảo bạn không chặn chúng khỏi Googlebot.
  • HTML bị hỏng hay nội dung không được hỗ trợ trên trang của bạn: Nếu Googlebot không thể phân tích cú pháp của trang, có thể là vì nó sử dụng loại phương tiện không được hỗ trợ hoặc trang chỉ chứa hình ảnh, Googlebot sẽ không thể thu thập dữ liệu trang. Sử dụng Tìm nạp như Google để xem cách Googlebot nhìn thấy trang của bạn.
  • Nếu trang web của bạn phản hồi chậm với các yêu cầu, Googlebot sẽ giảm yêu cầu để tránh làm quá tải máy chủ của bạn. Kiểm tra báo cáo Thống kê thu thập dữ liệu để xem có phải trang web của bạn đang phản hồi chậm hơn không.
  • Nếu tỷ lệ lỗi máy chủ của bạn tăng lên, Googlebot sẽ giảm yêu cầu để tránh làm quá tải máy chủ của bạn. Kiểm tra báo cáo Lỗi thu thập dữ liệu để biết mức tăng lỗi kết nối máy chủ.
  • Đảm bảo rằng bạn không giảm tốc độ thu thập dữ liệu tối đa tùy chọn của bạn.
  • Nếu một trang web có thông tin thay đổi ít thường xuyên hơn hoặc không có chất lượng cao, chúng tôi có thể không thu thập dữ liệu trang web thường xuyên.  Hãy xem xét trang web của bạn một cách trung thực, nhận phản hồi khách quan từ những người không liên quan đến trang web và nghĩ về cách hoặc vị trí mà bạn có thể cải thiện tổng thể trang web của mình.

Tại sao tốc độ thu thập dữ liệu của tôi tăng vọt?

Nếu bạn đăng tải nhiều thông tin mới hoặc có một số thông tin thực sự hữu ích trên trang web của mình, bạn có thể được thu thập dữ liệu thường xuyên hơn một chút so với mong muốn của bạn. Dưới đây là một số mẹo để quản lý tốc độ thu thập dữ liệu của Googlebot đối với trang web của bạn, nếu bạn cảm thấy rằng máy chủ của bạn đang bị quá tải:

  • Xác nhận rằng Googlebot đang truy cập trang web của bạn chứ không phải một bên yêu cầu khác bằng cách xem báo cáo Thống kê thu thập dữ liệu và đồng thời kiểm tra tác nhân người dùng trong nhật ký của bạn.
  • Nếu bạn cần phải chặn ngay hoạt động thu thập dữ liệu của Googlebot, hãy trả về mã kết quả HTTP 503 với các yêu cầu của Googlebot.
  • Tinh chỉnh tệp robots.txt của bạn để chặn các trang không nên được gọi.
  • Bạn có thể thiết lập tốc độ thu thập dữ liệu tối đa tùy chọn của bạn trong Search Console làm giải pháp ngắn hạn. Chúng tôi không khuyến nghị sử dụng giải pháp này về lâu dài vì nó không để bạn cho chúng tôi biết bạn muốn chúng tôi thu thập dữ liệu các trang hay tài nguyên nào và không thu thập dữ liệu các trang hay tài nguyên nào.
  • Hãy đảm bảo bạn không cho phép thu thập dữ liệu các trang có kết quả "vô hạn", như lịch vô hạn hay trang tìm kiếm vô hạn. Chặn chúng bằng robots.txt hoặc thẻ nofollow.
  • Nếu URL không còn tồn tại hoặc đã di chuyển, hãy đảm bảo trả về mã phản hồi thích hợp: sử dụng 404 hoặc 410 đối với các URL không còn tồn tại hoặc không hợp lệ; sử dụng chuyển hướng 301 cho các URL đã bị thay thế vĩnh viễn bởi URL khác (302 nếu thay thế không phải vĩnh viễn); sử dụng 503 cho thời gian ngừng hoạt động tạm thời đã lên lịch; đảm bảo rằng máy chủ của bạn trả về lỗi 500 khi phát hiện thấy vấn đề mà nó không thể giải quyết.

 

* Nguồn: Google Search Console