Feedfetcher

30/11/2019

Feedfetcher là cách Google lấy nguồn cấp dữ liệu RSS hoặc Atom cho Google Play Newsstand và PubSubHubbub. Feedfetcher thu thập và làm mới nguồn cấp dữ liệu do người dùng tạo này theo định kỳ, nhưng không lập chỉ mục chúng trong Tìm kiếm Blog hay các dịch vụ tìm kiếm khác của Google (nguồn cấp dữ liệu chỉ xuất hiện trong kết quả tìm kiếm của chúng tôi nếu chúng đã được thu thập dữ liệu bởi Googlebot). Tìm câu trả lời dưới đây cho một số câu hỏi thường gặp về cách hoạt động của trình lấy nguồn cấp dữ liệu do người dùng kiểm soát này.

Cách để tôi yêu cầu Google không truy xuất một số hoặc tất cả nguồn cấp dữ liệu của trang web của tôi?
Feedfetcher truy xuất nguồn cấp dữ liệu của tôi thường xuyên đến mức nào?
Tại sao Feedfetcher cố gắng tải xuống liên kết không chính xác từ máy chủ của tôi hoặc từ một máy chủ không tồn tại?
Tại sao Feedfetcher tải xuống thông tin từ máy chủ web "bí mật" của chúng tôi?
Tại sao Feedfetcher không tuân theo tệp robots.txt của tôi?
Tại sao có lần truy cập từ nhiều máy tại Google.com.vn, tất cả đều với user-agent Feedfetcher?
Google có thể cho tôi biết địa chỉ IP mà từ đó Feedfetcher thực hiện yêu cầu để tôi có thể lọc nhật ký của mình không?
Tại sao Feedfetcher tải xuống cùng một trang trên trang web của tôi nhiều lần?
Feedfetcher truy xuất những loại liên kết nào?
Câu hỏi về Feedfetcher của tôi không được trả lời ở đây. Tôi có thể nhận thêm trợ giúp ở đâu?

Câu trả lời

Cách để tôi yêu cầu Google không truy xuất một số hoặc tất cả nguồn cấp dữ liệu của trang web của tôi?

Khi người dùng thêm một dịch vụ hoặc ứng dụng có sử dụng dữ liệu Feedfetcher, Feedfetcher của Google cố lấy nội dung của nguồn cấp dữ liệu để hiển thị nó. Vì các yêu cầu Feedfetcher xuất phát từ hành động rõ ràng của người dùng, chứ không phải từ trình thu thập dữ liệu tự động, Feedfetcher không tuân theo nguyên tắc trong robots.txt.

Nếu nguồn cấp dữ liệu của bạn là công khai, Google không thể hạn chế người dùng truy cập nó. Một giải pháp là định cấu hình trang web của bạn để gửi mã 404, 410 hoặc các thông báo trạng thái lỗi khác đến user-agent Feedfetcher-Google.

Nếu nguồn cấp dữ liệu của bạn được cung cấp bởi một dịch vụ blog hoặc lưu trữ trang web, vui lòng làm việc trực tiếp với dịch vụ đó để hạn chế quyền truy cập vào nguồn cấp dữ liệu của bạn.

Feedfetcher truy xuất nguồn cấp dữ liệu của tôi thường xuyên đến mức nào?

Với hầu hết trang web, trung bình Feedfetcher sẽ không truy xuất nguồn cấp dữ liệu nhiều hơn một lần trong vài giờ. Một số trang web được cập nhật thường xuyên có thể được làm mới thường xuyên hơn. Xin lưu ý rằng, tuy nhiên, do trễ mạng, trong thời gian ngắn có thể Feedfetcher sẽ truy xuất nguồn cấp dữ liệu của bạn thường xuyên hơn.

Tại sao Feedfetcher cố gắng tải xuống liên kết không chính xác từ máy chủ của tôi hoặc từ một máy chủ không tồn tại?

Feedfetcher truy xuất nguồn cấp dữ liệu theo yêu cầu của dịch vụ hoặc ứng dụng do người dùng cài đặt. Có thể người dùng đã yêu cầu một vị trí URL nguồn cấp dữ liệu không tồn tại.

Tại sao Feedfetcher tải xuống thông tin từ máy chủ web "bí mật" của chúng tôi?

Feedfetcher truy xuất nguồn cấp dữ liệu theo yêu cầu của dịch vụ hoặc ứng dụng do người dùng cài đặt. Có thể yêu cầu xuất phát từ một người dùng biết về máy chủ "bí mật" của bạn hoặc nhập nó do nhầm lẫn.

Tại sao Feedfetcher không tuân theo tệp robots.txt của tôi?

Feedfetcher chỉ truy xuất nguồn cấp dữ liệu sau khi người dùng đã khởi chạy rõ ràng một dịch vụ hay ứng dụng yêu cầu dữ liệu từ nguồn cấp. Feedfetcher hoạt động như một tác nhân trực tiếp của người dùng, không phải như một robot, vì vậy nó bỏ qua các mục trong tệp robots.txt. Tuy vậy Feedfetcher có một lợi thế đặc biệt: vì đóng vai trò là tác nhân của nhiều người dùng, nó tiết kiệm băng thông bằng cách chỉ thực hiện yêu cầu đối với các nguồn cấp dữ liệu phổ biến một lần cho tất cả người dùng.

Để biết thêm thông tin về tệp robots.txt, vui lòng xem Chặn hoặc xóa trang bằng cách sử dụng tệp robots.txt.

Tại sao có lần truy cập từ nhiều máy tại Google.com.vn, tất cả đều với user-agent Feedfetcher?

Feedfetcher được thiết kế để được phân phối trên vài máy nhằm cải thiện hiệu suất và quy mô khi web phát triển. Để giảm sử dụng băng thông, các máy được sử dụng thường nằm gần các trang web mà chúng đang truy xuất trong mạng.

Google có thể cho tôi biết địa chỉ IP mà từ đó Feedfetcher thực hiện yêu cầu để tôi có thể lọc nhật ký của mình không?

Địa chỉ IP được sử dụng bởi Feedfetcher thay đổi theo thời gian. Cách tốt nhất để xác định lần truy cập bởi Feedfetcher là sử dụng user-agent có thể xác định của nó: Feedfetcher-Google.

Tại sao Feedfetcher tải xuống cùng một trang trên trang web của tôi nhiều lần?

Nhìn chung, Feedfetcher chỉ cần tải xuống một bản sao của mỗi tệp từ trang web của bạn trong một lần truy xuất nguồn cấp dữ liệu nhất định. Chỉ thỉnh thoảng các máy mới bị dừng và khởi động lại, điều này có thể khiến Feedfetcher truy xuất lại các trang mà nó đã truy cập gần đây.

Feedfetcher truy xuất những loại liên kết nào?

Không giống như các trình thu thập dữ liệu web bình thường, Feedfetcher hoàn toàn không theo các liên kết; thay vào đó, nó theo các yêu cầu được đưa ra bởi người dùng của một dịch vụ hay ứng dụng sử dụng Feedfetcher.

Câu hỏi về Feedfetcher của tôi không được trả lời ở đây. Tôi có thể nhận thêm trợ giúp ở đâu?

Nếu bạn vẫn gặp sự cố, hãy thử đăng câu hỏi của bạn lên diễn đàn của Search Console.

* Nguồn: Google Search Console