Trình thu thập dữ liệu của Google (tác nhân người dùng)
"Trình thu thập dữ liệu" là một thuật ngữ chung cho bất kỳ chương trình nào (chẳng hạn như robot) được sử dụng để tự động phát hiện và quét các trang web bằng cách theo liên kết từ một trang web đến một trang web khác. Trình thu thập dữ liệu chính của Google được gọi là Googlebot. Bảng này liệt kê thông tin về các trình thu thập dữ liệu thông thường của Google mà bạn có thể thấy trong nhật ký liên kết giới thiệu và cách để chỉ định chúng trong robots.txt, thẻ meta robot và lệnh HTTP X-Robots-Tag.
Trong bảng sau, mã thông báo tác nhân người dùng được sử dụng trên dòng User-agent:
trong robots.txt để khớp với trình thu thập dữ liệu cụ thể đó. Một số trình thu thập dữ liệu phản hồi với nhiều mã thông báo, như được hiển thị trong bảng. Bạn chỉ cần sử dụng một mã thông báo phù hợp cho một trình thu thập dữ liệu. Danh sách này không đầy đủ, nhưng bao gồm hầu hết các trình thu thập dữ liệu bạn có thể thấy trên trang web của mình.
Trình thu thập dữ liệu | Mã thông báo tác nhân người dùng (được sử dụng trong robots.txt) | Chuỗi tác nhân người dùng đầy đủ (như được nhìn thấy trong tệp nhật ký của trang web) |
---|---|---|
APIs-Google |
|
APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html) |
AdSense |
|
Mediapartners-Google |
(Kiểm tra chất lượng quảng cáo trong trang web trên Android) |
|
Mozilla/5.0 (Linux; Android 5.0; SM-G920A) AppleWebKit (KHTML, like Gecko) Chrome Mobile Safari (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html) |
(Kiểm tra chất lượng quảng cáo trong trang web trên iPhone) |
|
Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html) |
(Kiểm tra chất lượng quảng cáo trong trang web trên máy tính để bàn) |
|
AdsBot-Google (+http://www.google.com/adsbot.html ) |
Googlebot Hình ảnh |
|
Googlebot-Image/1.0 |
Googlebot Tin tức |
|
Googlebot-News |
Googlebot Video |
|
Googlebot-Video/1.0 |
(Máy tính để bàn) |
|
|
(Điện thoại thông minh) |
|
|
AdSense cho thiết bị di động |
|
(Nhiều loại thiết bị di động khác nhau) (tương thích; Mediapartners-Google/2.1 ; +http://www.google.com/bot.html ) |
Ứng dụng cho thiết bị di động Android (Kiểm tra chất lượng quảng cáo trong trang trên ứng dụng Android. Tuân theo quy tắc của robot AdsBot-Google.) |
|
AdsBot-Google-Mobile-Apps |
Tác nhân người dùng trong robots.txt
Trong trường hợp tác nhân người dùng được công nhận trong tệp robots.txt, Google sẽ thực hiện theo tác nhân cụ thể nhất. Nếu bạn muốn toàn bộ Google đều có thể thu thập dữ liệu các trang của bạn, bạn không hề cần đến tệp robots.txt. Nếu bạn muốn chặn hoặc cho phép tất cả các trình thu thập dữ liệu của Google truy cập một số nội dung của bạn, bạn có thể làm điều này bằng cách chỉ định Googlebot làm tác nhân người dùng. Ví dụ: nếu bạn muốn tất cả các trang của bạn xuất hiện trong tìm kiếm trên Google và nếu bạn muốn quảng cáo AdSense xuất hiện trên trang của mình thì bạn không cần đến tệp robots.txt. Tương tự như vậy, nếu bạn muốn chặn hoàn toàn một số trang từ Google, việc chặn tác nhân người dùng Googlebot cũng sẽ chặn tất cả các tác nhân người dùng khác của Google.
Nhưng nếu bạn muốn kiểm soát chi tiết hơn, bạn có thể cụ thể hơn. Ví dụ: bạn có thể muốn tất cả các trang của bạn xuất hiện trong Google Tìm kiếm, nhưng bạn không muốn thu thập dữ liệu các hình ảnh trong thư mục cá nhân của bạn. Trong trường hợp này, hãy sử dụng robots.txt để không cho phép tác nhân người dùng Googlebot-image thu thập dữ liệu các tệp trong/thư mục cá nhân của bạn (trong khi cho phép Googlebot thu thập dữ liệu tất cả các tệp), như sau:
User-agent: Googlebot Disallow: User-agent: Googlebot-Image Disallow: /personalTrong một ví dụ khác, giả sử bạn muốn quảng cáo trên tất cả các trang của bạn, nhưng bạn không muốn các trang đó xuất hiện trong Google Tìm kiếm. Trong trường hợp này, bạn sẽ chặn Googlebot, nhưng cho phép Mediapartners-Google, như thế này:
User-agent: Googlebot Disallow: / User-agent: Mediapartners-Google Disallow:
Tác nhân người dùng trong thẻ meta robot
Một số trang sử dụng nhiều thẻ meta
robot để xác định lệnh cho các trình thu thập dữ liệu khác nhau, như thế này:
Trong trường hợp này, Google sẽ sử dụng tổng các lệnh cấm và Googlebot sẽ theo cả hai lệnh noindex
và nofollow
. Thêm thông tin chi tiết về việc kiểm soát cách Google thu thập dữ liệu và lập chỉ mục trang web của bạn.
* Nguồn: Google Search Console