Hợp nhất các URL trùng lặp
Tóm tắt
Nếu bạn có một trang có thể truy cập qua nhiều URL hoặc các trang khác nhau có nội dung tương tự (ví dụ: trang có cả phiên bản dành cho thiết bị di động và máy tính), thì Google sẽ xem các trang này là phiên bản trùng lặp của cùng một trang. Google sẽ chọn một URL làm phiên bản chuẩn và thu thập dữ liệu trang đó. Google sẽ xem tất cả URL khác là URL trùng lặp và thu thập dữ liệu các trang này ít hơn.
Nếu bạn không cho Google biết rõ về URL chuẩn, Google sẽ chọn URL chuẩn thay cho bạn hoặc có thể xem các trang này có tầm quan trọng như nhau. Điều này có thể dẫn đến hành vi không mong muốn như được giải thích trong phần Tại sao tôi nên chọn URL chuẩn? bên dưới.
Chi tiết khác
Tại sao tôi có các trang tương tự/trùng lặp?
Có nhiều lý do xác đáng cho việc trang web của bạn có thể có nhiều URL khác nhau trỏ đến cùng một trang hoặc có các trang trùng lặp hoặc rất giống nhau tại các URL khác nhau. Dưới đây là các lý do phổ biến nhất:
- Để hỗ trợ nhiều loại thiết bị:
https://example.com/news/koala-rampage https://m.example.com/news/koala-rampage https://amp.example.com/news/koala-rampage
- Để bật URL động cho thông số tìm kiếm, ID phiên hoạt động, v.v.:
https://www.example.com/products?category=dresses&color=green https://example.com/dresses/cocktail?gclid=ABCD https://www.example.com/dresses/green/greendress.html
- Hệ thống blog của bạn tự động lưu nhiều URL khi bạn đặt cùng một bài đăng dưới nhiều mục.
https://blog.example.com/dresses/green-dresses-are-awesome/ https://blog.example.com/green-things/green-dresses-are-awesome/
- Nếu máy chủ của bạn được định cấu hình để phân phối cùng một nội dung cho biến thể www/không phải www hay http/https:
http://example.com/green-dresses https://example.com/green-dresses http://www.example.com/green-dresses
- Nếu nội dung bạn cung cấp trên blog đó để phân phối đến các trang web khác được sao chép một phần hoặc toàn bộ trên các miền đó:
https://news.example.com/green-dresses-for-every-day-155672.html
(bài đăng được phân phối)https://blog.example.com/dresses/green-dresses-are-awesome/3245/
(bài đăng gốc)
Tại sao tôi nên chọn URL chuẩn?
Có một số lý do tại sao bạn nên chọn trang chuẩn rõ ràng trong một tập hợp các trang trùng lặp/tương tự:
- Để chỉ định URL mà bạn muốn mọi người nhìn thấy trong kết quả tìm kiếm. Bạn muốn mọi người truy cập trang sản phẩm váy màu xanh lá của mình thông qua
https://www.example.com/dresses/green/greendress.html
chứ không phảihttps://example.com/dresses/cocktail?gclid=ABCD
. - Để hợp nhất tín hiệu liên kết cho các trang tương tự hoặc trùng lặp. Điều này giúp công cụ tìm kiếm hợp nhất thông tin có được cho từng URL riêng lẻ (chẳng hạn như liên kết đến các URL này) thành một URL duy nhất ưa thích. Điều này nghĩa là liên kết từ các trang web khác đến
http://example.com/dresses/cocktail?gclid=ABCD
được hợp nhất với liên kết đếnhttps://www.example.com/dresses/green/greendress.html
. - Để đơn giản hóa việc theo dõi chỉ số cho một sản phẩm/chủ đề. Với nhiều URL khác nhau, việc hợp nhất chỉ số cho một nội dung cụ thể trở nên khó khăn hơn.
- Để quản lý nội dung được phân phối. Nếu bạn phân phối nội dung để xuất bản trên các miền khác, bạn muốn hợp nhất xếp hạng trang cho URL ưa thích của bạn.
- Để tránh dành thời gian thu thập dữ liệu các trang trùng lặp. Bạn muốn Googlebot khai thác tối đa trang web của mình, vậy thì Googlebot nên dành thời gian thu thập dữ liệu các trang mới (hoặc cập nhật) trên trang web thay vì thu thập dữ liệu các phiên bản dành cho máy tính để bàn và thiết bị di động của cùng một trang.
Google sẽ xem URL nào là phiên bản chuẩn (hoặc trùng lặp)?
Hãy sử dụng công cụ Kiểm tra URL để tìm hiểu xem Google chọn trang nào là trang chuẩn. Xin lưu ý rằng ngay cả khi bạn chỉ định rõ trang chuẩn, Google vẫn có thể chọn một trang khác làm trang chuẩn vì nhiều lý do khác nhau như hiệu suất hoặc nội dung.
Chỉ định trang chuẩn
Có một vài cách khác nhau để chỉ định trang chuẩn trong một tập hợp các trang trùng lặp, tùy thuộc vào cách sử dụng của bạn:
Phương pháp | Mô tả |
---|---|
Nguyên tắc chung | Thực hiện theo các nguyên tắc này cho tất cả các phương pháp chuẩn hóa. |
Chỉ định miền ưa thích |
Sử dụng Search Console để chỉ định các URL trên một miền làm URL chuẩn so với các URL tương ứng trên một miền khác. Ví dụ: chỉ định example.com thay vì www.example.com. Chỉ sử dụng phương pháp này khi bạn có hai trang tương tự chỉ khác nhau ở miền phụ. Không sử dụng phương pháp này cho các trang tương ứng http/https. Ưu điểm:
Nhược điểm:
|
Thẻ rel=canonical |
Thêm thẻ vào mã cho tất cả các trang trùng lặp và trỏ đến trang chuẩn. Ưu điểm:
Nhược điểm:
|
Tiêu đề HTTP rel=canonical |
Gửi tiêu đề rel=canonical trong phản hồi trang của bạn. Ưu điểm:
Nhược điểm:
|
Sơ đồ trang web |
Chỉ định trang chuẩn của bạn trong sơ đồ trang web. Ưu điểm:
Nhược điểm:
|
Chuyển hướng 301 | Sử dụng chuyển hướng 301 để cho Googlebot biết rằng URL chuyển hướng là phiên bản tốt hơn so với một URL nhất định. Chỉ sử dụng tính năng này khi ngừng sử dụng một trang trùng lặp. |
Biến thể AMP | Nếu một trong các biến thể của bạn là một trang AMP, bạn sẽ cần thực hiện theo các nguyên tắc AMP để chỉ định trang chuẩn và biến thể AMP. |
Mặc dù chúng tôi khuyến khích bạn sử dụng bất kỳ phương pháp nào trong số này, không phương pháp nào là bắt buộc. Nếu bạn không chỉ định URL chuẩn, chúng tôi sẽ xác định URL mà chúng tôi nghĩ là phiên bản tốt nhất của URL đó.
Nguyên tắc chung
Đối với tất cả các phương pháp chuẩn hóa, hãy thực hiện theo các nguyên tắc chung sau.
Nguyên tắc chung
- Không sử dụng tệp
robots.txt
cho mục đích chỉ định trang chuẩn. - Không sử dụng công cụ xóa URL cho việc chỉ định trang chuẩn: công cụ này xóa tất cả các phiên bản của một URL khỏi kết quả tìm kiếm.
- Không chỉ định các URL khác nhau làm phiên bản chuẩn cho cùng một trang bằng cách sử dụng một hay nhiều phương pháp chỉ định trang chuẩn khác nhau (ví dụ: không chỉ định một URL trong sơ đồ trang web và một URL khác cho cùng trang đó bằng cách sử dụng
rel="canonical")
. - Không sử dụng noindex như một phương tiện để tránh việc lựa chọn trang chuẩn. Lệnh này nhằm loại trừ trang khỏi chỉ mục chứ không phải để quản lý việc lựa chọn trang chuẩn.
-
Chỉ định trang chuẩn khi sử dụng thẻ hreflang. Chỉ định trang chuẩn bằng cùng một ngôn ngữ, hoặc ngôn ngữ thay thế tốt nhất có thể nếu không tồn tại trang chuẩn cho ngôn ngữ đó.
Ưu tiên HTTPS cho liên kết chuẩn hơn HTTP
Google ưu tiên các trang HTTPS làm phiên bản chuẩn hơn trang HTTP tương đương, trừ khi có vấn đề hoặc tín hiệu xung đột chẳng hạn như sau:
- Các trang HTTPS có chứng chỉ SSL không hợp lệ.
- Các trang HTTPS chứa yếu tố phụ thuộc không an toàn (ngoài hình ảnh).
- Các trang HTTPS chuyển hướng người dùng đến hay qua một trang HTTP.
- Các trang HTTPS có liên kết
rel="canonical"
đến trang HTTP.
Mặc dù hệ thống của chúng tôi ưu tiên các trang HTTPS hơn trang HTTP theo mặc định, bạn có thể đảm bảo hành vi này bằng cách thực hiện bất kỳ hành động nào sau đây:
- Thêm chuyển hướng từ trang HTTP đến trang HTTPS.
- Thêm liên kết
rel="canonical"
từ trang HTTP đến trang HTTPS. - Triển khai HSTS.
Để ngăn Google đặt nhầm trang HTTP làm trang chuẩn, bạn nên tránh các phương pháp sau đây:
- Chứng chỉ SSL không hợp lệ và chuyển hướng từ HTTPS đến HTTP khiến chúng tôi thường ưu tiên cho trang HTTP. Việc triển khai HSTS cũng không thể ghi đè tùy chọn thường trực này.
- Bao gồm trang HTTP trong sơ đồ trang web hoặc mục nhập hreflang của bạn chứ không phải phiên bản HTTPS.
- Triển khai chứng chỉ SSL/TLS của bạn cho host-variant (biến thể máy chủ) không chính xác: chẳng hạn như example.com phân phối chứng chỉ cho www.example.com. Chứng chỉ này phải khớp với URL trang web hoàn chỉnh của bạn hoặc phải là chứng chỉ đại diện có thể dùng cho nhiều miền phụ trên một miền.
Yêu cầu Google bỏ qua các thông số động
Sử dụng Xử lý thông số để cho Google biết về bất kỳ thông số nào nên bỏ qua khi thu thập dữ liệu. Việc bỏ qua một số thông số nhất định có thể làm giảm nội dung trùng lặp trong chỉ mục của Google và khiến trang web của bạn dễ thu thập dữ liệu hơn. Ví dụ: nếu bạn chỉ định rằng thông số sessionid
nên được bỏ qua, Googlebot sẽ xem hai URL dưới đây là các trang trùng lặp:
https://www.example.com/dresses/green.php?sessionid=273749
https://www.example.com/dresses/green.php
Phương pháp cụ thể
Chọn một trong các phương pháp sau để xác định URL chuẩn cho các URL trùng lặp hay các trang trùng lặp/tương tự.
Hãy đảm bảo tuân thủ các nguyên tắc chung ở trên cho tất cả các phương pháp.
Đặt miền ưa thích
Sử dụng Search Console để cho Google biết phiên bản URL nào của trang web bạn muốn sử dụng làm URL chuẩn cho miền của mình:
https://www.example.com
https://example.com
Nếu bạn đặt miền ưa thích của mình là https://example.com
, Google sẽ xem các URL hoặc trang tương tự trên www.example.com
là phiên bản trùng lặp của các trang trên example.com
.
Ðọc Đặt miền ưa thích của bạn để biết chi tiết.
Sử dụng thẻ liên kết rel="canonical"
Bạn có thể sử dụng thẻ trong tiêu đề trang để cho biết khi một trang là phiên bản trùng lặp của trang khác.
Giả sử bạn muốn https://example.com/dresses/green-dresses
là URL chuẩn, mặc dù nhiều URL khác có thể truy cập nội dung này. Hãy chỉ định URL này là URL chuẩn bằng các bước sau:
-
Đánh dấu tất cả các trang trùng lặp bằng phần tử liên kết rel="canonical". Thêm một phần tử
có thuộc tính
rel="canonical"
vào phầncủa các trang trùng lặp và trỏ đến trang chuẩn, như ví dụ sau:
-
Nếu trang chuẩn có biến thể dành cho thiết bị di động, hãy thêm liên kết
rel="alternate"
vào trang đó và trỏ đến phiên bản dành cho thiết bị di động của trang:
-
Thêm bất kỳ hreflang hoặc chuyển hướng nào khác thích hợp cho trang.
rel="canonical"
.Sử dụng cấu trúc này:
https://www.example.com/dresses/green/greendresss.html
Không phải cấu trúc này:
/dresses/green/greendress.html
).Sử dụng tiêu đề HTTP rel="canonical"
Nếu có thể định cấu hình máy chủ của mình, bạn có thể sử dụng tiêu đề HTTP
rel="canonical" (thay vì các thẻ HTML) để chỉ ra URL chuẩn cho các tài liệu không phải HTML, chẳng hạn như tệp PDF.
Ví dụ: nếu cung cấp một tệp PDF thông qua nhiều URL, bạn có thể trả lại tiêu đề HTTP rel="canonical"
như sau cho các URL trùng lặp để cho Googlebot biết URL chuẩn cho tệp PDF là gì:
Link: ; rel="canonical"
Hiện Google chỉ hỗ trợ phương pháp này cho các kết quả tìm kiếm trên web.
rel="canonical"
. Đó là:Sử dụng cấu trúc này:
http://www.example.com/downloads/white-paper.pdf
Không phải cấu trúc này:
/downloads/white-paper.pdf
Sử dụng sơ đồ trang web
Chọn một URL chuẩn cho mỗi trang của bạn và gửi chúng trong một sơ đồ trang web. Tất cả các trang được liệt kê trong một sơ đồ trang web đều được đề xuất là trang chuẩn. Dooglebot sẽ quyết định trang nào (nếu có) là trang trùng lặp, dựa trên mức độ tương tự của nội dung.
Chúng tôi không đảm bảo rằng chúng tôi sẽ xem các URL trong sơ đồ trang web là URL chuẩn, nhưng đó là một cách đơn giản để xác định các trang chuẩn cho một trang web lớn và sơ đồ trang web là một cách hữu ích để cho Google biết về các trang mà bạn coi là quan trọng nhất trên trang web của mình.
Không bao gồm các trang không phải là trang chuẩn trong sơ đồ trang web. Nếu sử dụng sơ đồ trang web, hãy chỉ xác định các URL chuẩn trong sơ đồ trang web.
Sử dụng chuyển hướng 301 cho các URL đã ngừng sử dụng
Hãy sử dụng phương pháp này khi bạn muốn loại bỏ các trang trùng lặp hiện tại, nhưng cần đảm bảo rằng quá trình di chuyển xảy ra suôn sẻ trước khi bạn ngừng sử dụng các URL cũ.
Giả sử trang của bạn có thể truy cập bằng nhiều cách:
https://example.com/home
https://home.example.com
https://www.example.com
Chọn một trong các URL đó làm URL chuẩn và sử dụng chuyển hướng 301 để gửi lưu lượng truy cập từ các URL khác đến URL ưa thích của bạn. Chuyển hướng 301 phía máy chủ là cách tốt nhất để đảm bảo rằng người dùng và công cụ tìm kiếm được chuyển hướng đến đúng trang. Mã trạng thái 301 nghĩa là một trang đã được di chuyển vĩnh viễn tới vị trí mới.
Nếu bạn đang sử dụng một dịch vụ lưu trữ trang web, hãy tìm kiếm tài liệu hướng dẫn của họ về cách thiết lập chuyển hướng 301.
* Nguồn: Google Search Console