Nội dung trùng lặp
Nội dung trùng lặp thường đề cập đến các khối nội dung thực trong hoặc trên toàn miền, hoàn toàn khớp với nội dung khác hoặc rất giống với nội dung khác. Hầu như, về nguyên gốc, đây không phải nội dung giả mạo. Ví dụ về nội dung trùng lặp không gây hại có thể bao gồm:
- Các diễn đàn thảo luận có thể tạo cả trang thông thường và trang cơ sở nhằm hướng đến các thiết bị di động
- Các mục lưu trữ được hiển thị hoặc được liên kết thông qua nhiều URL riêng biệt
- Các phiên bản trang web chỉ dành cho máy in
Nếu trang web của bạn chứa nhiều trang có nội dung giống hệt nhau, có nhiều cách để bạn có thể chỉ cho Google URL ưa thích của bạn. (Việc này được gọi là "chuẩn hoá".) Thêm thông tin về chuẩn hóa.
Tuy nhiên, trong một số trường hợp, nội dung bị trùng lặp trên toàn miền có chủ tâm nhằm thao túng khả năng xếp hạng của công cụ tìm kiếm hoặc để đạt được nhiều lưu lượng truy cập hơn. Những hành động giả mạo như vậy có thể dẫn đến việc không thoả mãn người dùng khi một khách truy cập xem được nội dung, về cơ bản, là giống nhau được lặp lại trong một loạt kết quả tìm kiếm.
Google đang nỗ lực để lập chỉ mục và hiển thị các trang với thông tin riêng biệt. Quá trình lọc này nghĩa là, chẳng hạn, nếu trang web của bạn có phiên bản "thông thường" và "in" cho mỗi bài viết và không phiên bản nào trong số này bị chặn bởi thẻ meta noindex, chúng tôi sẽ chọn một phiên bản để liệt kê. Trong một số ít trường hợp mà Google nhận thấy rằng nội dung trùng lặp có thể được hiển thị với mục đích thao túng khả năng xếp hạng của chúng tôi và lừa gạt người dùng, chúng tôi cũng sẽ thực hiện những điều chỉnh phù hợp trong quá trình lập chỉ mục và xếp hạng các trang web có liên quan. Kết quả là, xếp hạng của trang web có thể bị ảnh hưởng hoặc trang web hoàn toàn có thể bị xoá khỏi chỉ mục của Google. Trong trường hợp đó, trang web sẽ không còn xuất hiện trong kết quả tìm kiếm.
Bạn có thể giải quyết trước vấn đề về nội dung trùng lặp theo một số bước và đảm bảo rằng khách truy cập sẽ xem được nội dung mà bạn muốn họ xem.
- Sử dụng 301s: Nếu bạn đã cấu trúc lại trang web của mình, hãy sử dụng chuyển hướng 301 ("RedirectPermanent") trong tệp .htaccess của bạn để chuyển hướng nhanh người dùng, Googlebot và các trình thu thập dữ liệu khác. (Trong Apache, bạn có thể thực hiện điều này bằng một tệp .htaccess; trong IIS, bạn có thể thực hiện điều này thông qua bảng điều khiển quản trị.)
- Đồng nhất: Cố giữ liên kết nội bộ đồng nhất. Ví dụ: không liên kết tới
http://www.example.com/page/
vàhttp://www.example.com/page
vàhttp://www.example.com/page/index.htm
. - Sử dụng các tên miền cấp cao: Để giúp chúng tôi cung cấp phiên bản tài liệu phù hợp nhất, hãy sử dụng các tên miền cấp cao bất cứ khi nào có thể để quản lý nội dung theo từng quốc gia. Ví dụ: có nhiều khả năng chúng tôi biết rằng
http://www.example.de
chứa nội dung tập trung vào nước Đức hơn làhttp://www.example.com/de
hoặchttp://de.example.com
. - Thận trọng khi cung cấp nội dung: Nếu bạn cung cấp nội dung của mình cho nhiều trang web khác, Google sẽ luôn hiển thị phiên bản mà chúng tôi cho là phù hợp nhất đối với người sử dụng trong mỗi tìm kiếm định sẵn. Phiên bản này có thể là hoặc có thể không phải là phiên bản mà bạn ưa thích. Tuy nhiên, sẽ rất hữu ích khi đảm bảo rằng mỗi trang web được bạn cung cấp nội dung đều có chứa một liên kết quay trở lại bài viết gốc của bạn. Bạn cũng có thể yêu cầu những người sử dụng tài liệu do bạn cung cấp sử dụng thẻ meta noindex để ngăn công cụ tìm kiếm lập chỉ mục phiên bản nội dung của họ.
- Sử dụng Search Console để cho chúng tôi biết cách bạn muốn trang web của bạn được lập chỉ mục: Bạn có thể cho Google biết miền ưa thích của bạn (ví dụ:
http://www.example.com
hayhttp://example.com
). - Giảm thiểu sự lặp lại mẫu trích: Ví dụ: thay vì đặt văn bản dài dòng về nội dung bản quyền ở cuối mỗi trang, hãy chèn một bản tổng hợp vắn tắt và sau đó liên kết tới một trang chi tiết hơn. Ngoài ra, bạn có thể sử dụng công cụ Xử lý thông số để xác định cách bạn muốn Google xử lý thông số URL.
- Tránh xuất bản nội dung trang giữ chỗ: Người dùng không muốn nhìn thấy các trang "trống", do đó, hãy tránh trang giữ chỗ nếu có thể. Ví dụ: không được xuất bản các trang mà bạn chưa có nội dung thực. Nếu bạn đã tạo các trang giữ chỗ, hãy sử dụng thẻ meta noindex để chặn lập chỉ mục các trang này.
- Hiểu được hệ thống quản lý nội dung của bạn: Đảm bảo rằng bạn biết rõ cách thức hiển thị nội dung trên trang web của bạn. Blog, diễn đàn và các hệ thống liên quan thường hiển thị cùng nội dung theo nhiều định dạng. Ví dụ: một mục nhập blog có thể xuất hiện trên trang chủ của một blog, trong một trang lưu trữ và trong một trang có những mục nhập khác với cùng nhãn.
- Giảm thiểu nội dung tương tự nhau: Nếu bạn có nhiều trang tương tự nhau, hãy cân nhắc việc mở rộng mỗi trang hoặc hợp nhất các trang thành một. Ví dụ: nếu bạn có một trang web du lịch với các trang riêng biệt cho hai thành phố nhưng trên hai trang lại có cùng thông tin, bạn có thể nhập hai trang này thành một trang giới thiệu về cả hai thành phố hoặc bạn có thể mở rộng mỗi trang để nó có chứa nội dung duy nhất về mỗi thành phố.
Google không khuyến nghị việc chặn truy cập của trình thu thập dữ liệu vào nội dung trùng lặp trên trang web của bạn, bằng tệp robots.txt hay bằng các phương pháp khác. Nếu công cụ tìm kiếm không thể thu thập dữ liệu các trang có nội dung trùng lặp, chúng không thể tự động phát hiện được rằng các URL này trỏ đến cùng một nội dung và vì thế sẽ phải xem chúng là các trang riêng biệt. Một giải pháp hay hơn là cho phép các công cụ tìm kiếm thu thập dữ liệu các URL này, nhưng đánh dấu chúng là bản sao bằng cách sử dụng phần tử liên kết rel="canonical"
, công cụ xử lý thông số URL hoặc chuyển hướng 301. Trong trường hợp nội dung trùng lặp dẫn đến việc chúng tôi thu thập quá nhiều dữ liệu từ trang web của bạn, bạn cũng có thể điều chỉnh cài đặt tốc độ thu thập dữ liệu trong Search Console.
Nội dung trùng lặp trên một trang web không phải là lý do để can thiệp vào trang web đó trừ khi mục đích rõ ràng của nội dung trùng lặp là để giả mạo và thao túng kết quả của công cụ tìm kiếm. Nếu trang web của bạn gặp phải vấn đề về nội dung trùng lặp và bạn không thực hiện theo tư vấn ở trên, chúng tôi sẽ chọn một phiên bản nội dung để hiển thị trong kết quả tìm kiếm của chúng tôi.
Tuy nhiên, nếu bài đánh giá của chúng tôi cho thấy rằng bạn đã tạo những ứng dụng giả mạo và trang web của bạn đã bị xoá khỏi kết quả tìm kiếm của chúng tôi, hãy xem lại trang web của bạn cẩn thận. Nếu trang web của bạn đã bị xóa khỏi kết quả tìm kiếm của chúng tôi, hãy xem Nguyên tắc quản trị trang web của chúng tôi để biết thêm thông tin. Khi bạn đã thực hiện thay đổi và tự tin rằng trang web của bạn không còn vi phạm nguyên tắc của chúng tôi, hãy gửi trang web của bạn để được xem xét lại.
Trong các trường hợp hiếm, thuật toán của chúng tôi có thể chọn một URL từ trang web bên ngoài đang lưu trữ nội dung của bạn mà không được bạn cho phép. Nếu bạn tin rằng một trang web khác đang sao chép nội dung của bạn theo cách vi phạm luật bản quyền, bạn có thể liên hệ với máy chủ lưu trữ trang web để yêu cầu xóa nội dung. Ngoài ra, bạn có thể yêu cầu Google xóa trang vi phạm khỏi kết quả tìm kiếm của chúng tôi bằng cách gửi yêu cầu theo Đạo luật bản quyền kỹ thuật số thiên niên kỷ.
* Nguồn: Google Search Console