Xây dựng và gửi sơ đồ trang web
Trang này mô tả cách xây dựng sơ đồ trang web và gửi nó cho Google. Tìm hiểu thêm về sơ đồ trang web tại đây.
Xây dựng và gửi sơ đồ trang web
- Quyết định những trang nào trên trang web của bạn sẽ được Google thu thập dữ liệu và quyết định phiên bản chuẩn của mỗi trang.
- Quyết định định dạng sơ đồ trang web bạn muốn sử dụng. Bạn có thể tạo sơ đồ trang web theo cách thủ công hoặc chọn từ một số công cụ bên thứ ba để tạo sơ đồ trang web cho bạn.
- Kiểm tra sơ đồ trang web của bạn bằng cách sử dụng công cụ kiểm tra Sơ đồ trang web trong Search Console.
- Cung cấp sơ đồ trang web của bạn cho Google bằng cách thêm sơ đồ vào tệp robots.txt và hoặc gửi trực tiếp cho Search Console.
Định dạng sơ đồ trang web
Google hỗ trợ một số định dạng sơ đồ trang web được mô tả ở đây. Bạn nên gửi cho Google giao thức sơ đồ trang web chuẩn ở tất cả các định dạng. Google hiện không sử dụng thuộc tính
trong sơ đồ trang web.
Tất cả các định dạng giới hạn một sơ đồ trang web ở mức 50 MB (không nén) và 50.000 URL. Nếu bạn có tệp lớn hơn hoặc nhiều URL hơn, bạn sẽ phải tách danh sách của mình thành nhiều sơ đồ trang web. Bạn cũng có thể chọn tạo một tệp chỉ mục sơ đồ trang web (một tệp trỏ đến danh sách sơ đồ trang web) và gửi tệp đó chỉ mục đó cho Google. Bạn có thể gửi nhiều sơ đồ trang web và/hoặc tệp chỉ mục sơ đồ trang web cho Google.
XML
Dưới đây là một sơ đồ trang web XML rất cơ bản bao gồm vị trí của một URL:
http://www.example.com/foo.html 2018-06-04
Bạn có thể tìm thấy các ví dụ phức tạp hơn và tài liệu đầy đủ tại sitemaps.org.
Bạn có thể xem ví dụ về sơ đồ trang web chỉ định các trang ngôn ngữ thay thế và sơ đồ trang web cho các tệp tin tức, hình ảnh hoặc video.
RSS, mRSS và Atom 1.0
Nếu bạn có blog với nguồn cấp dữ liệu RSS hoặc Atom, bạn có thể gửi URL của nguồn cấp dữ liệu dưới dạng sơ đồ trang web. Hầu hết các phần mềm viết blog có thể tạo nguồn cấp dữ liệu cho bạn, nhưng xin lưu ý rằng nguồn cấp dữ liệu này chỉ cung cấp thông tin về các URL gần đây.
- Google chấp nhận nguồn cấp dữ liệu RSS 2.0 và Atom 1.0.
- Bạn có thể sử dụng nguồn cấp dữ liệu mRSS (RSS phương tiện) để cung cấp cho Google thông tin chi tiết về nội dung video trên trang web của bạn.
Văn bản
Nếu sơ đồ trang web của bạn chỉ bao gồm URL của trang web, bạn có thể cung cấp cho Google một tệp văn bản đơn giản có chứa một URL trên mỗi dòng. Ví dụ:
http://www.example.com/file1.html http://www.example.com/file2.html
Nguyên tắc về sơ đồ trang web tệp văn bản:
- Mã hóa tệp bằng cách sử dụng mã hóa UTF-8.
- Tệp văn bản của bạn phải không chứa gì ngoài danh sách URL.
- Bạn có thể đặt bất kỳ cái tên nào bạn muốn cho tệp văn bản, miễn là nó có phần mở rộng .txt (ví dụ: sodotrangweb.txt).
Google sites
Nếu bạn đã tạo và xác minh một trang web bằng cách sử dụng Google Sites, trang web sẽ tự động tạo sơ đồ trang web cho bạn. Bạn không thể sửa đổi sơ đồ trang web, nhưng bạn có thể gửi nó cho Google nếu bạn muốn đọc dữ liệu báo cáo sơ đồ trang web. Xin lưu ý rằng sơ đồ trang web của bạn có thể không được hiển thị đúng cách nếu bạn có nhiều hơn 1000 trang trong một thư mục con duy nhất.
- Nếu trang web của bạn được lưu trữ tại Google Sites, URL sơ đồ trang web sẽ là
http://sites.google.com/site/yoursitename/system/feeds/sitemap
- Nếu bạn đã tạo trang web bằng cách sử dụng Google Apps, URL sơ đồ trang web sẽ là
http://sites.google.com/yourdomain/yoursitename/system/feeds/sitemap
Mở rộng trang web cho các loại nội dung đa phương tiện khác
Google hỗ trợ cú pháp sơ đồ trang web mở rộng cho các loại phương tiện truyền thông sau. Sử dụng các phần mở rộng này để mô tả các tệp video, hình ảnh và các nội dung khó phân tích cú pháp khác trên trang web của bạn để cải thiện việc lập chỉ mục.
Nguyên tắc chung về sơ đồ trang web
- Sử dụng URL hoàn toàn đủ điều kiện, nhất quán. Google sẽ thu thập dữ liệu URL của bạn chính xác như được liệt kê. Ví dụ: nếu trang web của bạn nằm tại
https://www.example.com/
, không chỉ định URL làhttps://example.com/
(không cówww
) hoặc./mypage.html
(URL tương đối). - Không bao gồm ID phiên từ URL trong sơ đồ trang web của bạn để giảm việc thu thập dữ liệu trùng lặp các URL đó.
- Cho Google biết về các phiên bản ngôn ngữ thay thế của một URLbằng chú thích hreflang.
- Tệp sơ đồ trang web phải được mã hóa UTF-8, và có mã thoát URL một cách thích hợp.
- Phân tách sơ đồ trang web lớn thành một sơ đồ trang web nhỏ hơn để ngăn máy chủ của bạn không bị quá tải nếu Google yêu cầu sơ đồ trang web của bạn thường xuyên. Một tệp sơ đồ trang web không được chứa hơn 50.000 URL và không được lớn hơn 50 MB không nén. Sử dụng tệp chỉ mục sơ đồ trang web để liệt kê tất cả các sơ đồ trang web riêng lẻ và gửi tệp này tới Google thay vì gửi các sơ đồ trang web riêng lẻ.
- Sử dụng phương pháp chuẩn hóa đề xuất để cho Google biết liệu có thể truy cập vào trang web của bạn trên cả hai phiên bản www và không phải www của miền hay không. Bạn cần phải gửi sơ đồ trang web riêng cho miền ưa thích của bạn.
- Sử dụng tiện ích sơ đồ trang web để trỏ đến các loại nội dung đa phương tiện bổ sung như video, hình ảnh và tin tức.
- Nếu có các URL khác nhau cho phiên bản dành cho thiết bị di động và máy tính của một trang, bạn chỉ nên trỏ đến một phiên bản. Tuy nhiên, nếu bạn cảm thấy cần phải trỏ đến cả hai URL, hãy chú thích các URL của bạn để chỉ rõ phiên bản cho máy tính và thiết bị di động.
- Nếu có các trang thay thế cho các ngôn ngữ hoặc khu vực khác nhau, bạn có thể sử dụng hreflang trong một sơ đồ trang web hoặc thẻ html để chỉ rõ các URL thay thế.
- Ký tự không phải chữ và số và không phải latinh. Chúng tôi yêu cầu tệp sơ đồ trang web của bạn phải được mã hoá UTF-8 (thường thì bạn có thể thực hiện điều này khi lưu tệp). Cũng như với tất cả các tệp XML, bất kỳ giá trị dữ liệu nào (kể cả các URL) cũng phải sử dụng các mã thoát của thực thể cho những ký tự được liệt kê trong bảng dưới đây. Một sơ đồ trang web chỉ có thể chứa các ký tự ASCII; sơ đồ trang web không được chứa ký tự ASCII trên các mã điều khiển nhất định hoặc các ký tự đặc biệt như * và {}. Nếu URL sơ đồ trang web của bạn chứa các ký tự này, bạn sẽ thấy lỗi khi cố thêm chúng.
Ký tự Mã thoát Ký hiệu & & & Dấu ngoặc Đơn ' ' Dấu ngoặc Kép " " Lớn hơn > > Nhỏ hơn < <
Dưới đây là ví dụ về một URL sử dụng ký tự không phải ASCII (ü
) cũng như ký tự yêu cầu mã thoát của thực thể (&
):
http://www.example.com/ümlat.html&q=name
Dưới đây là URL đó, được mã hóa ISO-8859-1 (để lưu trữ trên máy chủ có sử dụng phương pháp mã hóa đó) và có mã thoát URL:
http://www.example.com/%FCmlat.html&q=name
Dưới đây là URL đó, được mã hóa UTF-8 (để lưu trữ trên máy chủ có sử dụng phương pháp mã hóa đó) và có mã thoát URL:
http://www.example.com/%C3%BCmlat.html&q=name
Dưới đây là URL đó, có mã thoát của thực thể:
http://www.example.com/%C3%BCmlat.html&q=name
Cung cấp sơ đồ trang web cho Google (Gửi sơ đồ trang web cho Google)
Có vài cách khác nhau để cung cấp sơ đồ trang web của bạn cho Google:
- Gửi cho Google bằng cách sử dụng công cụ Sơ đồ trang web trong Search Console
- Chèn dòng sau vào bất cứ vị trí nào trong tệp
robots.txt
của bạn, xác định đường dẫn đến sơ đồ trang web của bạn:
Sitemap: http://example.com/sitemap_location.xml
- Sử dụng chức năng "ping" để yêu cầu chúng tôi thu thập dữ liệu sơ đồ trang web của bạn. Gửi yêu cầu HTTP GET như sau:
http://www.google.com/ping?sitemap=<complete_url_of_sitemap>
ví dụ:
http://www.google.com/ping?sitemap=https://example.com/sitemap.xml
Khắc phục sự cố với sơ đồ trang web
Xem hướng dẫn khắc phục sự cố với sơ đồ trang web.
* Nguồn: Google Search Console