Báo cáo lỗi thu thập dữ liệu (trang web)

Đông Vy 24/09/2019, Cập nhật: 5 năm trước

Báo cáo Lỗi thu thập dữ liệu cho các trang web cung cấp chi tiết về các URL trang web mà Google không thể thu thập dữ liệu thành công hoặc các URL trả về mã lỗi HTTP.

Mở báo cáo lỗi thu thập dữ liệu

Bạn đang tìm báo cáo Trạng thái thu thập dữ liệu cho ứng dụng?

Báo cáo có hai phần chính:

  • Lỗi trang web: Phần này của báo cáo cho thấy các vấn đề chính trong 90 ngày qua mà đã chặn Googlebot truy cập vào toàn bộ trang web của bạn (nhấp vào ô bất kỳ để hiển thị biểu đồ).
     
  • Lỗi URL: Phần này liệt kê các lỗi cụ thể mà Google gặp phải khi cố gắng thu thập dữ liệu các trang cụ thể trên điện thoại hoặc máy tính để bàn. Mỗi phần chính trong báo cáo Lỗi URL tương ứng với cơ chế thu thập dữ liệu khác nhau mà Google sử dụng để truy cập các trang của bạn và các lỗi được liệt kê là lỗi riêng trên các loại trang đó.

Tổng quan lỗi trang web

Trong một trang web hoạt động tốt, phần Lỗi trang web của báo cáo Lỗi thu thập dữ liệu sẽ không hiển thị lỗi nào (điều này đúng với phần lớn các trang web chúng tôi thu thập dữ liệu). Nếu Google phát hiện thấy bất kỳ số lượng đáng kể lỗi trang web nào, chúng tôi sẽ tìm cách báo cho bạn biết dưới hình thức thông báo, bất kể quy mô trang web của bạn như thế nào.

Khi bạn xem trang Lỗi thu thập dữ liệu lần đầu tiên, phần Lỗi trang web hiển thị mã trạng thái nhanh bên cạnh mỗi loại trong số ba loại lỗi: DNS, Kết nối máy chủ và tìm nạp robots.txt. Nếu mã không có dấu kiểm màu xanh lá cây, bạn có thể nhấp vào ô để xem biểu đồ chi tiết thu thập dữ liệu trong vòng 90 ngày qua.

Tỷ lệ lỗi cao

Nếu trang web của bạn có tỷ lệ lỗi 100% đối với bất kỳ loại nào trong số ba loại, điều này có thể cho thấy rằng trang web của bạn bị trục trặc hoặc định cấu hình sai theo một cách nào đó. Điều này có thể là do một số khả năng mà bạn có thể điều tra:

  • Kiểm tra để đảm bảo việc tổ chức lại trang web đã không thay đổi quyền đối với một phần trang web của bạn.
  • Nếu trang web của bạn đã được tổ chức lại, kiểm tra xem các liên kết bên ngoài có hoạt động hay không.
  • Xem lại bất kỳ tập lệnh mới nào để đảm bảo chúng đang không gặp lỗi liên tục.
  • Đảm bảo rằng toàn bộ các thư mục đều hiện diện và chưa vô tình bị chuyển đi hoặc bị xóa.
Nếu các trường hợp này đều không áp dụng với trang web của bạn, tỷ lệ lỗi có thể chỉ là tăng nhất thời hoặc do các nguyên nhân bên ngoài (một người nào đó đã liên kết đến các trang không tồn tại), vì thế thậm chí điều này không phải vấn đề. Trong mọi trường hợp, khi chúng tôi thấy một số lượng lỗi lớn khác thường trên trang web của bạn, chúng tôi sẽ cho bạn biết để bạn có thể điều tra.

Tỷ lệ lỗi thấp

Nếu trang web của bạn có tỷ lệ lỗi nhỏ hơn 100% đối với bất kỳ loại nào, nó có thể chỉ một tình trạng nhất thời, nhưng nó cũng có thể có nghĩa là trang web của bạn bị quá tải hoặc định cấu hình không đúng cách. Bạn có thể muốn điều tra thêm các vấn đề này hoặc hỏi về chúng trên diễn đàn của chúng tôi. Chúng tôi có thể cảnh báo cho bạn ngay cả khi tỷ lệ lỗi nói chung rất thấp — theo trải nghiệm của chúng tôi, một trang web được định cấu hình thích hợp sẽ không có lỗi nào đối với ba loại này.

Loại lỗi của trang web

Các lỗi sau đây được liệt kê trong phần Trang web của báo cáo:

Lỗi DNS

Lỗi DNS là gì?

Lỗi DNS có nghĩa là Googlebot không thể giao tiếp với máy chủ DNS do máy chủ trục trặc hoặc có vấn đề với định tuyến DNS đến miền của bạn. Trong khi hầu hết các cảnh báo hoặc lỗi DNS không ảnh hưởng đến khả năng của Googlebot trong việc truy cập trang web của bạn, chúng có thể là dấu hiệu của thời gian chờ cao mà có thể tác động tiêu cực đến người dùng của bạn.

Sửa lỗi DNS

  • Đảm bảo rằng Google có thể thu thập dữ liệu trang web của bạn.
    Sử dụng Tìm nạp như Google trên một trang quan trọng, chẳng hạn như trang chủ của bạn. Nếu nó trả về nội dung trang chủ của bạn mà không có vấn đề, bạn có thể giả định rằng Google có thể truy cập trang web của bạn bình thường.
  • Đối với các lỗi DNS tái diễn, kiểm tra với nhà cung cấp DNS của bạn.
    Thông thường nhà cung cấp DNS và dịch vụ lưu trữ web của bạn là một. 
  • Định cấu hình máy chủ của bạn để phản hồi tên máy chủ không tồn tại với mã lỗi HTTP như 404 hoặc 500.
    Một trang web như example.com có thể được định cấu hình với DNS ký tự đại diện được thiết lập để phản hồi các yêu cầu về foo.example.com, made-up-name.example.com và bất kỳ tên miền phụ nào khác. Điều này thích hợp trong trường hợp một trang web có nội dung do người dùng tạo cung cấp cho mỗi tài khoản người dùng tên miền riêng của họ (http://username.example.com). Tuy nhiên, trong một số trường hợp, cách định cấu hình này có thể khiến nội dung bị trùng lặp không cần thiết trên các tên máy chủ khác nhau và nó cũng có thể ảnh hưởng đến quá trình thu thập dữ liệu của Googlebot.

Danh sách lỗi DNS

Loại lỗi Mô tả
Hết thời gian chờ DNS

Google không thể truy cập trang web của bạn bởi vì máy chủ DNS của bạn không phản hồi yêu cầu một cách kịp thời.

Hãy sử dụng Tìm nạp như Google để kiểm tra xem liệu Googlebot hiện có thể thu thập dữ liệu trang web của bạn hay không. Nếu Tìm nạp như Google trả lại nội dung của trang chủ của bạn mà không có vấn đề, bạn có thể coi Google nói chung có thể truy cập trang web của mình một cách chính xác.

Hãy kiểm tra với công ty đăng ký của bạn để đảm bảo trang web của bạn được thiết lập đúng và máy chủ của bạn được kết nối với Internet.

Tra cứu DNS

Google không thể truy cập trang web của bạn bởi vì máy chủ DNS của bạn không nhận ra tên máy chủ (như www.example.com).

Hãy sử dụng Tìm nạp như Google để kiểm tra xem liệu Googlebot hiện có thể thu thập dữ liệu trang web của bạn hay không. Nếu Tìm nạp như Google trả lại nội dung của trang chủ của bạn mà không có vấn đề, bạn có thể coi Google nói chung có thể truy cập trang web của mình một cách chính xác.

Hãy kiểm tra với công ty đăng ký của bạn để đảm bảo trang web của bạn được thiết lập đúng và máy chủ của bạn được kết nối với Internet.

Lỗi máy chủ

Lỗi máy chủ là gì?

Khi bạn nhìn thấy lỗi này cho URL, điều này nghĩa là Googlebot không thể truy cập URL của bạn, yêu cầu đã hết thời gian chờ hoặc trang web của bạn đang bận. Kết quả là Googlebot bắt buộc phải từ bỏ yêu cầu.

Sửa lỗi kết nối máy chủ

  • Giảm tải trang quá mức đối với các yêu cầu trang động.
    Một trang web cung cấp cùng một nội dung cho nhiều URL được xem là phân phối nội dung động (ví dụ như www.example.com/shoes.php?color=red&size=7 phân phối cùng một nội dung như www.example.com/shoes.php?size=7&color=red).  Các trang động cũng có thể mất nhiều thời gian để phản hồi, dẫn đến các vấn đề hết thời gian chờ. Hoặc máy chủ có thể trả về trạng thái quá tải để yêu cầu Googlebot thu thập dữ liệu trang web chậm hơn. Nói chung, chúng tôi khuyên bạn nên đặt các tham số ngắn và sử dụng chúng một cách thận trọng. Nếu bạn chắc chắn về cách các tham số hoạt động cho trang web của mình, bạn có thể cho Google biết cách chúng tôi nên xử lý những tham số này.
  • Đảm bảo rằng máy chủ lưu trữ của trang web của bạn không bị trục trặc, quá tải hay bị định cấu hình sai cách.
    Nếu vấn đề kết nối, hết thời gian chờ hoặc phản hồi vẫn tiếp diễn, kiểm tra với máy chủ lưu trữ web của bạn và cân nhắc tăng khả năng xử lý lưu lượng truy cập của trang web của bạn.
  • Kiểm tra để đảm bảo bạn không vô tình chặn Google.
    Bạn có thể đang chặn Google do một vấn đề cấp hệ thống, chẳng hạn như vấn đề cấu hình DNS, tường lửa hay hệ thống bảo vệ DoS được định cấu hình không đúng cách hoặc cấu hình hệ thống quản lý nội dung. Hệ thống bảo vệ là một phần quan trọng của lưu trữ an toàn và thường được định cấu hình để tự động chặn các mức cao bất thường của các yêu cầu máy chủ. Tuy nhiên, do Googlebot thường tạo ra nhiều yêu cầu hơn người dùng là con người, Googlebot có thể kích hoạt các hệ thống bảo vệ này, dẫn đến các hệ thống này chặn Googlebot và ngăn Googlebot thu thập dữ liệu trang web của bạn. Để khắc phục các sự cố đó, hãy xác định phần nào của cơ sở hạ tầng của trang web của bạn đang chặn Googlebot và loại bỏ việc chặn. Tường lửa có thể không thuộc quyền kiểm soát của bạn do đó bạn cần thảo luận việc này với nhà cung cấp dịch vụ lưu trữ của mình.
  • Kiểm soát thu thập dữ liệu và lập chỉ mục trang web của công cụ tìm kiếm một cách hợp lý.
    Một số quản trị viên web ngăn Googlebot truy cập trang web của họ một cách có chủ ý, có lẽ họ đang sử dụng tường lửa như được mô tả phía trên. Trong những trường hợp này, mục đích thường không phải là chặn hoàn toàn Googlebot mà là kiểm soát cách trang web được thu thập dữ liệu và lập chỉ mục. Nếu điều này áp dụng với bạn, hãy kiểm tra các điều sau:
    • Để kiểm soát việc thu thập dữ liệu của Googlebot đối với nội dung của bạn, hãy sử dụng giao thức loại trừ robot, bao gồm việc sử dụng tệp robots.txt và định cấu hình các tham số URL.
    • Nếu bạn lo ngại về các bot xấu sử dụng tác nhân người dùng Googlebot, bạn có thể xác minh xem trình thu thập dữ liệu có thực sự là Googlebot không.
    Nếu bạn muốn thay đổi tần suất Googlebot thu thập dữ liệu trang web của mình, bạn có thể yêu cầu thay đổi về tốc độ thu thập dữ liệu của Googlebot. Nhà cung cấp dịch vụ lưu trữ cũng có thể xác minh quyền sở hữu của các địa chỉ IP của họ.

Lỗi kết nối máy chủ

Loại lỗi Mô tả
Hết thời gian chờ

Máy chủ đã hết thời gian chờ yêu cầu.

Hãy sử dụng Tìm nạp như Google để kiểm tra xem liệu Googlebot hiện có thể thu thập dữ liệu trang web của bạn hay không. Nếu Tìm nạp như Google trả lại nội dung của trang chủ của bạn mà không có vấn đề, bạn có thể coi Google nói chung có thể truy cập trang web của mình một cách chính xác.

Có thể máy chủ của bạn bị quá tải hoặc định cấu hình sai. Nếu sự cố vẫn tồn tại, hãy kiểm tra với nhà cung cấp dịch vụ lưu trữ của bạn.

Tiêu đề bị cắt ngắn

Google có thể kết nối với máy chủ của bạn nhưng máy chủ đã ngắt kết nối trước khi toàn bộ tiêu đề được gửi đi. Hãy kiểm tra lại sau.

Hãy sử dụng Tìm nạp như Google để kiểm tra xem liệu Googlebot hiện có thể thu thập dữ liệu trang web của bạn hay không. Nếu Tìm nạp như Google trả lại nội dung của trang chủ của bạn mà không có vấn đề, bạn có thể coi Google nói chung có thể truy cập trang web của mình một cách chính xác.

Có thể máy chủ của bạn bị quá tải hoặc định cấu hình sai. Nếu sự cố vẫn tồn tại, hãy kiểm tra với nhà cung cấp dịch vụ lưu trữ của bạn.

Đặt lại kết nối

Máy chủ của bạn đã xử lý thành công yêu cầu của Google nhưng không trả lại bất kỳ nội dung nào bởi vì kết nối với máy chủ đã được đặt lại. Hãy kiểm tra lại sau.

Hãy sử dụng Tìm nạp như Google để kiểm tra xem liệu Googlebot hiện có thể thu thập dữ liệu trang web của bạn hay không. Nếu Tìm nạp như Google trả lại nội dung của trang chủ của bạn mà không có vấn đề, bạn có thể coi Google nói chung có thể truy cập trang web của mình một cách chính xác.

Có thể máy chủ của bạn bị quá tải hoặc định cấu hình sai. Nếu sự cố vẫn tồn tại, hãy kiểm tra với nhà cung cấp dịch vụ lưu trữ của bạn.

Phản hồi được rút ngắn

Máy chủ của bạn đã ngắt kết nối trước khi chúng tôi nhận được phản hồi đầy đủ và phần thân của phản hồi dường như đã bị cắt ngắn.

Hãy sử dụng Tìm nạp như Google để kiểm tra xem liệu Googlebot hiện có thể thu thập dữ liệu trang web của bạn hay không. Nếu Tìm nạp như Google trả lại nội dung của trang chủ của bạn mà không có vấn đề, bạn có thể coi Google nói chung có thể truy cập trang web của mình một cách chính xác.

Có thể máy chủ của bạn bị quá tải hoặc định cấu hình sai. Nếu sự cố vẫn tồn tại, hãy kiểm tra với nhà cung cấp dịch vụ lưu trữ của bạn.

Kết nối bị từ chối

Google không thể truy cập trang web của bạn bởi vì máy chủ đã từ chối kết nối. Nhà cung cấp dịch vụ lưu trữ của bạn có thể chặn Googlebot hoặc có thể có sự cố với cấu hình tường lửa của họ.

Hãy sử dụng Tìm nạp như Google để kiểm tra xem liệu Googlebot hiện có thể thu thập dữ liệu trang web của bạn hay không. Nếu Tìm nạp như Google trả lại nội dung của trang chủ của bạn mà không có vấn đề, bạn có thể coi Google nói chung có thể truy cập trang web của mình một cách chính xác.

Có thể máy chủ của bạn bị quá tải hoặc định cấu hình sai. Nếu sự cố vẫn tồn tại, hãy kiểm tra với nhà cung cấp dịch vụ lưu trữ của bạn.

Kết nối không thành công

Google không thể kết nối với máy chủ của bạn do mạng không thể kết nối được hoặc bị ngắt.

Có thể máy chủ của bạn bị quá tải hoặc định cấu hình sai. Nếu sự cố vẫn tồn tại, hãy kiểm tra với nhà cung cấp dịch vụ lưu trữ của bạn.

Hãy sử dụng Tìm nạp như Google để kiểm tra xem liệu Googlebot hiện có thể thu thập dữ liệu trang web của bạn hay không. Nếu Tìm nạp như Google trả lại nội dung của trang chủ của bạn mà không có vấn đề, bạn có thể coi Google nói chung có thể truy cập trang web của mình một cách chính xác.

Hết thời gian kết nối

Google không thể kết nối với máy chủ của bạn.

Hãy sử dụng Tìm nạp như Google để kiểm tra xem liệu Googlebot hiện có thể thu thập dữ liệu trang web của bạn hay không. Nếu Tìm nạp như Google trả về nội dung trang chủ của bạn mà không có vấn đề, bạn có thể giả định rằng nhìn chung Googlebot có thể truy cập trang web của bạn bình thường.

Kiểm tra xem máy chủ của bạn có được kết nối với Internet không. Có thể máy chủ của bạn bị quá tải hoặc định cấu hình sai. Nếu sự cố vẫn tồn tại, hãy kiểm tra với nhà cung cấp dịch vụ lưu trữ của bạn.

Không có phản hồi

Google có thể kết nối với máy chủ của bạn nhưng kết nối đã bị đóng trước khi máy chủ gửi bất kỳ dữ liệu nào.

Hãy sử dụng Tìm nạp như Google để kiểm tra xem liệu Googlebot hiện có thể thu thập dữ liệu trang web của bạn hay không. Nếu Tìm nạp như Google trả về nội dung trang chủ của bạn mà không có vấn đề, bạn có thể giả định rằng nhìn chung Googlebot có thể truy cập trang web của bạn bình thường.

Có thể máy chủ của bạn bị quá tải hoặc cấu hình sai. Nếu sự cố vẫn tồn tại, hãy kiểm tra với nhà cung cấp dịch vụ lưu trữ của bạn.

Lỗi robot

Lỗi robot là gì?

Đây là lỗi khi truy xuất tệp robots.txt trên trang web của bạn. Trước khi Googlebot thu thập dữ liệu trang web của bạn và khoảng một lần một ngày sau đó, Googlebot truy xuất tệp robots.txt của bạn để xem những trang không nên thu thập dữ liệu. Nếu tệp robots.txt của bạn tồn tại nhưng không thể truy cập (nói cách khác, nếu nó không trả lại mã trạng thái HTTP 200 hoặc 404), chúng tôi sẽ hoãn thu thập dữ liệu thay vì mạo hiểm thu thập dữ liệu các URL mà bạn không muốn được thu thập dữ liệu. Khi sự cố này xảy ra, Googlebot sẽ quay lại trang web của bạn và thu thập dữ liệu trang web đó ngay khi chúng tôi có thể truy cập thành công vào tệp robots.txt của bạn. Thông tin thêm về giao thức loại trừ robot.

Sửa lỗi tệp robots.txt

  • Bạn không phải lúc nào cũng cần tệp robots.txt.
    Bạn chỉ cần tệp robots.txt nếu trang web của bạn có nội dung mà bạn không muốn công cụ tìm kiếm lập chỉ mục. Nếu bạn muốn công cụ tìm kiếm lập chỉ mục mọi nội dung trong trang web của bạn thì bạn không cần tệp robots.txt—thậm chí không cần tệp robots.txt rỗng. Nếu bạn không có tệp robots.txt, máy chủ của bạn sẽ trả lại 404 khi Googlebot yêu cầu tệp đó và chúng tôi sẽ tiếp tục thu thập dữ liệu trang web của bạn. Không thành vấn đề.
  • Đảm bảo rằng Google có thể truy cập tệp robots.txt của bạn.
    Có thể máy chủ của bạn trả về lỗi 5xx (không truy cập được) khi chúng tôi cố truy xuất tệp robots.txt của bạn. Kiểm tra để đảm bảo nhà cung cấp dịch vụ lưu trữ của bạn đang không chặn Googlebot.  Nếu bạn có tường lửa, đảm bảo rằng cấu hình của nó đang không chặn Google.

Tổng quan về các lỗi URL

Phần lỗi URL của báo cáo được chia thành các loại hiển thị 1000 lỗi URL hàng đầu trong từng loại. Không phải tất cả các lỗi mà bạn thấy trong phần này đều cần bạn phải chú ý, nhưng điều quan trọng là bạn theo dõi phần này để biết các lỗi có thể có tác động tiêu cực đến người dùng và trình thu thập dữ liệu của Google. Chúng tôi đã làm điều này trở nên dễ dàng hơn cho bạn bằng cách xếp hạng các vấn đề quan trọng nhất ở đầu tiên, dựa trên các yếu tố như số lượng lỗi và các trang tham chiếu đến URL. Cụ thể là bạn sẽ muốn xem xét các điều sau:

  • Sửa lỗi Not Found với các URL quan trọng có chuyển hướng 301. Mặc dù việc có lỗi Not Found (404) là bình thường, bạn sẽ muốn xử lý lỗi cho các trang quan trọng được liên kết bởi các trang web khác, các URL cũ mà bạn có trong sơ đồ trang web và đã xóa, các URL bị sai chính tả cho các trang quan trọng hay URL của các trang nổi tiếng mà không còn tồn tại trên trang web của bạn. Bằng cách này, Google và khách truy cập có thể dễ dàng truy cập thông tin mà bạn quan tâm.
  • Cập nhật sơ đồ trang web của bạn.  Cắt các URL cũ khỏi sơ đồ trang web của bạn và nếu bạn thêm sơ đồ trang web mới để thay thế các sơ đồ trang web cũ, đảm bảo xóa sơ đồ trang web cũ (không chuyển hướng nó đến sơ đồ trang web mới).  
  • Giữ cho các chuyển hướng rõ ràng và ngắn gọn.  Nếu bạn có một số URL chuyển hướng theo trình tự (ví dụ như trangA > trangB > trangC > trangD), Googlebot có thể gặp khó khăn trong việc theo và phân tích trình tự.  Cố gắng giữ "bước nhảy" ở con số thấp.  Đọc thêm về Không theo.

Xem chi tiết lỗi URL

Bạn có thể xem lỗi URL theo nhiều cách khác nhau:

  • Nhấp vào Tải xuống để truy xuất danh sách 1000 lỗi hàng đầu cho loại trình thu thập dữ liệu đó (ví dụ như máy tính để bàn, điện thoại thông minh).
  • Sử dụng bộ lọc trên bảng để tìm các URL cụ thể.
  • Xem chi tiết lỗi bằng cách theo liên kết từ URL riêng lẻ hay URI ứng dụng.
Chi tiết lỗi URL trên máy tính để bàn hay điện thoại hiển thị thông tin trạng thái về lỗi, danh sách các trang tham chiếu đến URL và liên kết đến Tìm nạp như Google để bạn có thể khắc phục sự cố với URL đó.

Đánh dấu lỗi URL là đã được sửa

Khi bạn đã xử lý vấn đề gây ra lỗi với một mục cụ thể, bạn có thể ẩn nó khỏi danh sách. Bạn có thể làm điều này với từng lỗi hoặc với nhiều lỗi một lúc. Chọn hộp kiểm bên cạnh URL và nhấp vào Đánh dấu là đã được sửa. URL sẽ bị xóa khỏi danh sách. Tuy nhiên, đánh dấu này chỉ là một phương pháp thuận tiện cho bạn; nếu trình thu thập dữ liệu của Google gặp lỗi trong lần thu thập dữ liệu tới, URL sẽ xuất hiện lại trong danh sách vào lần tới URL của bạn được thu thập dữ liệu.

Loại lỗi URL

Các lỗi URL thường gặp
Loại lỗi Mô tả
Lỗi máy chủ

Khi bạn nhìn thấy lỗi này cho URL, điều này nghĩa là Googlebot không thể truy cập URL của bạn, yêu cầu đã hết thời gian chờ hoặc trang web của bạn đang bận. Kết quả là Googlebot bắt buộc phải từ bỏ yêu cầu.

Tìm hiểu thêm về lỗi kết nối máy chủ.

Soft 404

Thông thường, khi một khách truy cập yêu cầu trang không tồn tại trên trang web của bạn, máy chủ sẽ trả lại lỗi 404 (not found). Mã phản hồi HTTP này cho trình duyệt và công cụ tìm kiếm biết một cách rõ ràng rằng trang không tồn tại. Kết quả là nội dung của trang (nếu có) sẽ không được các công cụ tìm kiếm thu thập dữ liệu hoặc lập chỉ mục.

Soft 404 xảy ra khi máy chủ của bạn trả về trang thực cho một URL không tồn tại trên trang web của bạn. Điều này thường xảy ra khi máy chủ của bạn xử lý URL bị lỗi hay không tồn tại là "OK" và chuyển hướng người dùng đến một trang hợp lệ như trang chủ hay trang 404 "tùy chỉnh".  

Đây là vấn đề vì công cụ tìm kiếm có thể dành nhiều thời gian để thu thập dữ liệu và lập chỉ mục các URL không tồn tại, thường là trùng lặp trên trang web của bạn. Điều này có thể ảnh hưởng xấu đến phạm vi thu thập dữ liệu trang web của bạn vì URL thực, riêng của bạn có thể không được phát hiện nhanh hay truy cập thường xuyên do thời gian mà Googlebot dành cho các trang không tồn tại.

Nếu trang của bạn thực sự đã biến mất và không có trang thay thế, chúng tôi khuyên bạn nên định cấu hình máy chủ để luôn trả về mã phản hồi 404 (Not found) hay 410 (Gone) để phản hồi cho yêu cầu về một trang không tồn tại. Bạn có thể cải thiện trải nghiệm cho khách truy cập bằng cách thiết lập trang 404 tùy chỉnh khi trả về mã phản hồi 404. Ví dụ: bạn có thể tạo trang chứa danh sách những trang phổ biến nhất của mình hoặc một liên kết đến trang chủ của mình hoặc một liên kết phản hồi. Nhưng điều quan trọng cần phải nhớ là việc chỉ tạo một trang hiển thị thông báo 404 là không đủ. Bạn cũng cần phải trả lại mã phản hồi 404 hoặc 410 HTTP chính xác.

404

Googlebot yêu cầu một URL không tồn tại trên trang web của bạn.

Sửa lỗi 404

Hầu hết các lỗi 404 không ảnh hưởng đến xếp hạng của trang web của bạn trong Google, vì vậy bạn có thể bỏ qua chúng. Thường chúng bị gây ra bởi lỗi chính tả, định cấu hình trang web sai hoặc bởi nỗ lực gia tăng của Google trong việc phát hiện và thu thập dữ liệu các liên kết trong nội dung nhúng như JavaScript. Dưới đây là một số gợi ý để giúp bạn điều tra và sửa lỗi 404:

  1. Xác định xem có cần phải sửa lỗi không. Nhiều (hầu hết?) lỗi 404 đều không cần sửa. Đây là lý do: Sắp xếp lỗi 404 của bạn theo mức độ ưu tiên và sửa các lỗi cần phải sửa. Bạn có thể bỏ qua những lỗi khác, vì lỗi 404 không ảnh hưởng xấu đến việc lập chỉ mục hay xếp hạng trang web của bạn.
    • Nếu nó là một trang đã bị xóa không có trang thay thế hay trang tương đương, việc trả về mã 404 là phù hợp.
    • Nếu nó là URL không hợp lệ được tạo bởi tập lệnh hoặc URL chưa từng tồn tại trên trang web của bạn, có thể nó không phải là một vấn đề bạn cần lo lắng. Bạn có thể thấy phiền toái khi thấy nó trong báo cáo, nhưng bạn không cần phải sửa nó, trừ khi URL là một liên kết thường bị sai chính tả (xem bên dưới).
  2. Xem các liên kết không hợp lệ nằm ở đâu. Nhấp vào một URL để xem thông tin Được liên kết từ các trang này. Sửa lỗi của bạn sẽ phụ thuộc vào việc liên kết đến từ trang web của bạn hay từ một trang web khác:
    1. Sửa các liên kết từ trang web của bạn đến các trang bị thiếu, hay xóa chúng nếu thích hợp.
      • Nếu nội dung đã di chuyển, hãy thêm chuyển hướng.
      • Nếu bạn đã vĩnh viễn xóa nội dung mà không có ý định thay nội dung đó bằng nội dung liên quan mới hơn, hãy để URL cũ trả về mã 404 hay 410. Google hiện xử lý 410 (Không tồn tại) giống với 404 (Không tìm thấy). Việc trả lại mã khác 404 hoặc 410 cho trang không tồn tại (hoặc chuyển hướng người dùng đến trang khác, chẳng hạn như trang chủ, thay vì trả lại 404) có thể có sự cố. Những trang như vậy được xem là trang soft 404 và có thể gây nhầm lẫn cho cả người dùng và công cụ tìm kiếm.
      • Nếu URL không xác định: Đôi khi bạn có thể thấy lỗi 404 cho các URL chưa từng tồn tại trên trang web của bạn. Các URL không mong muốn này có thể được tạo bởi Googlebot khi cố theo các liên kết tìm được trong JavaScript, tệp Flash hay nội dung được nhúng khác, hoặc có thể chỉ tồn tại trong sơ đồ trang web. Ví dụ: trang web của bạn có thể sử dụng mã như thế này để theo dõi số lượt tải xuống trong Google Analytics: Hello World PDF

        Khi Googlebot thấy mã này, nó có thể cố thu thập dữ liệu URL http://www.example.com/download-helloworld, mặc dù đây không phải là một trang có thực. Trong trường hợp này, liên kết có thể xuất hiện dưới dạng lỗi 404 (Not Found) trong báo cáo Lỗi thu thập dữ liệu. Google đang nỗ lực để ngăn chặn loại lỗi thu thập dữ liệu này. Lỗi này không ảnh hưởng đến việc thu thập dữ liệu hay xếp hạng trang web của bạn.

    2. Sửa lỗi liên kết bị sai chính tả từ các trang web khác với chuyển hướng 301. Ví dụ: phiên bản sai chính tả của một URL hợp lệ (www.example.com/redshoos thay cho www.example.com/redshoes) có thể đã xảy ra khi một người nào đó liên kết đến trang web của bạn nhập sai chính tả. Trong trường hợp này, bạn có thể chụp URL bị sai chính tả đó bằng cách tạo chuyển hướng 301 đến URL chính xác. Bạn cũng có thể liên hệ với quản trị viên của trang web kèm theo liên kết không chính xác và yêu cầu họ cập nhật hay xóa liên kết.
  3. Bỏ qua các lỗi còn lại. Không tạo nội dung giả, chuyển hướng đến trang chủ của bạn hay sử dụng robots.txt để chặn các URL này—tất cả những điều này khiến chúng tôi gặp khó khăn hơn trong việc phát hiện cấu trúc trang web của bạn và xử lý nó đúng cách. Chúng tôi gọi những lỗi này là soft 404. Lưu ý rằng việc nhấp vào Vấn đề này đã được khắc phục trong báo cáo Lỗi thu thập dữ liệu chỉ tạm thời ẩn lỗi 404; lỗi sẽ xuất hiện trở lại vào lần tới Google cố thu thập dữ liệu URL đó. (Khi Google đã thu thập dữ liệu một URL thành công, nó có thể cố thu thập dữ liệu URL đó vĩnh viễn. Việc tạo chuyển hướng cấp 300 sẽ trì hoãn lần thu thập dữ liệu lại, có thể trong một khoảng thời gian rất dài.)
Truy cập bị từ chối

Nói chung, Google phát hiện nội dung bằng cách đi theo các liên kết từ trang này đến trang khác. Để thu thập dữ liệu trang, Googlebot phải có thể truy cập vào trang đó. Nếu bạn thấy lỗi Truy cập bị từ chối không mong muốn, điều này có thể là do một số lý do sau:

  • Googlebot không thể truy cập vào URL trên trang web của bạn do trang web của bạn yêu cầu người dùng đăng nhập để xem tất cả hoặc một số nội dung của bạn.
  • Máy chủ của bạn yêu cầu người dùng xác thực bằng cách sử dụng proxy hoặc nhà cung cấp dịch vụ lưu trữ có thể đang chặn Google truy cập trang web của bạn.

Để sửa lỗi:

  • Kiểm tra xem robots.txt của bạn có đang hoạt động như dự kiến và không chặn Google không. Công cụ Kiểm tra robots.txt cho phép bạn xem chính xác cách Googlebot sẽ diễn giải nội dung của tệp robots.txt của bạn. Tác nhân người dùng của Google là Googlebot. 
  • Sử dụng Tìm nạp như Google để hiểu chính xác cách trang web của bạn hiển thị với Googlebot. Điều này có thể rất hữu ích khi gỡ rối các sự cố với nội dung hoặc khả năng phát hiện của trang web của bạn trong các kết quả tìm kiếm.
Không theo được

Lỗi Không theo được liệt kê các URL mà Google không thể theo đến cùng, vùng với một số thông tin về lý do. Dưới đây là một số lý do tại sao Googlebot không thể theo được URL trên trang web của bạn:

Flash, JavaScript, nội dung hoạt động

Một số tính năng như Javascript, cookie, ID phiên, khung, DHTML hoặc Flash khiến công cụ tìm kiếm khó thu thập dữ liệu trang web của bạn. Kiểm tra những điều sau:

  • Hãy sử dụng trình duyệt văn bản như Lynx để kiểm tra trang web của bạn vì có nhiều công cụ tìm kiếm có thể xem trang web của bạn như Lynx. Nếu các tính năng như Javascript, cookie, ID phiên, khung, DHTML hoặc Flash giúp bạn xem tất cả các trang web của mình trong một trình duyệt văn bản thì trình thu thập thông tin của công cụ tìm kiếm có thể gặp sự cố khi thu thập dữ liệu trang web của bạn.
  • Sử dụng Tìm nạp như Google để xem chính xác cách trang web của bạn hiển thị với Google.
  • Nếu bạn sử dụng trang động (ví dụ: nếu URL của bạn chứa ký tự ?), bạn cần biết rằng không phải tất cả trình thu thập thông tin của công cụ tìm kiếm đều thu thập dữ liệu trang tĩnh và trang động. Nói chung, chúng tôi khuyên bạn nên đặt các tham số ngắn và sử dụng chúng một cách thận trọng. Nếu bạn chắc chắn về cách các tham số hoạt động cho trang web của mình, bạn có thể cho Google biết cách bạn nên xử lý các tham số đó.

Chuyển hướng

  • Nếu bạn đang chuyển hướng vĩnh viễn từ trang này đến trang khác, hãy đảm bảo rằng bạn trả lại mã trạng thái HTTP đúng (301 Moved Permanently).
  • Hãy sử dụng liên kết tuyệt đối thay vì liên kết tương đối ở bất cứ đâu có thể. (Ví dụ: khi liên kết đến trang khác trong trang web của bạn, liên kết đến www.example.com/mypage.html thay vì chỉ mypage.html).
  • Thử đặt mọi trang trên trang web của bạn có thể truy cập được từ ít nhất một liên kết văn bản tĩnh. Nói chung, hãy giảm thiểu số lần chuyển hướng cần thiết để đi theo liên kết từ trang này đến trang khác.
  • Chọn chuyển hướng của bạn hướng đến trang chính xác! Đôi khi chúng tôi phát hiện thấy chuyển hướng tự hướng đến chính mình (dẫn đến lỗi vòng lặp) hoặc đến URL không hợp lệ.
  • Không đưa URL được chuyển hướng vào Sơ đồ trang web của bạn.
  • Giữ URL của bạn ngắn nhất có thể. Đảm bảo rằng bạn không tự động gắn thông tin (chẳng hạn như ID phiên) vào URL chuyển hướng của bạn.
  • Đảm bảo rằng trang web của bạn cho phép các bot tìm kiếm thu thập dữ liệu trang web mà không cần ID phiên hoặc đối số theo dõi đường dẫn của chúng qua trang web.
Lỗi DNS

Khi bạn nhìn thấy lỗi này cho URL, điều này nghĩa là Googlebot không thể kết nối với máy chủ DNS hoặc máy chủ không có mục nhập nào cho trang web của bạn.

Tìm hiểu thêm về lỗi DNS.

Lỗi URL chỉ trên thiết bị di động (Điện thoại thông minh)
Lỗi Mô tả
Chuyển hướng lỗi

Lỗi Chuyển hướng lỗi xuất hiện trong phần Lỗi URL của trang Thu thập dữ liệu > Lỗi thu thập dữ liệu trong tab Điện thoại thông minh.

Một số trang web sử dụng các URL riêng để phục vụ người dùng trên máy tính để bàn và điện thoại thông minh và định cấu hình các trang trên máy tính để bàn để chuyển hướng người dùng điện thoại thông minh đến trang web trên thiết bị di động (ví dụ như m.example.com). Lỗi chuyển hướng lỗi xảy ra khi trang trên máy tính để bàn chuyển hướng người dùng điện thoại thông minh sai cách đến một trang trên điện thoại thông minh không liên quan đến truy vấn của họ. Ví dụ điển hình của trường hợp này xảy ra khi tất cả các trang trên máy tính để bàn chuyển hướng người dùng điện thoại thông minh đến trang chủ của trang web được tối ưu hóa cho điện thoại thông minh. Trong hình dưới đây, các chuyển hướng được hiển thị với mũi tên màu đỏ chỉ báo chuyển hướng bị lỗi:


Loại chuyển hướng này phá vỡ quy trình làm việc của người dùng và có thể khiến họ ngừng sử dụng trang web và xem trang web khác.

Sau đây là một số mẹo để giúp bạn tạo trải nghiệm tìm kiếm thân thiện với thiết bị di động và tránh chuyển hướng lỗi:

  • Thực hiện một số tìm kiếm trên điện thoại của riêng bạn (hoặc thiết lập trình duyệt của bạn để hành động như một điện thoại thông minh) để xem trang web của bạn hoạt động như thế nào.
  • Sử dụng các URL ví dụ được cung cấp trong báo cáo làm điểm bắt đầu để gỡ lỗi chính xác vị trí gặp vấn đề trong cấu hình máy chủ của bạn.
  • Thiết lập máy chủ của bạn để nó chuyển hướng người dùng điện thoại thông minh đến URL tương đương trên trang web dành cho điện thoại thông minh của bạn.
  • Nếu một trang trên trang web của bạn không có trang tương đương trên điện thoại thông minh, hãy giữ người dùng trên trang dành cho máy tính để bàn, thay vì chuyển hướng họ đến trang chủ của trang dành cho điện thoại thông minh. Việc không làm gì còn tốt hơn làm sai trong trường hợp này.
  • Cân nhắc sử dụng thiết kế web đáp ứng, phân phối cùng một nội dung cho người dùng trên máy tính để bàn và điện thoại thông minh.
  • Cuối cùng, đọc các đề xuất của chúng tôi về việc có các URL riêng biệt cho người dùng trên máy tính để bàn và điện thoại thông minh.
URL bị chặn trên điện thoại thông minh

Lỗi "Bị chặn" xuất hiện trên tab Điện thoại thông minh của phần Lỗi URL trong trang Thu thập dữ liệu > Lỗi thu thập dữ liệu. Nếu bạn nhận được lỗi "Bị chặn" cho một URL trên trang web của bạn, điều đó nghĩa là URL bị chặn đối với Googlebot trên điện thoại thông minh của Google trong tệp robots.txt của trang web của bạn.

Điều này không nhất thiết là lỗi riêng trên điện thoại thông minh (ví dụ: trang tương đương trên máy tính để bàn cũng có thể bị chặn). Tuy nhiên, nó thường chỉ ra rằng cần phải chỉnh sửa tệp robots.txt để cho phép thu thập dữ liệu các URL trên điện thoại thông minh. Khi các URL trên điện thoại thông minh bị chặn, Google không thể thu thập dữ liệu các trang dành cho thiết bị di động và vì thế chúng có thể không xuất hiện trong kết quả tìm kiếm.

Nếu bạn nhận được lỗi thu thập dữ liệu "Bị chặn" trên điện thoại thông minh cho các URL trên trang web của bạn, hãy kiểm tra tệp robots.txt và đảm bảo rằng bạn đang không vô tình chặn Googlebot thu thập dữ liệu các phần của trang web trên điện thoại thông minh.

Để biết thêm thông tin, xem các đề xuất của chúng tôi.

Nội dung Flash

Lỗi Nội dung Flash xuất hiện trong phần Lỗi URL của trang Thu thập dữ liệu > Lỗi thu thập dữ liệu trong tab Điện thoại thông minh.

Các thuật toán của chúng tôi liệt kê URL trong phần này là có nội dung được hiển thị phần lớn bằng FLash. Nhiều thiết bị không thể hiển thị các trang này vì Flash không được hỗ trợ trên iOS và Android phiên bản 4.1 trở lên.

Chúng tôi khuyên bạn nên cải thiện trải nghiệm trên thiết bị di động cho trang web của mình bằng cách sử dụng thiết kế web đáp ứng cho trang web, một phương pháp được Google đề xuất để xây dựng trang web thân thiện với tìm kiếm trên tất cả các thiết bị.  Bạn có thể tìm hiểu thêm về điều này trong Kiến thức cơ bản về web, một nguồn tài nguyên toàn diện về phát triển web trên nhiều thiết bị.

Cho dù bạn thực hiện theo phương pháp nào để xử lý vấn đề này, hãy đảm bảo cho phép Googlebot truy cập tất cả các phần tử trên trang web của bạn (CSS, JavaSript và hình ảnh) và không chặn chúng bằng robots.txt hay bằng các phương thức khác. Các thuật toán của chúng tôi cần những tệp bên ngoài này để phát hiện cấu hình thiết kế của trang web và xử lý thích hợp. Bạn có thể đảm bảo các thuật toán lập chỉ mục của chúng tôi có quyền truy cập vào trang web của bạn bằng cách sử dụng tính năng Tìm nạp như Google trong Search Console.

Lỗi chỉ với tin tức

 

Để xem báo cáo lỗi riêng về Google Tin tức, nhà xuất bản tin tức cần phải bao gồm trang web của họ trong Google Tin tức, đã tạo tài khoản Search Console và thêm trang web của họ vào tài khoản đó. Sau khi thực hiện xong các bước này, hãy làm theo các bước bên dưới trong Search Console:

  • Trên Trang chủ, hãy nhấp vào URL của trang web.
  • Trên Trang tổng quan, nhấp vào Thu thập thông tin > Lỗi thu thập thông tin.
  • Nhấp vào tab Tin tức để xem lỗi thu thập dữ liệu cho nội dung tin tức của bạn.
  • Lỗi thu thập dữ liệu được tổ chức thành các loại, như "Trích xuất bài viết" hay "Lỗi tiêu đề." Việc nhấp vào một trong các loại lỗi này sẽ hiển thị danh sách các URL bị ảnh hưởng và lỗi thu thập dữ liệu mà chúng đang tạo.
Lưu ý: Vui lòng lưu ý rằng chỉ mục tin tức của chúng tôi được tổng hợp bởi thuật toán máy tính. Mặc dù chúng tôi cố gắng để bao gồm nhiều nội dung của bạn nhất có thể, chúng tôi không thể đảm bảo rằng mọi bài viết đều được bao gồm. Chúng tôi đánh giá cao sự thông cảm của bạn.
Lỗi Mô tả
Bài viết ngắn và không cân xứng

Thân bài viết chúng tôi đã trích xuất từ trang HTML quá nhỏ khi so với cụm văn bản khác không có liên kết trên trang. Nội dung bài viết này áp dụng cho hầu hết các trang chứa tóm tắt tin tức hoặc nội dung đa phương tiện chứ không phải tin bài đầy đủ. Chúng tôi tạo ra lỗi này để tránh đưa vào đoạn văn bản nào không đúng.

Đề xuất

Sự cố này thường do:

  • Quá nhiều đoạn trích cho các bài viết có liên quan - để giúp trình trích xuất của chúng tôi, vui lòng xem xét việc tạo các đoạn trích có thể nhấp chuột được.
  • Các tính năng như "Gửi bài viết này đến bạn bè" với mô tả dài - cân nhắc việc thiết lập kiểu "display:none" hay "visibility:hidden" để làm cho văn bản không hiển thị hay viết động các mã HTML bằng JavaScript.
  • Nhận xét của người dùng - hãy xem xét việc đưa các nhận xét vào khung nội tuyến, tìm nạp động chúng bằng AJAX hoặc di chuyển chúng sang trang bên cạnh.
Bài viết bị chia thành đoạn

Thân bài viết chúng tôi xuất ra từ trang HTML có vẻ như chứa các câu riêng biệt không được nhóm thành đoạn. Chúng tôi tạo ra lỗi này để tránh đưa vào đoạn văn bản nào không đúng.

Đề xuất

  • Kiểm tra để đảm bảo các đoạn của bạn được định dạng sao cho mỗi đoạn dài hơn một câu.
  • Đảm bảo các câu của bạn được đặt dấu câu đúng.
  • Đảm bảo bạn không sử dụng thẻ

    thường xuyên trong các đoạn và nhìn chung nên tránh ngắt nội dung bài viết.

  • Xem xét việc xóa một số văn bản không phải bài viết khỏi trang bài viết.
Bài viết quá dài

Thân bài viết chúng tôi xuất ra từ trang HTML có vẻ như chứa quá ít từ để có thể là một tin bài. Chúng tôi tạo ra lỗi này để tránh đưa vào đoạn văn bản nào không đúng. Nguyên nhân phổ biến bao gồm các tin bài chứa nhận xét do người dùng đóng góp bên dưới bài viết hoặc bố cục HTML chứa các tài liệu khác ngoài bản thân tin bài.

Đề xuất

Xem xét việc xóa một số văn bản không phải bài viết khỏi trang bài viết. Nếu trang bài viết chứa nhận xét của người dùng, hãy xem xét một trong các tùy chọn sau:

  • đặt chúng trong một khung nội tuyến.
  • tìm nạp động chúng bằng AJAX.
  • di chuyển một số nhận xét sang trang bên cạnh.
Bài viết quá ngắn

Thân bài viết chúng tôi đã trích xuất từ trang HTML có vẻ như chứa quá ít từ để có thể là một tin bài. Nội dung bài viết này áp dụng cho hầu hết các trang chứa tóm tắt tin tức hoặc nội dung đa phương tiện chứ không phải tin bài đầy đủ. Chúng tôi tạo ra lỗi này để tránh đưa vào đoạn văn bản nào không đúng.

Đề xuất

  • Thử định dạng bài viết của bạn thành các đoạn văn bản chứa một vài câu mỗi đoạn. Nếu nội dung bài viết có vẻ chứa quá ít từ để có thể trở thành một tin bài, chúng tôi sẽ không thể bao gồm nội dung bài viết đó.
  • Hãy đảm bảo rằng các bài viết của bạn có 80 từ trở lên.
Không tìm thấy ngày

Chúng tôi không thể xác định ngày xuất bản của bài viết này.

Đề xuất

Hãy làm theo các đề xuất định dạng ngày dưới đây:

  • Đặt ngày tháng và thời gian rõ ràng cho mỗi bài viết giữa tiêu đề và nội dung bài viết trong một dòng HTML riêng biệt. Ngày tháng phải nêu rõ thời gian bài viết được xuất bản lần đầu.
  • Xóa bất kỳ ngày nào khác khỏi mã HTML của trang bài viết để trình thu thập dữ liệu không nhầm những ngày đó với thời điểm xuất bản chính xác.
  • Nếu bạn muốn sử dụng thẻ meta ngày tháng, hãy liên hệ trước với chúng tôi. Thẻ meta dữ liệu phải có định dạng: , trong đó ngày tháng có định dạng W3C, sử dụng định dạng "ngày tháng hoàn chỉnh" (YYYY-MM-DD) hoặc định dạng "ngày tháng hoàn chỉnh kèm theo giờ, phút và giây" (YYYY-MM-DDThh:mm:ssTZD) với hậu tố chỉ múi giờ.
  • Tạo sơ đồ trang web dành cho Tin tức. Thẻ sẽ đảm bảo chúng tôi có thể xác định ngày tháng chính xác cho bài viết của bạn.
Ngày quá cũ

Ngày tháng chúng tôi xác định cho bài viết này, từ thẻ trong Sơ đồ trang web hoặc từ một ngày tháng trong HTML trang, là quá cũ.

Đề xuất

  • Đảm bảo rằng bài viết của bạn không cũ hơn 2 ngày. Hiện tại, chúng tôi chỉ thu thập các bài viết không cũ hơn 2 ngày.
  • Hãy làm theo các đề xuất định dạng ngày phía trên.
Bài viết trống

Thân bài viết chúng tôi xuất ra từ trang HTML có vẻ như trống.

Đề xuất

  • Đảm bảo rằng văn bản đầy đủ của mỗi bài viết của bạn có trong mã nguồn của trang bài viết của bạn (và không được nhúng trong tệp JavaScript hoặc khung nội tuyến chẳng hạn).
  • Đảm bảo rằng bạn không sử dụng một kiểu trong mã nguồn bài viết của mình như "display:none" hoặc "visibility:hidden".
  • Đảm bảo rằng các liên kết tới bài viết của bạn dẫn thẳng đến trang bài viết chứ không phải đến trang trung gian đang sử dụng chuyển hướng JavaScript.
Xuất không thành công

Chúng tôi không thể trích xuất bài viết từ trang này. Trích xuất không thành công khi chúng tôi không thể xác định tiêu đề, nội dung và dấu thời gian hợp lệ đối với bài viết này. Chúng tôi liệt kê các URL với lỗi này để cung cấp cho bạn các thông tin về lý do một số bài viết có thể không xuất hiện trong Google Tin tức.

Đề xuất

  • Đảm bảo rằng tiêu đề, nội dung và dấu thời gian có thể dễ dàng thu thập dữ liệu (ví dụ: sẵn có dưới dạng văn bản và không phải hình ảnh), nhưng tại thời điểm này, lỗi này chủ yếu là về mục đích cung cấp thông tin. Chúng tôi đang tích cực hoạt động để cải tiến phương pháp trích xuất để bạn sẽ ít gặp lỗi này hơn.
  • Gửi Sơ đồ trang web dành cho Tin tức.
Không tìm thấy câu nào

Thân bài viết mà chúng tôi xuất từ trang HTML có vẻ như không chứa chuỗi các từ liền kề có chấm câu. Chúng tôi tạo ra lỗi này để tránh đưa vào mục văn bản nào không đúng.

Đề xuất

  • Nếu nội dung bài viết không có dấu chấm câu ngắt quãng các từ liền kề nhau, chúng tôi sẽ không thể đưa nội dung bài viết đó vào Google Tin tức. Đảm bảo rằng nội dung bài viết của bạn được tạo thành từ các câu và bạn không thường xuyên sử dụng thẻ
    hay

    trong các đoạn.

  • Đảm bảo rằng văn bản đầy đủ của mỗi bài viết của bạn có trong mã nguồn của trang bài viết của bạn (và không được nhúng trong tệp JavaScript chẳng hạn).
  • Đảm bảo rằng các liên kết tới bài viết của bạn dẫn thẳng đến trang bài viết chứ không phải đến trang trung gian đang sử dụng chuyển hướng JavaScript.
Chuyển hướng ra ngoài trang web

Mục hoặc trang bài viết chuyển hướng tới URL trên miền khác.

Đề xuất

  • Tất cả các trang mục và bài viết phải được đặt trong miền của trang web được đưa vào trong Google Tin tức.
  • Nếu bạn không sử dụng chuyển hướng ra khỏi trang web, hãy đảm bảo rằng trang web của bạn không bị bên thứ ba sửa đổi. Đọc thêm về các trang web bị tấn công.
Trang quá lớn

Độ dài của mục hoặc trang bài viết vượt quá độ dài tối đa cho phép.

Đề xuất

  • Trang nguồn HTML có thể có kích thước tối đa 256KB.
Tiêu đề không được phép

Tiêu đề mà chúng tôi xuất ra từ trang HTML cho rằng đó không phải là một bài viết tin tức.

Đề xuất

  • Thường thì bạn có thể khắc phục vấn đề này bằng cách thiết lập thẻ

    . Đọc thêm về các tiêu đề.

Không tìm thấy tiêu đề

Chúng tôi không thể xuất tiêu đề của bài viết từ trang HTML.

Đề xuất

  • Làm theo các đề xuất định dạng tiêu đề của chúng tôi.
  • Để đảm bảo tiêu đề bài viết của bạn hiển thị đúng trên các thiết bị di động, đừng thêm con số (số này đôi khi tương ứng với khóa truy cập) vào đầu chuỗi ký tự liên kết của tiêu đề.
Hủy nén không thành công

Googlebot-News phát hiện trang đó đã bị nén nhưng không thể giải nén trang đó. Việc này có thể do điều kiện mạng không tốt, việc lập trình hoặc lỗi cấu hình máy chủ web không tốt.

Đề xuất

  • Kiểm tra mạng/máy chủ web của bạn.
Loại nội dung không được hỗ trợ

Trang này có loại nội dung HTTP không được Google News hỗ trợ.

Đề xuất

  • Bài viết phải có loại nội dung dạng văn bản/html, văn bản/thường hoặc ứng dụng/xhtml+xml.

trên trang HTML thành tiêu đề của bài viết, và lặp lại tiêu đề tại một vị trí nổi bật trên trang HTML, chẳng hạn như trong thẻ

 

Content retrieved from:
https://support.google.com/webmasters/answer/35120?hl=vi.

 

Đông Vy 24/09/2019, Cập nhật: 5 năm trước
Ý KIẾN THÀNH VIÊN
    Chưa có bình luận