Báo cáo lỗi thu thập dữ liệu (trang web)

30/11/2019
Search Console mới có trải nghiệm nâng cấp cho báo cáo này. Hãy dùng thử báo cáo Trạng thái lập chỉ mục trong Search Console mới.

Báo cáo Lỗi thu thập dữ liệu cho các trang web cung cấp chi tiết về các URL trang web mà Google không thể thu thập dữ liệu thành công hoặc các URL trả về mã lỗi HTTP.

Mở báo cáo lỗi thu thập dữ liệu

 

Bạn đang tìm báo cáo Trạng thái thu thập dữ liệu cho ứng dụng?

 

Báo cáo có hai phần chính:

  • Lỗi trang web: Phần này của báo cáo cho thấy các vấn đề chính trong 90 ngày qua mà đã chặn Googlebot truy cập vào toàn bộ trang web của bạn. (Nhấp vào ô bất kỳ để hiển thị biểu đồ.)
     
  • Lỗi URL: Phần này liệt kê các lỗi cụ thể mà Google gặp phải khi cố gắng thu thập dữ liệu các trang cụ thể trên điện thoại hoặc máy tính để bàn. Mỗi phần chính trong báo cáo Lỗi URL tương ứng với cơ chế thu thập dữ liệu khác nhau mà Google sử dụng để truy cập các trang của bạn và các lỗi được liệt kê là lỗi riêng trên các loại trang đó.

Tổng quan lỗi trang web

Trong một trang web hoạt động tốt, phần Lỗi trang web của báo cáo Lỗi thu thập dữ liệu sẽ không hiển thị lỗi nào (điều này đúng với phần lớn các trang web chúng tôi thu thập dữ liệu). Nếu Google phát hiện thấy bất kỳ số lượng đáng kể lỗi trang web nào, chúng tôi sẽ tìm cách báo cho bạn biết dưới hình thức thông báo, bất kể quy mô trang web của bạn như thế nào.

Khi bạn xem trang Lỗi thu thập dữ liệu lần đầu tiên, phần Lỗi trang web hiển thị mã trạng thái nhanh bên cạnh mỗi loại trong số ba loại lỗi: DNS, Kết nối máy chủ và tìm nạp robots.txt. Nếu mã không có dấu kiểm màu xanh lá cây, bạn có thể nhấp vào ô để xem biểu đồ chi tiết thu thập dữ liệu trong vòng 90 ngày qua.

Tỷ lệ lỗi cao

Nếu trang web của bạn có tỷ lệ lỗi 100% đối với bất kỳ loại nào trong số ba loại, điều này có thể cho thấy rằng trang web của bạn bị trục trặc hoặc định cấu hình sai theo một cách nào đó. Điều này có thể là do một số khả năng mà bạn có thể điều tra:

  • Kiểm tra để đảm bảo việc tổ chức lại trang web đã không thay đổi quyền đối với một phần trang web của bạn.
  • Nếu trang web của bạn đã được tổ chức lại, kiểm tra xem các liên kết bên ngoài có hoạt động hay không.
  • Xem lại bất kỳ tập lệnh mới nào để đảm bảo chúng đang không gặp lỗi liên tục.
  • Đảm bảo rằng toàn bộ các thư mục đều hiện diện và chưa vô tình bị chuyển đi hoặc bị xóa.
Nếu các trường hợp này đều không áp dụng với trang web của bạn, tỷ lệ lỗi có thể chỉ là tăng nhất thời hoặc do các nguyên nhân bên ngoài (một người nào đó đã liên kết đến các trang không tồn tại), vì thế thậm chí điều này không phải vấn đề. Trong mọi trường hợp, khi chúng tôi thấy một số lượng lỗi lớn khác thường trên trang web của bạn, chúng tôi sẽ cho bạn biết để bạn có thể điều tra.

Tỷ lệ lỗi thấp

Nếu trang web của bạn có tỷ lệ lỗi nhỏ hơn 100% đối với bất kỳ loại nào, nó có thể chỉ một tình trạng nhất thời, nhưng nó cũng có thể có nghĩa là trang web của bạn bị quá tải hoặc định cấu hình không đúng cách. Bạn có thể muốn điều tra thêm các vấn đề này hoặc hỏi về chúng trên diễn đàn của chúng tôi. Chúng tôi có thể cảnh báo cho bạn ngay cả khi tỷ lệ lỗi nói chung rất thấp — theo trải nghiệm của chúng tôi, một trang web được định cấu hình thích hợp sẽ không có lỗi nào đối với ba loại này.

Loại lỗi của trang web

Các lỗi sau đây được liệt kê trong phần Trang web của báo cáo:

Lỗi DNS

Lỗi DNS là gì?

Lỗi DNS có nghĩa là Googlebot không thể giao tiếp với máy chủ DNS do máy chủ trục trặc hoặc có vấn đề với định tuyến DNS đến miền của bạn. Trong khi hầu hết các cảnh báo hoặc lỗi DNS không ảnh hưởng đến khả năng của Googlebot trong việc truy cập trang web của bạn, chúng có thể là dấu hiệu của thời gian chờ cao mà có thể tác động tiêu cực đến người dùng của bạn.

Sửa lỗi DNS

  • Đảm bảo rằng Google có thể thu thập dữ liệu trang web của bạn.
    Sử dụng Tìm nạp như Google trên một trang quan trọng, chẳng hạn như trang chủ của bạn. Nếu nó trả về nội dung trang chủ của bạn mà không có vấn đề, bạn có thể giả định rằng Google có thể truy cập trang web của bạn bình thường.
  • Đối với các lỗi DNS tái diễn, kiểm tra với nhà cung cấp DNS của bạn.
    Thông thường nhà cung cấp DNS và dịch vụ lưu trữ web của bạn là một. 
  • Định cấu hình máy chủ của bạn để phản hồi tên máy chủ không tồn tại với mã lỗi HTTP như 404 hoặc 500.
    Một trang web như example.com có thể được định cấu hình với DNS ký tự đại diện được thiết lập để phản hồi các yêu cầu về foo.example.com, made-up-name.example.com và bất kỳ tên miền phụ nào khác. Điều này thích hợp trong trường hợp một trang web có nội dung do người dùng tạo cung cấp cho mỗi tài khoản người dùng tên miền riêng của họ (http://username.example.com). Tuy nhiên, trong một số trường hợp, cách định cấu hình này có thể khiến nội dung bị trùng lặp không cần thiết trên các tên máy chủ khác nhau và nó cũng có thể ảnh hưởng đến quá trình thu thập dữ liệu của Googlebot.

Danh sách lỗi DNS

Loại lỗi Mô tả
Hết thời gian chờ DNS

Google không thể truy cập trang web của bạn bởi vì máy chủ DNS của bạn không phản hồi yêu cầu một cách kịp thời.

Hãy sử dụng Tìm nạp như Google để kiểm tra xem liệu Googlebot hiện có thể thu thập dữ liệu trang web của bạn hay không. Nếu Tìm nạp như Google trả lại nội dung của trang chủ của bạn mà không có vấn đề, bạn có thể coi Google nói chung có thể truy cập trang web của mình một cách chính xác.

Hãy kiểm tra với công ty đăng ký của bạn để đảm bảo trang web của bạn được thiết lập đúng và máy chủ của bạn được kết nối với Internet.

Tra cứu DNS

Google không thể truy cập trang web của bạn bởi vì máy chủ DNS của bạn không nhận ra tên máy chủ (như www.example.com).

Hãy sử dụng Tìm nạp như Google để kiểm tra xem liệu Googlebot hiện có thể thu thập dữ liệu trang web của bạn hay không. Nếu Tìm nạp như Google trả lại nội dung của trang chủ của bạn mà không có vấn đề, bạn có thể coi Google nói chung có thể truy cập trang web của mình một cách chính xác.

Hãy kiểm tra với công ty đăng ký của bạn để đảm bảo trang web của bạn được thiết lập đúng và máy chủ của bạn được kết nối với Internet.

Lỗi máy chủ

Lỗi máy chủ là gì?

Khi bạn nhìn thấy lỗi này cho URL, điều này nghĩa là Googlebot không thể truy cập URL của bạn, yêu cầu đã hết thời gian chờ hoặc trang web của bạn đang bận. Kết quả là Googlebot bắt buộc phải từ bỏ yêu cầu.

Sửa lỗi kết nối máy chủ

  • Giảm tải trang quá mức đối với các yêu cầu trang động.
    Một trang web cung cấp cùng một nội dung cho nhiều URL được xem là phân phát nội dung động (ví dụ như www.example.com/shoes.php?color=red&size=7 phân phát cùng một nội dung như www.example.com/shoes.php?size=7&color=red).  Các trang động cũng có thể mất nhiều thời gian để phản hồi, dẫn đến các vấn đề hết thời gian chờ. Hoặc máy chủ có thể trả về trạng thái quá tải để yêu cầu Googlebot thu thập dữ liệu trang web chậm hơn. Nói chung, chúng tôi khuyên bạn nên đặt các tham số ngắn và sử dụng chúng một cách thận trọng. Nếu bạn chắc chắn về cách các tham số hoạt động cho trang web của mình, bạn có thể cho Google biết cách chúng tôi nên xử lý những tham số này.
  • Đảm bảo rằng máy chủ lưu trữ của trang web của bạn không bị trục trặc, quá tải hay bị định cấu hình sai cách.
    Nếu vấn đề kết nối, hết thời gian chờ hoặc phản hồi vẫn tiếp diễn, kiểm tra với máy chủ lưu trữ web của bạn và cân nhắc tăng khả năng xử lý lưu lượng truy cập của trang web của bạn.
  • Kiểm tra để đảm bảo bạn không vô tình chặn Google.
    Bạn có thể đang chặn Google do một vấn đề cấp hệ thống, chẳng hạn như vấn đề cấu hình DNS, tường lửa hay hệ thống bảo vệ DoS được định cấu hình không đúng cách hoặc cấu hình hệ thống quản lý nội dung. Hệ thống bảo vệ là một phần quan trọng của lưu trữ an toàn và thường được định cấu hình để tự động chặn các mức cao bất thường của các yêu cầu máy chủ. Tuy nhiên, do Googlebot thường tạo ra nhiều yêu cầu hơn người dùng là con người, Googlebot có thể kích hoạt các hệ thống bảo vệ này, dẫn đến các hệ thống này chặn Googlebot và ngăn Googlebot thu thập dữ liệu trang web của bạn. Để khắc phục các sự cố đó, hãy xác định phần nào của cơ sở hạ tầng của trang web của bạn đang chặn Googlebot và loại bỏ việc chặn. Tường lửa có thể không thuộc quyền kiểm soát của bạn do đó bạn cần thảo luận việc này với nhà cung cấp dịch vụ lưu trữ của mình.
  • Kiểm soát thu thập dữ liệu và lập chỉ mục trang web của công cụ tìm kiếm một cách hợp lý.
    Một số quản trị viên web ngăn Googlebot truy cập trang web của họ một cách có chủ ý, có lẽ họ đang sử dụng tường lửa như được mô tả phía trên. Trong những trường hợp này, mục đích thường không phải là chặn hoàn toàn Googlebot mà là kiểm soát cách trang web được thu thập dữ liệu và lập chỉ mục. Nếu điều này áp dụng với bạn, hãy kiểm tra các điều sau: Nếu bạn muốn thay đổi tần suất Googlebot thu thập dữ liệu trang web của mình, bạn có thể yêu cầu thay đổi về tốc độ thu thập dữ liệu của Googlebot. Nhà cung cấp dịch vụ lưu trữ cũng có thể xác minh quyền sở hữu của các địa chỉ IP của họ.

Lỗi kết nối máy chủ

Loại lỗi Mô tả
Hết thời gian chờ

Máy chủ đã hết thời gian chờ yêu cầu.

Hãy sử dụng Tìm nạp như Google để kiểm tra xem liệu Googlebot hiện có thể thu thập dữ liệu trang web của bạn hay không. Nếu Tìm nạp như Google trả lại nội dung của trang chủ của bạn mà không có vấn đề, bạn có thể coi Google nói chung có thể truy cập trang web của mình một cách chính xác.

Có thể máy chủ của bạn bị quá tải hoặc định cấu hình sai. Nếu sự cố vẫn tồn tại, hãy kiểm tra với nhà cung cấp dịch vụ lưu trữ của bạn.

Tiêu đề bị cắt ngắn

Google có thể kết nối với máy chủ của bạn nhưng máy chủ đã ngắt kết nối trước khi toàn bộ tiêu đề được gửi đi. Hãy kiểm tra lại sau.

Hãy sử dụng Tìm nạp như Google để kiểm tra xem liệu Googlebot hiện có thể thu thập dữ liệu trang web của bạn hay không. Nếu Tìm nạp như Google trả lại nội dung của trang chủ của bạn mà không có vấn đề, bạn có thể coi Google nói chung có thể truy cập trang web của mình một cách chính xác.

Có thể máy chủ của bạn bị quá tải hoặc định cấu hình sai. Nếu sự cố vẫn tồn tại, hãy kiểm tra với nhà cung cấp dịch vụ lưu trữ của bạn.

Đặt lại kết nối

Máy chủ của bạn đã xử lý thành công yêu cầu của Google nhưng không trả lại bất kỳ nội dung nào bởi vì kết nối với máy chủ đã được đặt lại. Hãy kiểm tra lại sau.

Hãy sử dụng Tìm nạp như Google để kiểm tra xem liệu Googlebot hiện có thể thu thập dữ liệu trang web của bạn hay không. Nếu Tìm nạp như Google trả lại nội dung của trang chủ của bạn mà không có vấn đề, bạn có thể coi Google nói chung có thể truy cập trang web của mình một cách chính xác.

Có thể máy chủ của bạn bị quá tải hoặc định cấu hình sai. Nếu sự cố vẫn tồn tại, hãy kiểm tra với nhà cung cấp dịch vụ lưu trữ của bạn.

Phản hồi được rút ngắn

Máy chủ của bạn đã ngắt kết nối trước khi chúng tôi nhận được phản hồi đầy đủ và phần thân của phản hồi dường như đã bị cắt ngắn.

Hãy sử dụng Tìm nạp như Google để kiểm tra xem liệu Googlebot hiện có thể thu thập dữ liệu trang web của bạn hay không. Nếu Tìm nạp như Google trả lại nội dung của trang chủ của bạn mà không có vấn đề, bạn có thể coi Google nói chung có thể truy cập trang web của mình một cách chính xác.

Có thể máy chủ của bạn bị quá tải hoặc định cấu hình sai. Nếu sự cố vẫn tồn tại, hãy kiểm tra với nhà cung cấp dịch vụ lưu trữ của bạn.

Kết nối bị từ chối

Google không thể truy cập trang web của bạn bởi vì máy chủ đã từ chối kết nối. Nhà cung cấp dịch vụ lưu trữ của bạn có thể chặn Googlebot hoặc có thể có sự cố với cấu hình tường lửa của họ.

Hãy sử dụng Tìm nạp như Google để kiểm tra xem liệu Googlebot hiện có thể thu thập dữ liệu trang web của bạn hay không. Nếu Tìm nạp như Google trả lại nội dung của trang chủ của bạn mà không có vấn đề, bạn có thể coi Google nói chung có thể truy cập trang web của mình một cách chính xác.

Có thể máy chủ của bạn bị quá tải hoặc định cấu hình sai. Nếu sự cố vẫn tồn tại, hãy kiểm tra với nhà cung cấp dịch vụ lưu trữ của bạn.

Kết nối không thành công

Google không thể kết nối với máy chủ của bạn do mạng không thể kết nối được hoặc bị ngắt.

Có thể máy chủ của bạn bị quá tải hoặc định cấu hình sai. Nếu sự cố vẫn tồn tại, hãy kiểm tra với nhà cung cấp dịch vụ lưu trữ của bạn.

Hãy sử dụng Tìm nạp như Google để kiểm tra xem liệu Googlebot hiện có thể thu thập dữ liệu trang web của bạn hay không. Nếu Tìm nạp như Google trả lại nội dung của trang chủ của bạn mà không có vấn đề, bạn có thể coi Google nói chung có thể truy cập trang web của mình một cách chính xác.

Hết thời gian kết nối

Google không thể kết nối với máy chủ của bạn.

Hãy sử dụng Tìm nạp như Google để kiểm tra xem liệu Googlebot hiện có thể thu thập dữ liệu trang web của bạn hay không. Nếu Tìm nạp như Google trả về nội dung trang chủ của bạn mà không có vấn đề, bạn có thể giả định rằng nhìn chung Googlebot có thể truy cập trang web của bạn bình thường.

Kiểm tra xem máy chủ của bạn có được kết nối với Internet không. Có thể máy chủ của bạn bị quá tải hoặc định cấu hình sai. Nếu sự cố vẫn tồn tại, hãy kiểm tra với nhà cung cấp dịch vụ lưu trữ của bạn.

Không có phản hồi

Google có thể kết nối với máy chủ của bạn nhưng kết nối đã bị đóng trước khi máy chủ gửi bất kỳ dữ liệu nào.

Hãy sử dụng Tìm nạp như Google để kiểm tra xem liệu Googlebot hiện có thể thu thập dữ liệu trang web của bạn hay không. Nếu Tìm nạp như Google trả về nội dung trang chủ của bạn mà không có vấn đề, bạn có thể giả định rằng nhìn chung Googlebot có thể truy cập trang web của bạn bình thường.

Có thể máy chủ của bạn bị quá tải hoặc cấu hình sai. Nếu sự cố vẫn tồn tại, hãy kiểm tra với nhà cung cấp dịch vụ lưu trữ của bạn.

Lỗi robot

Lỗi robot là gì?

Đây là lỗi khi truy xuất tệp robots.txt trên trang web của bạn. Trước khi Googlebot thu thập dữ liệu trang web của bạn và khoảng một lần một ngày sau đó, Googlebot truy xuất tệp robots.txt của bạn để xem những trang không nên thu thập dữ liệu. Nếu tệp robots.txt của bạn tồn tại nhưng không thể truy cập (nói cách khác, nếu nó không trả lại mã trạng thái HTTP 200 hoặc 404), chúng tôi sẽ hoãn thu thập dữ liệu thay vì mạo hiểm thu thập dữ liệu các URL mà bạn không muốn được thu thập dữ liệu. Khi sự cố này xảy ra, Googlebot sẽ quay lại trang web của bạn và thu thập dữ liệu trang web đó ngay khi chúng tôi có thể truy cập thành công vào tệp robots.txt của bạn. Thông tin thêm về giao thức loại trừ robot.

Sửa lỗi tệp robots.txt

  • Bạn không phải lúc nào cũng cần tệp robots.txt.
    Bạn chỉ cần tệp robots.txt nếu trang web của bạn có nội dung mà bạn không muốn công cụ tìm kiếm lập chỉ mục. Nếu bạn muốn công cụ tìm kiếm lập chỉ mục mọi nội dung trong trang web của bạn thì bạn không cần tệp robots.txt—thậm chí không cần tệp robots.txt rỗng. Nếu bạn không có tệp robots.txt, máy chủ của bạn sẽ trả lại 404 khi Googlebot yêu cầu tệp đó và chúng tôi sẽ tiếp tục thu thập dữ liệu trang web của bạn. Không thành vấn đề.
  • Đảm bảo rằng Google có thể truy cập tệp robots.txt của bạn.
    Có thể máy chủ của bạn trả về lỗi 5xx (không truy cập được) khi chúng tôi cố truy xuất tệp robots.txt của bạn. Kiểm tra để đảm bảo nhà cung cấp dịch vụ lưu trữ của bạn đang không chặn Googlebot.  Nếu bạn có tường lửa, đảm bảo rằng cấu hình của nó đang không chặn Google.

Tổng quan về các lỗi URL

Phần lỗi URL của báo cáo được chia thành các loại hiển thị 1000 lỗi URL hàng đầu trong từng loại. Không phải tất cả các lỗi mà bạn thấy trong phần này đều cần bạn phải chú ý, nhưng điều quan trọng là bạn theo dõi phần này để biết các lỗi có thể có tác động tiêu cực đến người dùng và trình thu thập dữ liệu của Google. Chúng tôi đã làm điều này trở nên dễ dàng hơn cho bạn bằng cách xếp hạng các vấn đề quan trọng nhất ở đầu tiên, dựa trên các yếu tố như số lượng lỗi và các trang tham chiếu đến URL. Cụ thể là bạn sẽ muốn xem xét các điều sau:

  • Sửa lỗi Not Found với các URL quan trọng có chuyển hướng 301. Mặc dù việc có lỗi Not Found (404) là bình thường, bạn sẽ muốn xử lý lỗi cho các trang quan trọng được liên kết bởi các trang web khác, các URL cũ mà bạn có trong sơ đồ trang web và đã xóa, các URL bị sai chính tả cho các trang quan trọng hay URL của các trang nổi tiếng mà không còn tồn tại trên trang web của bạn. Bằng cách này, Google và khách truy cập có thể dễ dàng truy cập thông tin mà bạn quan tâm.
  • Cập nhật sơ đồ trang web của bạn.  Cắt các URL cũ khỏi sơ đồ trang web của bạn và nếu bạn thêm sơ đồ trang web mới để thay thế các sơ đồ trang web cũ, đảm bảo xóa sơ đồ trang web cũ (không chuyển hướng nó đến sơ đồ trang web mới).  
  • Giữ cho các chuyển hướng rõ ràng và ngắn gọn.  Nếu bạn có một số URL chuyển hướng theo trình tự (ví dụ như trangA > trangB > trangC > trangD), Googlebot có thể gặp khó khăn trong việc theo và phân tích trình tự.  Cố gắng giữ "bước nhảy" ở con số thấp.  Đọc thêm về Không theo.

Xem chi tiết lỗi URL

Bạn có thể xem lỗi URL theo nhiều cách khác nhau:

  • Nhấp vào Tải xuống để truy xuất danh sách 1000 lỗi hàng đầu cho loại trình thu thập dữ liệu đó (ví dụ như máy tính để bàn, điện thoại thông minh).
  • Sử dụng bộ lọc trên bảng để tìm các URL cụ thể.
  • Xem chi tiết lỗi bằng cách theo liên kết từ URL riêng lẻ hay URI ứng dụng.
Tab Máy tính để bànĐiện thoại thông minh liệt kê các URL có lỗi thu thập dữ liệu, cũng như trạng thái lỗi, danh sách các trang tham chiếu đến URL và liên kết đến Tìm nạp như Google để bạn có thể khắc phục sự cố với URL đó.

Đánh dấu lỗi URL là đã được khắc phục

Khi bạn đã xử lý vấn đề gây ra lỗi với một mục cụ thể, bạn có thể ẩn nó khỏi danh sách. Bạn có thể làm điều này với từng lỗi hoặc với nhiều lỗi một lúc. Chọn hộp kiểm bên cạnh URL và nhấp vào Đánh dấu là đã được sửa. URL sẽ bị xóa khỏi danh sách. Tuy nhiên, đánh dấu này chỉ là một phương pháp thuận tiện cho bạn; nếu trình thu thập dữ liệu của Google gặp lỗi trong lần thu thập dữ liệu tới, URL sẽ xuất hiện lại trong danh sách vào lần tới URL của bạn được thu thập dữ liệu.

Loại lỗi URL

Các lỗi URL thường gặp

Loại lỗi Mô tả
Lỗi máy chủ

Khi bạn nhìn thấy lỗi này cho URL, điều này nghĩa là Googlebot không thể truy cập URL của bạn, yêu cầu đã hết thời gian chờ hoặc trang web của bạn đang bận. Kết quả là Googlebot bắt buộc phải từ bỏ yêu cầu.

Tìm hiểu thêm về lỗi kết nối máy chủ.

Soft 404

Thông thường, khi một khách truy cập yêu cầu trang không tồn tại trên trang web của bạn, máy chủ sẽ trả lại lỗi 404 (not found). Mã phản hồi HTTP này cho trình duyệt và công cụ tìm kiếm biết một cách rõ ràng rằng trang không tồn tại. Kết quả là nội dung của trang (nếu có) sẽ không được các công cụ tìm kiếm thu thập dữ liệu hoặc lập chỉ mục.

Soft 404 xảy ra khi máy chủ của bạn trả về trang thực cho một URL không tồn tại trên trang web của bạn. Điều này thường xảy ra khi máy chủ của bạn xử lý URL bị lỗi hay không tồn tại là "OK" và chuyển hướng người dùng đến một trang hợp lệ như trang chủ hay trang 404 "tùy chỉnh".  

Đây là vấn đề vì công cụ tìm kiếm có thể dành nhiều thời gian để thu thập dữ liệu và lập chỉ mục các URL không tồn tại, thường là trùng lặp trên trang web của bạn. Điều này có thể ảnh hưởng xấu đến phạm vi thu thập dữ liệu trang web của bạn vì URL thực, riêng của bạn có thể không được phát hiện nhanh hay truy cập thường xuyên do thời gian mà Googlebot dành cho các trang không tồn tại.

Nếu trang của bạn thực sự đã biến mất và không có trang thay thế, chúng tôi khuyên bạn nên định cấu hình máy chủ để luôn trả về mã phản hồi 404 (Not found) hay 410 (Gone) để phản hồi cho yêu cầu về một trang không tồn tại. Bạn có thể cải thiện trải nghiệm cho khách truy cập bằng cách thiết lập trang 404 tùy chỉnh khi trả về mã phản hồi 404. Ví dụ: bạn có thể tạo trang chứa danh sách những trang phổ biến nhất của mình hoặc một liên kết đến trang chủ của mình hoặc một liên kết phản hồi. Nhưng điều quan trọng cần phải nhớ là việc chỉ tạo một trang hiển thị thông báo 404 là không đủ. Bạn cũng cần phải trả lại mã phản hồi 404 hoặc 410 HTTP chính xác.

404

Googlebot yêu cầu một URL không tồn tại trên trang web của bạn.

Sửa lỗi 404

Hầu hết các lỗi 404 không ảnh hưởng đến xếp hạng của trang web của bạn trong Google, vì vậy bạn có thể bỏ qua chúng. Thường chúng bị gây ra bởi lỗi chính tả, định cấu hình trang web sai hoặc bởi nỗ lực gia tăng của Google trong việc phát hiện và thu thập dữ liệu các liên kết trong nội dung nhúng như JavaScript. Dưới đây là một số gợi ý để giúp bạn điều tra và sửa lỗi 404:

  1. Xác định xem có cần phải sửa lỗi không. Nhiều (hầu hết?) lỗi 404 đều không cần sửa. Đây là lý do: Sắp xếp lỗi 404 của bạn theo mức độ ưu tiên và sửa các lỗi cần phải sửa. Bạn có thể bỏ qua những lỗi khác, vì lỗi 404 không ảnh hưởng xấu đến việc lập chỉ mục hay xếp hạng trang web của bạn.
    • Nếu nó là một trang đã bị xóa không có trang thay thế hay trang tương đương, việc trả về mã 404 là phù hợp.
    • Nếu nó là URL không hợp lệ được tạo bởi tập lệnh hoặc URL chưa từng tồn tại trên trang web của bạn, có thể nó không phải là một vấn đề bạn cần lo lắng. Bạn có thể thấy phiền toái khi thấy nó trong báo cáo, nhưng bạn không cần phải sửa nó, trừ khi URL là một liên kết thường bị sai chính tả (xem bên dưới).
  2. Xem các liên kết không hợp lệ nằm ở đâu. Nhấp vào một URL để xem thông tin Được liên kết từ các trang này. Sửa lỗi của bạn sẽ phụ thuộc vào việc liên kết đến từ trang web của bạn hay từ một trang web khác:
    1. Sửa các liên kết từ trang web của bạn đến các trang bị thiếu, hay xóa chúng nếu thích hợp.
      • Nếu nội dung đã di chuyển, hãy thêm chuyển hướng.
      • Nếu bạn đã vĩnh viễn xóa nội dung mà không có ý định thay nội dung đó bằng nội dung liên quan mới hơn, hãy để URL cũ trả về mã 404 hay 410. Google hiện xử lý 410 (Không tồn tại) giống với 404 (Không tìm thấy). Việc trả lại mã khác 404 hoặc 410 cho trang không tồn tại (hoặc chuyển hướng người dùng đến trang khác, chẳng hạn như trang chủ, thay vì trả lại 404) có thể có sự cố. Những trang như vậy được xem là trang soft 404 và có thể gây nhầm lẫn cho cả người dùng và công cụ tìm kiếm.
      • Nếu URL không xác định: Đôi khi bạn có thể thấy lỗi 404 cho các URL chưa từng tồn tại trên trang web của bạn. Các URL không mong muốn này có thể được tạo bởi Googlebot khi cố theo các liên kết tìm được trong JavaScript, tệp Flash hay nội dung được nhúng khác, hoặc có thể chỉ tồn tại trong sơ đồ trang web. Ví dụ: trang web của bạn có thể sử dụng mã như thế này để theo dõi số lượt tải xuống trong Google Analytics:
        
          Hello World PDF

        Khi Googlebot thấy mã này, nó có thể cố thu thập dữ liệu URL http://www.example.com/download-helloworld, mặc dù đây không phải là một trang có thực. Trong trường hợp này, liên kết có thể xuất hiện dưới dạng lỗi 404 (Not Found) trong báo cáo Lỗi thu thập dữ liệu. Google đang nỗ lực để ngăn chặn loại lỗi thu thập dữ liệu này. Lỗi này không ảnh hưởng đến việc thu thập dữ liệu hay xếp hạng trang web của bạn.

    2. Sửa lỗi liên kết bị sai chính tả từ các trang web khác với chuyển hướng 301. Ví dụ: phiên bản sai chính tả của một URL hợp lệ (www.example.com/redshoos thay cho www.example.com/redshoes) có thể đã xảy ra khi một người nào đó liên kết đến trang web của bạn nhập sai chính tả. Trong trường hợp này, bạn có thể chụp URL bị sai chính tả đó bằng cách tạo chuyển hướng 301 đến URL chính xác. Bạn cũng có thể liên hệ với quản trị viên của trang web kèm theo liên kết không chính xác và yêu cầu họ cập nhật hay xóa liên kết.
  3. Bỏ qua các lỗi còn lại. Không tạo nội dung giả, chuyển hướng đến trang chủ của bạn hay sử dụng robots.txt để chặn các URL này—tất cả những điều này khiến chúng tôi gặp khó khăn hơn trong việc phát hiện cấu trúc trang web của bạn và xử lý nó đúng cách. Chúng tôi gọi những lỗi này là soft 404. Lưu ý rằng việc nhấp vào Vấn đề này đã được khắc phục trong báo cáo Lỗi thu thập dữ liệu chỉ tạm thời ẩn lỗi 404; lỗi sẽ xuất hiện trở lại vào lần tới Google cố thu thập dữ liệu URL đó. (Khi Google đã thu thập dữ liệu một URL thành công, nó có thể cố thu thập dữ liệu URL đó vĩnh viễn. Việc tạo chuyển hướng cấp 300 sẽ trì hoãn lần thu thập dữ liệu lại, có thể trong một khoảng thời gian rất dài.)  Lưu ý rằng việc gửi yêu cầu xóa URL thông qua công cụ xóa URL sẽ không xóa lỗi khỏi báo cáo này.

Nếu bạn không nhận ra một URL trên trang web của mình, bạn có thể bỏ qua nó. Các lỗi này xảy ra khi một người nào đó duyệt tới một URL không tồn tại trên trang web của bạn - có thể họ nhập sai URL vào trình duyệt, hoặc nhập sai URL liên kết. Tuy nhiên, bạn có thể muốn chụp một số URL bị nhập sai này như được mô tả trong danh sách nói trên.

Truy cập bị từ chối

Nói chung, Google phát hiện nội dung bằng cách đi theo các liên kết từ trang này đến trang khác. Để thu thập dữ liệu trang, Googlebot phải có thể truy cập vào trang đó. Nếu bạn thấy lỗi Truy cập bị từ chối không mong muốn, điều này có thể là do một số lý do sau:

  • Googlebot không thể truy cập vào URL trên trang web của bạn do trang web của bạn yêu cầu người dùng đăng nhập để xem tất cả hoặc một số nội dung của bạn.
  • Máy chủ của bạn yêu cầu người dùng xác thực bằng cách sử dụng proxy hoặc nhà cung cấp dịch vụ lưu trữ có thể đang chặn Google truy cập trang web của bạn.

Để sửa lỗi:

  • Kiểm tra xem robots.txt của bạn có đang hoạt động như dự kiến và không chặn Google không. Công cụ Kiểm tra robots.txt cho phép bạn xem chính xác cách Googlebot sẽ diễn giải nội dung của tệp robots.txt của bạn. Tác nhân người dùng của Google là Googlebot. 
  • Sử dụng Tìm nạp như Google để hiểu chính xác cách trang web của bạn hiển thị với Googlebot. Điều này có thể rất hữu ích khi gỡ rối các sự cố với nội dung hoặc khả năng phát hiện của trang web của bạn trong các kết quả tìm kiếm.
Không theo được

Lỗi Không theo được liệt kê các URL mà Google không thể theo đến cùng, vùng với một số thông tin về lý do. Dưới đây là một số lý do tại sao Googlebot không thể theo được URL trên trang web của bạn:

Flash, JavaScript, nội dung hoạt động

Một số tính năng như Javascript, cookie, ID phiên, khung, DHTML hoặc Flash khiến công cụ tìm kiếm khó thu thập dữ liệu trang web của bạn. Kiểm tra những điều sau:

  • Hãy sử dụng trình duyệt văn bản như Lynx để kiểm tra trang web của bạn vì có nhiều công cụ tìm kiếm có thể xem trang web của bạn như Lynx. Nếu các tính năng như Javascript, cookie, ID phiên, khung, DHTML hoặc Flash giúp bạn xem tất cả các trang web của mình trong một trình duyệt văn bản thì trình thu thập thông tin của công cụ tìm kiếm có thể gặp sự cố khi thu thập dữ liệu trang web của bạn.
  • Sử dụng Tìm nạp như Google để xem chính xác cách trang web của bạn hiển thị với Google.
  • Nếu bạn sử dụng trang động (ví dụ: nếu URL của bạn chứa ký tự ?), bạn cần biết rằng không phải tất cả trình thu thập thông tin của công cụ tìm kiếm đều thu thập dữ liệu trang tĩnh và trang động. Nói chung, chúng tôi khuyên bạn nên đặt các tham số ngắn và sử dụng chúng một cách thận trọng. Nếu bạn chắc chắn về cách các tham số hoạt động cho trang web của mình, bạn có thể cho Google biết cách bạn nên xử lý các tham số đó.

Chuyển hướng

  • Nếu bạn đang chuyển hướng vĩnh viễn từ trang này đến trang khác, hãy đảm bảo rằng bạn trả lại mã trạng thái HTTP đúng (301 Moved Permanently).
  • Hãy sử dụng liên kết tuyệt đối thay vì liên kết tương đối ở bất cứ đâu có thể. (Ví dụ: khi liên kết đến trang khác trong trang web của bạn, liên kết đến www.example.com/mypage.html thay vì chỉ mypage.html).
  • Thử đặt mọi trang trên trang web của bạn có thể truy cập được từ ít nhất một liên kết văn bản tĩnh. Nói chung, hãy giảm thiểu số lần chuyển hướng cần thiết để đi theo liên kết từ trang này đến trang khác.
  • Chọn chuyển hướng của bạn hướng đến trang chính xác! Đôi khi chúng tôi phát hiện thấy chuyển hướng tự hướng đến chính mình (dẫn đến lỗi vòng lặp) hoặc đến URL không hợp lệ.
  • Không đưa URL được chuyển hướng vào Sơ đồ trang web của bạn.
  • Giữ URL của bạn ngắn nhất có thể. Đảm bảo rằng bạn không tự động gắn thông tin (chẳng hạn như ID phiên) vào URL chuyển hướng của bạn.
  • Đảm bảo rằng trang web của bạn cho phép các bot tìm kiếm thu thập dữ liệu trang web mà không cần ID phiên hoặc đối số theo dõi đường dẫn của chúng qua trang web.
Lỗi DNS

Khi bạn nhìn thấy lỗi này cho URL, điều này nghĩa là Googlebot không thể kết nối với máy chủ DNS hoặc máy chủ không có mục nhập nào cho trang web của bạn.

Tìm hiểu thêm về lỗi DNS.

Lỗi URL chỉ trên thiết bị di động (Điện thoại thông minh)

Lỗi Mô tả
Chuyển hướng lỗi

Lỗi Chuyển hướng lỗi xuất hiện trong phần Lỗi URL của trang Thu thập dữ liệu > Lỗi thu thập dữ liệu trong tab Điện thoại thông minh.

Một số trang web sử dụng các URL riêng để phục vụ người dùng trên máy tính để bàn và điện thoại thông minh và định cấu hình các trang trên máy tính để bàn để chuyển hướng người dùng điện thoại thông minh đến trang web trên thiết bị di động (ví dụ như m.example.com). Lỗi chuyển hướng lỗi xảy ra khi trang trên máy tính để bàn chuyển hướng người dùng điện thoại thông minh sai cách đến một trang trên điện thoại thông minh không liên quan đến truy vấn của họ. Ví dụ điển hình của trường hợp này xảy ra khi tất cả các trang trên máy tính để bàn chuyển hướng người dùng điện thoại thông minh đến trang chủ của trang web được tối ưu hóa cho điện thoại thông minh. Trong hình dưới đây, các chuyển hướng được hiển thị với mũi tên màu đỏ chỉ báo chuyển hướng bị lỗi:


Loại chuyển hướng này phá vỡ quy trình làm việc của người dùng và có thể khiến họ ngừng sử dụng trang web và xem trang web khác.

Sau đây là một số mẹo để giúp bạn tạo trải nghiệm tìm kiếm thân thiện với thiết bị di động và tránh chuyển hướng lỗi:

  • Thực hiện một số tìm kiếm trên điện thoại của riêng bạn (hoặc thiết lập trình duyệt của bạn để hành động như một điện thoại thông minh) để xem trang web của bạn hoạt động như thế nào.
  • Sử dụng các URL ví dụ được cung cấp trong báo cáo làm điểm bắt đầu để gỡ lỗi chính xác vị trí gặp vấn đề trong cấu hình máy chủ của bạn.
  • Thiết lập máy chủ của bạn để nó chuyển hướng người dùng điện thoại thông minh đến URL tương đương trên trang web dành cho điện thoại thông minh của bạn.
  • Nếu một trang trên trang web của bạn không có trang tương đương trên điện thoại thông minh, hãy giữ người dùng trên trang dành cho máy tính để bàn, thay vì chuyển hướng họ đến trang chủ của trang dành cho điện thoại thông minh. Việc không làm gì còn tốt hơn làm sai trong trường hợp này.
  • Cân nhắc sử dụng thiết kế web đáp ứng, phân phối cùng một nội dung cho người dùng trên máy tính để bàn và điện thoại thông minh.
  • Cuối cùng, đọc các đề xuất của chúng tôi về việc có các URL riêng biệt cho người dùng trên máy tính để bàn và điện thoại thông minh.
URL bị chặn trên điện thoại thông minh

Lỗi "Bị chặn" xuất hiện trên tab Điện thoại thông minh của phần Lỗi URL trong trang Thu thập dữ liệu > Lỗi thu thập dữ liệu. Nếu bạn nhận được lỗi "Bị chặn" cho một URL trên trang web của bạn, điều đó nghĩa là URL bị chặn đối với Googlebot trên điện thoại thông minh của Google trong tệp robots.txt của trang web của bạn.

Điều này không nhất thiết là lỗi riêng trên điện thoại thông minh (ví dụ: trang tương đương trên máy tính để bàn cũng có thể bị chặn). Tuy nhiên, nó thường chỉ ra rằng cần phải chỉnh sửa tệp robots.txt để cho phép thu thập dữ liệu các URL trên điện thoại thông minh. Khi các URL trên điện thoại thông minh bị chặn, Google không thể thu thập dữ liệu các trang dành cho thiết bị di động và vì thế chúng có thể không xuất hiện trong kết quả tìm kiếm.

Nếu bạn nhận được lỗi thu thập dữ liệu "Bị chặn" trên điện thoại thông minh cho các URL trên trang web của bạn, hãy kiểm tra tệp robots.txt và đảm bảo rằng bạn đang không vô tình chặn Googlebot thu thập dữ liệu các phần của trang web trên điện thoại thông minh.

Để biết thêm thông tin, xem các đề xuất của chúng tôi.

Nội dung Flash

Lỗi Nội dung Flash xuất hiện trong phần Lỗi URL của trang Thu thập dữ liệu > Lỗi thu thập dữ liệu trong tab Điện thoại thông minh.

Các thuật toán của chúng tôi liệt kê URL trong phần này là có nội dung được hiển thị phần lớn bằng FLash. Nhiều thiết bị không thể hiển thị các trang này vì Flash không được hỗ trợ trên iOS và Android phiên bản 4.1 trở lên.

Chúng tôi khuyên bạn nên cải thiện trải nghiệm trên thiết bị di động cho trang web của mình bằng cách sử dụng thiết kế web đáp ứng cho trang web, một phương pháp được Google đề xuất để xây dựng trang web thân thiện với tìm kiếm trên tất cả các thiết bị.  Bạn có thể tìm hiểu thêm về điều này trong Kiến thức cơ bản về web, một nguồn tài nguyên toàn diện về phát triển web trên nhiều thiết bị.

Cho dù bạn thực hiện theo phương pháp nào để xử lý vấn đề này, hãy đảm bảo cho phép Googlebot truy cập tất cả các phần tử trên trang web của bạn (CSS, JavaSript và hình ảnh) và không chặn chúng bằng robots.txt hay bằng các phương thức khác. Các thuật toán của chúng tôi cần những tệp bên ngoài này để phát hiện cấu hình thiết kế của trang web và xử lý thích hợp. Bạn có thể đảm bảo các thuật toán lập chỉ mục của chúng tôi có quyền truy cập vào trang web của bạn bằng cách sử dụng tính năng Tìm nạp như Google trong Search Console.

 

* Nguồn: Google Search Console