Giới thiệu về lấy mẫu dữ liệu

30/11/2019

Trong phân tích dữ liệu, lấy mẫu là phương pháp phân tích tập hợp con của tất cả dữ liệu để khám phá thông tin có ý nghĩa trong tập dữ liệu lớn hơn. Ví dụ: nếu muốn ước tính số cây trong khu vực rộng 100 mẫu có sự phân bố cây khá đồng đều, bạn có thể tính số lượng cây trong 1 mẫu và nhân cho 100 hoặc tính số cây trong 1/2 mẫu và nhân với 200 để có được số cây chính xác trong toàn bộ 100 mẫu.

Bài viết này giải thích các trường hợp Analytics áp dụng lấy mẫu phiên cho dữ liệu để kịp thời cung cấp cho bạn báo cáo chính xác.

 

Trong bài viết này:

Ngưỡng lấy mẫu

Báo cáo mặc định không cần lấy mẫu.

Các truy vấn dữ liệu đặc biệt phải tuân theo các ngưỡng chung sau cho việc lấy mẫu:

  • Analytics Chuẩn: 500 nghìn phiên ở cấp thuộc tính cho phạm vi ngày bạn đang sử dụng
  • Analytics 360: 100 triệu phiên ở cấp chế độ xem cho phạm vi ngày bạn đang sử dụng

    Các ngưỡng của 360 khác nhau tùy theo cách truy vấn được định cấu hình. Để biết thông tin chi tiết, hãy liên hệ với nhóm hỗ trợ 360.

Khi nào lấy mẫu được áp dụng

Các mục sau giải thích những trường hợp có thể được áp dụng lấy mẫu phiên trong báo cáo Analytics.

Báo cáo mặc định

Analytics liệt kê một tập hợp các báo cáo mặc định, được định cấu hình trước trong khung bên trái trong Đối tượng, Chuyển đổi, Hành vi và Chuyển đổi.

Analytics lưu trữ một tập dữ liệu hoàn chỉnh, chưa được lọc cho từng thuộc tính trong từng tài khoản. Đối với mỗi chế độ xem báo cáo trong một thuộc tính, Analytics cũng tạo các bảng chứa các chỉ số và thứ nguyên tổng hợp từ dữ liệu hoàn chỉnh, chưa được lọc. Khi bạn chạy báo cáo mặc định, Analytics sẽ truy vấn các bảng dữ liệu tổng hợp để nhanh chóng đưa ra kết quả chưa được lấy mẫu.

Analytics định kỳ thêm báo cáo mới và đôi khi thực hiện thay đổi cho cách tính chỉ số. Nếu phạm vi ngày của báo cáo bao gồm thời gian trước khi báo cáo được thêm hoặc trước khi tính toán chỉ số thay đổi thì Analytics có thể cấp truy vấn đặc biệt và dữ liệu có thể được lấy mẫu.

Dữ liệu được lấy mẫu khi các báo cáo bao gồm chỉ số Người dùng và Người dùng đang hoạt động có dữ liệu từ trước tháng 9 năm 2016. Tìm hiểu thêm

Báo cáo mặc định không được lấy mẫu trong cả Analytics Chuẩn và Analytics 360. Tuy nhiên, nếu sử dụng tính năng ghi đè UTM, bạn có thể gặp một số báo cáo Google Ads sử dụng lấy mẫu.

Báo cáo đặc biệt

Nếu bạn sửa đổi báo cáo mặc định theo một cách nào đó, ví dụ: bằng cách áp dụng phân đoạn, bộ lọc hoặc tham số phụ hoặc nếu bạn tạo báo cáo tùy chỉnh sử dụng kết hợp các tham số và chỉ số không có trong báo cáo mặc định, thì bạn đang tạo truy vấn dữ liệu Analytics đặc biệt.

Trước tiên, Analytics sẽ truy cập các bảng dữ liệu tổng hợp để xem liệu tất cả thông tin được yêu cầu từ truy vấn đặc biệt của bạn có sẵn ở đó hay không. Nếu ở đó không có thông tin, Analytics sẽ truy vấn tập dữ liệu hoàn chỉnh chưa được lọc để đáp ứng yêu cầu truy vấn.

Các truy vấn đặc biệt này sẽ được lấy mẫu nếu số phiên trong phạm vi ngày mà bạn đang sử dụng vượt quá ngưỡng cho loại thuộc tính của bạn.

Thuật toán lấy mẫu sử dụng mẫu của dữ liệu hoàn chỉnh tỷ lệ với sự phân bố phiên hàng ngày cho thuộc tính trong phạm vi ngày mà bạn đang sử dụng. Ví dụ: nếu phiên có khoảng thời gian 5 ngày đã được lấy mẫu ở mức 25%, thì mẫu sẽ bao gồm 25% số phiên mỗi ngày:

  Thứ Hai Thứ Ba Thứ Tư Thứ Năm Thứ Sáu
Tổng số phiên 200.000 100.000 200.000 300.000 200.000
25% mẫu 50.000 25.000 50.000 75.000 50.000

 

Tỷ lệ lấy mẫu khác nhau theo từng truy vấn tùy thuộc vào số lượng phiên trong phạm vi ngày cho một chế độ xem nhất định.

Khi lấy mẫu có hiệu lực, bạn sẽ thấy thông báo ở đầu báo cáo cho biết Báo cáo này được dựa trên N% phiên.

Ở bên phải thông báo đó, bạn có thể chọn một trong hai tùy chọn để thay đổi kích thước lấy mẫu:

  • Chính xác hơn: sử dụng kích thước mẫu tối đa nhất có thể để cung cấp cho bạn kết quả thể hiện chính xác nhất tập dữ liệu đầy đủ của bạn
  • Phản hồi nhanh hơn: sử dụng kích thước lấy mẫu nhỏ hơn để cung cấp cho bạn kết quả nhanh hơn
Sampling controls: Greater precision or Faster response
Kiểm soát lấy mẫu.

Các báo cáo khác

Cách lấy mẫu hoạt động cho các báo cáo này không giống với cách hoạt động cho báo cáo mặc định hoặc truy vấn đặc biệt.

Báo cáo Kênh đa kênh và báo cáo Phân bổ

Giống như báo cáo mặc định, không lấy mẫu được áp dụng trừ khi bạn sửa đổi báo cáo, ví dụ: bằng cách thay đổi thời lượng xem lại, bằng cách thay đổi loại chuyển đổi được bao gồm hoặc bằng cách thêm phân đoạn hoặc thứ nguyên phụ. Nếu bạn sửa đổi báo cáo theo bất kỳ hình thức nào, kết quả lấy mẫu tối đa sẽ bao gồm 1 triệu chuyển đổi.

Báo cáo hình ảnh hóa luồng

Báo cáo hình ảnh hóa luồng (Luồng người dùng, Luồng hành vi, Luồng sự kiện, Luồng mục tiêu) được tạo từ tối đa là 100 nghìn phiên cho phạm vi ngày đã chọn.

Các báo cáo hình ảnh hóa luồng, bao gồm tỷ lệ truy cập, tỷ lệ thoát và tỷ lệ chuyển đổi có thể khác với các kết quả trong báo cáo Hành vi và báo cáo Chuyển đổi mặc định, do các báo cáo này được dựa trên một tập hợp mẫu khác.

Bộ lọc và phân đoạn

Analytics chuẩn và Analytics 360 lấy mẫu dữ liệu phiên ở cấp chế độ xem, sau khi các bộ lọc chế độ xem được áp dụng. Ví dụ: nếu bộ lọc chế độ xem bao gồm hoặc loại trừ số phiên, thì mẫu chỉ được lấy từ các phiên đó.

Analytics Chuẩn và Analytics 360 đều áp dụng các phân đoạn sau khi áp dụng bộ lọc báo cáo và sau khi lấy mẫu, điều này có nghĩa là một phân đoạn có thể bao gồm ít phiên hơn so với trong mẫu tổng thể.

Làm việc với kích thước mẫu

Sử dụng kiểm soát để chuyển đổi giữa kích thước lấy mẫu tối đa để có báo cáo chính xác hơn hoặc kích thước lấy mẫu nhỏ hơn để có phản hồi nhanh hơn cho truy vấn của bạn.

Để tránh lấy mẫu, bạn có thể sử dụng tùy chọn rút ngắn phạm vi ngày của báo cáo cho đến khi số phiên nằm dưới ngưỡng lấy mẫu, nếu khối lượng dữ liệu của bạn cho phép điều đó.

Nếu là người dùng Google Analytics 360, bạn có 2 tùy chọn khác để nhận báo cáo chưa được lấy mẫu:

* Nguồn: Google Analytics