Đo lường các yếu tố khiến độc giả trả phí để đọc The New York Times

*Một bài chia sẻ mang nhiều tính kỹ thuật trên trang blog Times Open vào tháng 11/2018 đã cho thấy tờ The New York Times tìm hiểu rất kỹ về các yếu tố làm nên thành công cho mô hình thu phí báo điện tử của mình. Bên dưới đây Blog ONE CMS sẽ giới thiệu lại bài viết này.

Đo lường các yếu tố khiến độc giả trả phí để đọc The New York Times

Hiểu được điều gì khiến người đọc thanh toán phí thuê bao không hề đơn giản. Mỗi độc giả trả phí tiềm năng đều tiếp xúc với những tin bài, quảng cáo và thông điệp khác nhau trên trang của The New York Times hoặc bên ngoài.

Tách bạch những yếu tố tác động này là nhiệm vụ quá khó, nhưng hiểu được sức mạnh của tin tức và yếu tố marketing là điều cần thiết khi xây dựng mô hình thu phí hiệu quả. Nếu chúng ta muốn chi tiền cho truyền thông và marketing hiệu quả, chúng ta cần định lượng hóa và hiểu được mỗi yếu tố kích ứng ảnh hưởng và tác động thế nào tới độc giả trả phí, cả trong và ngoài trang.

Phải có hẳn một chuyên ngành để giải quyết vấn đề này, với các giải pháp khác nhau từ phương pháp thống kê yếu tố thị trường (Marketing Mix Modeling - MMM), cho đến mô hình Attribution dựa trên theo dõi hành vi người dùng, cho đến các cuộc khảo sát. Tất cả những phương pháp này đều có khả năng lọc được ra thông tin cần thiết, nhưng mỗi phương pháp đều tiêu tốn nhiều thời gian và tiền bạc.

Khi làm việc với một bên bán hàng, một lượng thời gian và công sức kha khá sẽ phải bỏ ra để lấy dữ liệu, sàng lọc dữ liệu, xây dựng mô hình và cuối cùng mới là ra kết quả. Với những bước yêu cầu như vậy nên một mô hình chuẩn có thể mất vài tuần để hoàn thiện. Nhưng sẽ thế nào nếu The New York Times muốn phản ứng trước phản hồi của thị trường tức thời? Để giải quyết bài toán này, The New York Times quyết định xây dựng cơ sở hạ tầng mô hình MMM cho riêng mình.

Giải thích cụ thể hơn thì mô hình MMM là phương pháp tách biệt các yếu tố khiến độc giả trả phí; đó là mô hình theo dõi dữ liệu nhiều biến số theo thời gian. Ví dụ nếu chúng tôi muốn xac định mức độ hiệu quả của một chiến dịch quảng cáo trên truyền hình đối với hệ thống thu phí, The New York Times sẽ đo lường sự liên hệ giữa lịch sử phát trên truyền hình với số liệu thu phí sau khi gạn bỏ ra tác động của các chương trình khuyến mại, yếu tố thời vụ và các phương thức marketing khác.

Hiểu đơn giản, để biết được một kênh truyền thông ảnh hưởng tới kết quả thu phí như thế nào, cần phải xây dựng và định lượng các yếu tố một cách tổng thể. Phương pháp MMM dựa vào dữ liệu đầu vào và bỏ qua bất kỳ biến số quan trọng nào trong mô hình cũng đều có thể làm sai lệch kết quả. Xây dựng một mô hình MMM phản ứng nhanh đòi hỏi tất cả dữ liệu tiềm năng trong tay và trong một môi trường dễ truy cập.

Quản lý dữ liệu

Tự xây dựng mô hình MMM trước hết có một cái hay, đó là hầu hết dữ liệu cần thiết để làm đều có thể được tìm thấy đâu đó trong hệ thống nội bộ. Tập hợp dữ liệu quan trọng nhất, dữ liệu theo dõi hành vi người dùng trên trang ví dụ như lượt đọc The New York Times đã có sẵn trên nền tảng đám mây Google Cloud Platform.

Trong khi tập hợp dữ liệu này có thể giúp chúng ta hiểu rõ yếu tố nào tác động đến việc thu phí, thì việc hiểu được tác động bên ngoài nào mang người đọc đến với trang báo cũng cực kỳ quan trọng. Hầu hết những dữ liệu này đều lấy được từ đối tác thứ ba như Facebook hay Google, nhưng về cơ bản đều chỉ được dùng bởi các đơn vị nghiên cứu và tiếp thị trong một môi trường biệt lập.

The New York Times biết khả năng truy cập dữ liệu là một trở ngại, vì vậy bước đi đầu tiên là xây dựng các giao diện lập trình ứng dụng (API) của nguồn dữ liệu bên ngoài để dẫn về kho đám mây. Nguồn dữ liệu này bao gồm:

+ Hiển thị và click trên công cụ search

+Quảng cáo hiển thị trên trang và ngoài trang

+ Hiển thị trên Facebook tự nhiên hoặc có trả phí

+ Hiển thị trên Twitter cùng các tương tác như thích, trả lời, đăng lại...

+ Lượng tải về của app

+ Lịch khuyến mãi

+ Yếu tố nền kinh tế

Kéo được hết những dự liệu này về nhà kho đám mây trung tâm định kỳ giúp The New York Times có được dữ liệu mình cần, nhưng như thế vẫn là ở các định dạng khác nhau nên không dẽ để tập hợp lại vào trong mô hình thống kê. Để giải quyết, chúng tôi dựa vào ngôn ngữ lập trình Python không chỉ để định dạng lại dữ liệu mà còn để giải những bài toán phức tạp mà từ đó có thể có thông tin quan trọng.

Khi chuẩn bị xây dựng một mô hình, nhiều bên cung cấp dữ liệu khác nhau thường hỏi chúng tôi cần dữ liệu gì, và chúng tôi thường thấy cần tất cả các dữ liệu. Khi hệ thống của chúng tôi nhận thấy một dữ liệu đầu vào là quan trọng (hoặc không quan trọng), thì chúng tôi cần nghiên cứu sâu hơn và lý giải yếu tố đằng sau dẫn tới kết quả đó.

Và để làm được điều đó chúng tôi cần tất cả các dữ liệu mô tả (metadata) xung quanh. Vì chúng tôi lưu trữ và xử lý dữ liệu với số lượng lớn các thành phần nên luôn có nguy cơ xử lý dữ liệu bị lỗi hoặc bỏ qua dữ liệu. Đó là lý do cần phải sàng lọc dữ liệu.

Sàng lọc dữ liệu

Bất kỳ mô hình toán kinh tế nào cũng chỉ hiệu quả nếu đầu vào tốt, vì dùng dữ liệu sai thì cũng chỉ có kết quả sai. Cách tiếp cận thông thường trong ngành này là kéo về từ mọi nguồn dữ liệu, xử lý và đánh giá dữ liệu, rồi cuối cùng chuyển lại cho bên có trách nhiệm và các chuyên gia để xac minh chất lượng của dữ liệu.

Việc gửi dữ liệu này tới các đối tác bên ngoài có thể tiêu tốn thời gian các bên liên quan, nhưng rất nhiều trở ngại có thể được loại bỏ khi phát triển hệ thống trong nội bộ. Để làm công việc này, chúng tôi tạo ra nền tảng báo cáo trên nền đám mây kết nối trực tiếp với kho BigQuery.

Điều đó giúp chúng tôi có dữ liệu dùng cho định hình mô hình và truyền tải trực tiếp đến đội ngũ phân tích của mình, những người có thể kiểm định mức độ chính xác của dữ liệu ngay khi dữ liệu được nạp vào từ các API. Quá trình sàng lọc dữ liệu vì thế là một quá trình hàng ngày giúp cho đội ngũ xử lý dữ liệu tập trung vào việc tạo dựng mô hình.

Mô hình hóa dữ liệu

Thông thường trong khoa học dữ liệu hoặc toán kinh tế, phần lớn thời gian xây dựng một mô hình thường nằm trong bước chuẩn bị trước khi bất kỳ mô hình thực tế nào ra đời. Chúng tôi đã thành công trong việc giảm thời gian dành cho xử lý dữ liệu bằng cách dùng công cụ Pandas.

Pandas có công cụ chuyển tiếp để kéo dữ liệu từ kho đám mây Google Cloud Platform dùng BigQuery, cho phép dữ liệu bơm từ BigQuery sang DataFrame (DataFrame của Pandas là công cụ mã nguồn mở mạnh có cấu trúc như Excel, hỗ trợ xử lý dữ liệu hiệu quả). Chúng tôi có thể chuyển dữ liệu đi và đến BigQuery chỉ bằng 3 dòng lập trình.

...

*Blog ONECMS sẽ còn cập nhật về mô hình đo lường kể trên như một thông tin hữu ích cho các tòa soạn báo điện tử.