Cách chúng tôi cải thiện đáng kể chất lượng đề xuất trong bán lẻ ngoại tuyến

Chào mọi người! Tên tôi là Sasha, tôi là CTO & Đồng sáng lập tại LoyaltyLab. Hai năm trước, tôi và các bạn cũng như tất cả những sinh viên nghèo, buổi tối đi mua bia ở cửa hàng gần nhà nhất. Chúng tôi rất khó chịu khi nhà bán lẻ biết rằng chúng tôi đến mua bia lại không giảm giá khoai tây chiên hoặc bánh quy giòn, mặc dù điều này rất hợp lý! Chúng tôi không hiểu tại sao tình trạng này lại xảy ra và quyết định thành lập công ty riêng của mình. Chà, như một phần thưởng, hãy tự giảm giá cho mình vào thứ Sáu hàng tuần trên cùng những con chip đó.

Cách chúng tôi cải thiện đáng kể chất lượng đề xuất trong bán lẻ ngoại tuyến

Và tất cả đã đến mức tôi phải trình bày tài liệu về mặt kỹ thuật của sản phẩm tại NVIDIA GTC. Chúng tôi rất vui được chia sẻ công việc của mình với cộng đồng, vì vậy tôi đăng báo cáo của mình dưới dạng một bài báo.

Giới thiệu

Giống như những người khác khi bắt đầu cuộc hành trình, chúng tôi bắt đầu với cái nhìn tổng quan về cách tạo ra hệ thống gợi ý. Và kiến ​​trúc phổ biến nhất hóa ra lại là loại sau:
Cách chúng tôi cải thiện đáng kể chất lượng đề xuất trong bán lẻ ngoại tuyến

Nó bao gồm hai phần:

  1. Lấy mẫu các ứng cử viên cho đề xuất bằng mô hình đơn giản và nhanh chóng, thường là mô hình cộng tác.
  2. Xếp hạng các ứng cử viên có mô hình nội dung phức tạp và chậm hơn, có tính đến tất cả các tính năng có thể có trong dữ liệu.

Sau đây tôi sẽ sử dụng các thuật ngữ sau:

  • ứng cử viên/ứng cử viên cho lời đề nghị — một cặp sản phẩm người dùng có khả năng được đưa vào các đề xuất trong quá trình sản xuất.
  • trích xuất/trích xuất ứng viên/phương pháp trích xuất ứng viên - một quá trình hoặc phương pháp để trích xuất “các ứng cử viên được giới thiệu” từ dữ liệu sẵn có.

Bước đầu tiên thường liên quan đến việc sử dụng các biến thể khác nhau của lọc cộng tác. Phổ biến nhất - ALS. Điều đáng ngạc nhiên là hầu hết các bài viết về hệ thống gợi ý chỉ tiết lộ những cải tiến khác nhau đối với mô hình hợp tác ở giai đoạn đầu mà không ai nói nhiều về các phương pháp lấy mẫu khác. Đối với chúng tôi, cách tiếp cận chỉ sử dụng các mô hình cộng tác và nhiều cách tối ưu hóa khác nhau với chúng không mang lại chất lượng như chúng tôi mong đợi, vì vậy chúng tôi đã nghiên cứu cụ thể về phần này. Và ở cuối bài viết, tôi sẽ chỉ ra mức độ chúng tôi có thể cải thiện ALS, vốn là cơ sở của chúng tôi.

Trước khi chuyển sang mô tả cách tiếp cận của chúng tôi, điều quan trọng cần lưu ý là trong các đề xuất theo thời gian thực, khi điều quan trọng là chúng tôi phải tính đến dữ liệu xảy ra 30 phút trước, thực sự không có nhiều cách tiếp cận có thể hoạt động trong thời gian cần thiết. Tuy nhiên, trong trường hợp của chúng tôi, chúng tôi phải thu thập các đề xuất không quá một lần một ngày và trong hầu hết các trường hợp - mỗi tuần một lần, điều này cho chúng tôi cơ hội sử dụng các mô hình phức tạp và cải thiện chất lượng gấp nhiều lần.

Hãy lấy làm cơ sở những số liệu mà chỉ ALS hiển thị về nhiệm vụ trích xuất ứng viên. Các số liệu chính mà chúng tôi theo dõi là:

  • Độ chính xác - tỷ lệ ứng viên được chọn chính xác từ những ứng viên được lấy mẫu.
  • Thu hồi là tỷ lệ ứng viên xuất hiện trong số những ứng cử viên thực sự nằm trong khoảng mục tiêu.
  • Điểm F1 - Thước đo F được tính trên hai điểm trước đó.

Chúng tôi cũng sẽ xem xét các số liệu của mô hình cuối cùng sau khi đào tạo việc tăng cường độ dốc với các tính năng nội dung bổ sung. Ngoài ra còn có 3 số liệu chính ở đây:

  • Precision@5 - tỷ lệ phần trăm trung bình của các sản phẩm từ top 5 về mặt xác suất đối với mỗi người mua.
  • reply-rate@5 - chuyển đổi khách hàng từ ghé thăm cửa hàng sang mua ít nhất một ưu đãi cá nhân (5 sản phẩm trong một ưu đãi).
  • trung bình roc-auc trên mỗi người dùng - trung bình roc-auc cho mỗi người mua.

Điều quan trọng cần lưu ý là tất cả các số liệu này được đo lường trên xác thực chéo chuỗi thời gian, nghĩa là quá trình huấn luyện diễn ra trong k tuần đầu tiên và k+1 tuần được lấy làm dữ liệu kiểm tra. Do đó, những thăng trầm theo mùa có tác động tối thiểu đến việc giải thích chất lượng của các mô hình. Ngoài ra, trên tất cả các biểu đồ, trục hoành sẽ cho biết số tuần trong quá trình xác thực chéo và trục tọa độ sẽ cho biết giá trị của số liệu đã chỉ định. Tất cả các biểu đồ đều dựa trên dữ liệu giao dịch từ một khách hàng để việc so sánh giữa các khách hàng khác là chính xác.

Trước khi bắt đầu mô tả cách tiếp cận của mình, trước tiên chúng tôi xem xét đường cơ sở, đây là mô hình được đào tạo về ALS.
Chỉ số truy xuất ứng viên:
Cách chúng tôi cải thiện đáng kể chất lượng đề xuất trong bán lẻ ngoại tuyến

Số liệu cuối cùng:
Cách chúng tôi cải thiện đáng kể chất lượng đề xuất trong bán lẻ ngoại tuyến

Tôi coi tất cả việc triển khai thuật toán như một loại giả thuyết kinh doanh nào đó. Do đó, một cách đại khái, bất kỳ mô hình hợp tác nào cũng có thể được coi là một giả thuyết cho rằng “mọi người có xu hướng mua những gì những người tương tự như họ mua”. Như tôi đã nói, chúng tôi không giới hạn bản thân trong những ngữ nghĩa như vậy và đây là một số giả thuyết hoạt động tốt trên dữ liệu trong bán lẻ ngoại tuyến:

  1. Mà tôi đã mua trước đây.
  2. Giống loại mình mua trước đây.
  3. Khoảng thời gian mua hàng đã qua từ lâu.
  4. Phổ biến theo danh mục/thương hiệu.
  5. Mua hàng luân phiên các loại hàng hóa khác nhau từ tuần này sang tuần khác (chuỗi Markov).
  6. Các sản phẩm tương tự cho người mua, theo đặc điểm được xây dựng bởi các mô hình khác nhau (Word2Vec, DSSM, v.v.).

Trước đây bạn mua gì?

Phương pháp phỏng đoán rõ ràng nhất có tác dụng rất tốt trong lĩnh vực bán lẻ hàng tạp hóa. Ở đây chúng tôi lấy tất cả hàng hóa mà chủ thẻ khách hàng thân thiết đã mua trong K ngày qua (thường là 1-3 tuần) hoặc K ngày một năm trước. Chỉ áp dụng phương pháp này, chúng tôi thu được các số liệu sau:
Cách chúng tôi cải thiện đáng kể chất lượng đề xuất trong bán lẻ ngoại tuyến

Ở đây khá rõ ràng rằng khoảng thời gian càng dài thì chúng ta càng có nhiều khả năng nhớ lại và độ chính xác càng kém và ngược lại. Trung bình, “2 tuần qua” mang lại kết quả tốt hơn cho khách hàng.

Giống loại mình mua trước đây

Không có gì đáng ngạc nhiên khi đối với ngành bán lẻ tạp hóa, “những gì tôi đã mua trước đây” hoạt động tốt, nhưng việc chỉ trích xuất ứng viên từ những gì người dùng đã mua thì không hay ho lắm, vì nó khó có thể gây ngạc nhiên cho người mua với một số sản phẩm mới. Do đó, chúng tôi đề xuất cải thiện một chút phương pháp phỏng đoán này bằng cách sử dụng các mô hình cộng tác tương tự. Từ các vectơ mà chúng tôi nhận được trong quá trình đào tạo ALS, chúng tôi có thể nhận được các sản phẩm tương tự với những gì người dùng đã mua. Ý tưởng này rất giống với “video tương tự” trong các dịch vụ xem nội dung video, nhưng vì chúng tôi không biết người dùng đang ăn/mua gì vào một thời điểm cụ thể nên chúng tôi chỉ có thể tìm kiếm những video tương tự với những gì họ đã mua, đặc biệt là vì chúng tôi đã biết nó hoạt động tốt như thế nào. Áp dụng phương pháp này cho các giao dịch của người dùng trong 2 tuần qua, chúng tôi thu được các số liệu sau:
Cách chúng tôi cải thiện đáng kể chất lượng đề xuất trong bán lẻ ngoại tuyến

Здесь k — số lượng sản phẩm tương tự được truy xuất cho mỗi sản phẩm được người mua mua trong 14 ngày qua.
Cách tiếp cận này đặc biệt hiệu quả với khách hàng của chúng tôi, những người mà điều quan trọng là không đề xuất bất kỳ thứ gì đã có trong lịch sử mua hàng của người dùng.

Thời gian mua muộn

Như chúng tôi đã phát hiện ra, do tần suất mua hàng cao nên cách tiếp cận đầu tiên phù hợp với nhu cầu cụ thể của chúng tôi. Nhưng còn những mặt hàng như bột giặt/dầu gội/v.v. thì sao? Nghĩa là, với những sản phẩm khó có thể cần đến mỗi tuần hoặc hai tuần và các phương pháp trước đó không thể chiết xuất được. Điều này dẫn đến ý tưởng sau - đề xuất tính trung bình thời gian mua của từng sản phẩm cho những khách hàng mua sản phẩm nhiều hơn k một lần. Và sau đó trích xuất những gì người mua rất có thể đã dùng hết. Khoảng thời gian tính toán cho hàng hóa có thể được kiểm tra bằng mắt xem có phù hợp không:
Cách chúng tôi cải thiện đáng kể chất lượng đề xuất trong bán lẻ ngoại tuyến

Và sau đó chúng tôi sẽ xem xét liệu thời điểm kết thúc giai đoạn sản phẩm có nằm trong khoảng thời gian mà các đề xuất sẽ được đưa vào sản xuất hay không và lấy mẫu xem điều gì sẽ xảy ra. Cách tiếp cận có thể được minh họa như thế này:
Cách chúng tôi cải thiện đáng kể chất lượng đề xuất trong bán lẻ ngoại tuyến

Ở đây chúng ta có 2 trường hợp chính có thể xét:

  1. Có cần thiết phải lấy mẫu sản phẩm từ những khách hàng đã mua sản phẩm dưới K lần không?
  2. Có cần thiết phải lấy mẫu một sản phẩm nếu thời điểm kết thúc giai đoạn của sản phẩm đó trước thời điểm bắt đầu khoảng thời gian mục tiêu hay không.

Biểu đồ sau đây cho thấy kết quả mà phương pháp này đạt được với các siêu tham số khác nhau:
Cách chúng tôi cải thiện đáng kể chất lượng đề xuất trong bán lẻ ngoại tuyến
ft — Chỉ lấy những khách hàng đã mua sản phẩm ít nhất K (ở đây là K=5) lần
tm - Chỉ nhận những ứng viên nằm trong khoảng mục tiêu

Không có gì ngạc nhiên khi anh ấy có thể (0, 0) To nhất nhớ lại và nhỏ nhất chính xác, vì trong điều kiện này, hầu hết các ứng viên đều được lấy ra. Tuy nhiên, kết quả tốt nhất đạt được khi chúng tôi không lấy mẫu sản phẩm cho những khách hàng đã mua một sản phẩm cụ thể ít hơn k thời gian và trích xuất, bao gồm cả hàng hóa, thời điểm kết thúc của khoảng thời gian đó rơi vào khoảng thời gian mục tiêu.

Phổ biến theo danh mục

Một ý tưởng khá rõ ràng khác là lấy mẫu các sản phẩm phổ biến ở nhiều danh mục hoặc nhãn hiệu khác nhau. Ở đây chúng tôi tính toán cho mỗi người mua top-k danh mục/thương hiệu “yêu thích” và trích xuất “phổ biến” từ danh mục/thương hiệu này. Trong trường hợp của chúng tôi, chúng tôi sẽ xác định “yêu thích” và “phổ biến” theo số lần mua sản phẩm. Một ưu điểm nữa của phương pháp này là khả năng ứng dụng của nó trong trường hợp khởi động nguội. Tức là dành cho những khách hàng mua rất ít hoặc đã lâu không đến cửa hàng hoặc mới cấp thẻ khách hàng thân thiết. Đối với họ, việc dự trữ những mặt hàng được khách hàng ưa chuộng và có lịch sử sẽ dễ dàng và tốt hơn. Các số liệu kết quả là:
Cách chúng tôi cải thiện đáng kể chất lượng đề xuất trong bán lẻ ngoại tuyến
Ở đây con số sau từ “danh mục” có nghĩa là mức độ lồng nhau của danh mục.

Nhìn chung, cũng không có gì đáng ngạc nhiên khi các danh mục hẹp hơn đạt được kết quả tốt hơn vì chúng trích xuất các sản phẩm “yêu thích” chính xác hơn cho người mua hàng.

Mua luân phiên các hàng hóa khác nhau từ tuần này sang tuần khác

Một cách tiếp cận thú vị mà tôi chưa từng thấy trong các bài viết về hệ thống gợi ý là một phương pháp thống kê khá đơn giản và đồng thời hoạt động của chuỗi Markov. Ở đây, chúng tôi mất 2 tuần khác nhau, sau đó đối với mỗi khách hàng, chúng tôi xây dựng các cặp sản phẩm [mua trong tuần i]-[mua trong tuần j], trong đó j > i, và từ đây chúng tôi tính toán cho từng sản phẩm xác suất chuyển sang sản phẩm khác vào tuần sau. Tức là với mỗi cặp hàng hóa sản phẩm-sản phẩmj Chúng tôi đếm số lượng của chúng trong các cặp tìm thấy và chia cho số cặp, trong đó các sản phẩm là trong tuần đầu tiên. Để trích xuất ứng viên, chúng tôi lấy biên lai cuối cùng của người mua và trích xuất top-k các sản phẩm tiếp theo có nhiều khả năng nhất từ ​​ma trận chuyển tiếp mà chúng tôi nhận được. Quá trình xây dựng ma trận chuyển tiếp trông như thế này:
Cách chúng tôi cải thiện đáng kể chất lượng đề xuất trong bán lẻ ngoại tuyến

Từ các ví dụ thực tế trong ma trận xác suất chuyển tiếp ta thấy các hiện tượng thú vị sau:
Cách chúng tôi cải thiện đáng kể chất lượng đề xuất trong bán lẻ ngoại tuyến
Tại đây, bạn có thể nhận thấy những sự phụ thuộc thú vị được bộc lộ trong hành vi của người tiêu dùng: ví dụ: những người yêu thích trái cây họ cam quýt hoặc một nhãn hiệu sữa mà họ có khả năng chuyển sang loại khác. Cũng không có gì đáng ngạc nhiên khi những sản phẩm có tần suất mua lặp lại cao, như bơ, cũng kết thúc ở đây.

Các số liệu trong phương pháp với chuỗi Markov như sau:
Cách chúng tôi cải thiện đáng kể chất lượng đề xuất trong bán lẻ ngoại tuyến
k — số lượng sản phẩm được truy xuất cho mỗi sản phẩm đã mua từ giao dịch cuối cùng của người mua.
Như chúng ta có thể thấy, kết quả tốt nhất được hiển thị bằng cấu hình có k=4. Sự tăng đột biến trong tuần thứ 4 có thể được giải thích bằng hành vi theo mùa vào những ngày nghỉ lễ. 

Sản phẩm tương tự cho người mua, theo đặc điểm được xây dựng bởi các mô hình khác nhau

Bây giờ chúng ta đã đến phần khó khăn và thú vị nhất - tìm kiếm hàng xóm gần nhất dựa trên vectơ khách hàng và sản phẩm được xây dựng theo nhiều mô hình khác nhau. Trong công việc của chúng tôi, chúng tôi sử dụng 3 mô hình như vậy:

  • ALS
  • Word2Vec (Item2Vec cho các tác vụ như vậy)
  • DSSM

Chúng tôi đã xử lý ALS, bạn có thể đọc về cách nó học đây. Trong trường hợp Word2Vec, chúng tôi sử dụng cách triển khai mô hình nổi tiếng từ thị tộc. Bằng cách tương tự với các văn bản, chúng tôi định nghĩa lời đề nghị như một biên lai mua hàng. Do đó, khi xây dựng vectơ sản phẩm, mô hình sẽ học cách dự đoán cho sản phẩm trong biên nhận “ngữ cảnh” của nó (các sản phẩm còn lại trong biên nhận). Trong dữ liệu thương mại điện tử, tốt hơn nên sử dụng phiên của người mua thay vì biên nhận; những người từ Ozone. Và DSSM thú vị hơn để phân tích. Ban đầu, nó được những người ở Microsoft viết như một mô hình tìm kiếm, Bạn có thể đọc bài nghiên cứu gốc ở đây. Kiến trúc của mô hình trông như thế này:
Cách chúng tôi cải thiện đáng kể chất lượng đề xuất trong bán lẻ ngoại tuyến

Здесь Q - truy vấn, truy vấn tìm kiếm của người dùng, D[i] - tài liệu, trang internet. Đầu vào của mô hình lần lượt là các thuộc tính của yêu cầu và các trang. Sau mỗi lớp đầu vào có một số lớp được kết nối đầy đủ (perceptron đa lớp). Tiếp theo, mô hình học cách giảm thiểu cosin giữa các vectơ thu được ở các lớp cuối cùng của mô hình.
Các tác vụ đề xuất sử dụng kiến ​​​​trúc giống hệt nhau, chỉ thay vì yêu cầu thì có người dùng và thay vì các trang thì có sản phẩm. Và trong trường hợp của chúng tôi, kiến ​​trúc này được chuyển đổi thành như sau:
Cách chúng tôi cải thiện đáng kể chất lượng đề xuất trong bán lẻ ngoại tuyến

Bây giờ, để kiểm tra kết quả, vẫn còn phải đề cập đến điểm cuối cùng - nếu trong trường hợp ALS và DSSM, chúng tôi đã xác định rõ ràng vectơ người dùng, thì trong trường hợp Word2Vec, chúng tôi chỉ có vectơ sản phẩm. Ở đây, để xây dựng vectơ người dùng, chúng tôi đã xác định 3 cách tiếp cận chính:

  1. Chỉ cần cộng các vectơ, sau đó với khoảng cách cosine, chúng ta chỉ đơn giản tính trung bình các sản phẩm trong lịch sử mua hàng.
  2. Tổng hợp vectơ với một số trọng số thời gian.
  3. Cân hàng hóa có hệ số TF-IDF.

Trong trường hợp trọng số tuyến tính của vectơ người mua, chúng tôi tiến hành từ giả thuyết rằng sản phẩm mà người dùng mua ngày hôm qua có ảnh hưởng lớn hơn đến hành vi của anh ta so với sản phẩm mà anh ta đã mua sáu tháng trước. Vì vậy, chúng tôi xem xét tuần trước của người mua với tỷ lệ cược là 1 và điều gì xảy ra tiếp theo với tỷ lệ cược là ½, ⅓, v.v.:
Cách chúng tôi cải thiện đáng kể chất lượng đề xuất trong bán lẻ ngoại tuyến

Đối với các hệ số TF-IDF, chúng tôi thực hiện chính xác tương tự như trong TF-IDF đối với văn bản, chỉ khác là chúng tôi coi người mua là một tài liệu và séc là một lời đề nghị, tương ứng, từ đó là một sản phẩm. Bằng cách này, vectơ của người dùng sẽ chuyển sang hàng hiếm nhiều hơn, trong khi hàng hóa thường xuyên và quen thuộc đối với người mua sẽ không thay đổi nhiều. Cách tiếp cận có thể được minh họa như thế này:
Cách chúng tôi cải thiện đáng kể chất lượng đề xuất trong bán lẻ ngoại tuyến

Bây giờ chúng ta hãy nhìn vào các số liệu. Đây là kết quả của ALS:
Cách chúng tôi cải thiện đáng kể chất lượng đề xuất trong bán lẻ ngoại tuyến
Số liệu cho Item2Vec với các biến thể khác nhau của việc xây dựng vectơ người mua:
Cách chúng tôi cải thiện đáng kể chất lượng đề xuất trong bán lẻ ngoại tuyến
Trong trường hợp này, mô hình tương tự được sử dụng như trong đường cơ sở của chúng tôi. Sự khác biệt duy nhất là chúng ta sẽ sử dụng k nào. Để chỉ sử dụng mô hình hợp tác, bạn phải lấy khoảng 50-70 sản phẩm gần nhất cho mỗi khách hàng.

Và số liệu theo DSSM:
Cách chúng tôi cải thiện đáng kể chất lượng đề xuất trong bán lẻ ngoại tuyến

Làm thế nào để kết hợp tất cả các phương pháp?

Bạn nói thật tuyệt, nhưng phải làm gì với một bộ công cụ trích xuất ứng viên lớn như vậy? Làm cách nào để chọn cấu hình tối ưu cho dữ liệu của bạn? Ở đây chúng tôi có một số vấn đề:

  1. Cần phải bằng cách nào đó giới hạn không gian tìm kiếm siêu tham số trong mỗi phương thức. Tất nhiên, nó rời rạc ở mọi nơi, nhưng số lượng điểm có thể có là rất lớn.
  2. Bằng cách sử dụng một mẫu giới hạn nhỏ các phương pháp cụ thể với siêu tham số cụ thể, làm cách nào bạn có thể chọn cấu hình tốt nhất cho số liệu của mình?

Chúng tôi vẫn chưa tìm thấy câu trả lời chính xác dứt khoát cho câu hỏi đầu tiên, vì vậy chúng tôi tiến hành như sau: đối với mỗi phương pháp, giới hạn không gian tìm kiếm siêu tham số được viết, tùy thuộc vào một số thống kê về dữ liệu chúng tôi có. Do đó, khi biết khoảng thời gian trung bình giữa các lần mua hàng của mọi người, chúng ta có thể đoán nên sử dụng phương pháp "những gì đã mua" và "khoảng thời gian mua hàng trong quá khứ" trong khoảng thời gian nào.

Và sau khi chúng tôi đã trải qua đủ số lượng biến thể nhất định của các phương pháp khác nhau, chúng tôi lưu ý những điều sau: mỗi lần triển khai sẽ trích xuất một số lượng ứng cử viên nhất định và có một giá trị nhất định của số liệu chính đối với chúng tôi (thu hồi). Chúng tôi muốn có tổng số lượng ứng viên nhất định, tùy thuộc vào khả năng tính toán cho phép của chúng tôi, với số liệu cao nhất có thể. Ở đây vấn đề được chuyển thành vấn đề về chiếc ba lô.
Cách chúng tôi cải thiện đáng kể chất lượng đề xuất trong bán lẻ ngoại tuyến

Ở đây số lượng ứng cử viên là trọng lượng của phôi và phương pháp thu hồi là giá trị của nó. Tuy nhiên, có 2 điểm nữa cần được tính đến khi triển khai thuật toán:

  • Các phương thức có thể có sự chồng chéo trong các ứng viên mà chúng truy xuất.
  • Trong một số trường hợp, sẽ đúng nếu lấy một phương thức hai lần với các tham số khác nhau và kết quả đầu ra ứng cử viên từ phương thức đầu tiên sẽ không phải là tập con của phương thức thứ hai.

Ví dụ: nếu chúng ta triển khai phương pháp “những gì tôi đã mua” với các khoảng thời gian truy xuất khác nhau, thì các tập hợp ứng cử viên của chúng sẽ được lồng vào nhau. Đồng thời, các tham số khác nhau trong “mua hàng định kỳ” ở lối ra không cung cấp giao điểm hoàn chỉnh. Do đó, chúng tôi chia các phương pháp lấy mẫu với các tham số khác nhau thành các khối sao cho từ mỗi khối chúng tôi muốn thực hiện tối đa một phương pháp trích xuất với các siêu tham số cụ thể. Để làm được điều này, bạn cần khéo léo một chút khi thực hiện bài toán về chiếc ba lô nhưng tiệm cận và kết quả sẽ không thay đổi.

Sự kết hợp thông minh này cho phép chúng tôi có được các số liệu sau so với các mô hình cộng tác đơn giản:
Cách chúng tôi cải thiện đáng kể chất lượng đề xuất trong bán lẻ ngoại tuyến
Trong số liệu cuối cùng, chúng ta thấy hình ảnh sau:
Cách chúng tôi cải thiện đáng kể chất lượng đề xuất trong bán lẻ ngoại tuyến

Tuy nhiên, ở đây bạn có thể nhận thấy rằng có một điểm chưa được khám phá về các đề xuất hữu ích cho doanh nghiệp. Bây giờ chúng ta vừa học được cách dự đoán tốt những gì người dùng sẽ mua, chẳng hạn như vào tuần tới. Nhưng chỉ giảm giá cho thứ mà anh ấy sẽ mua thì không hay ho lắm. Nhưng thật tuyệt khi tối đa hóa kỳ vọng, chẳng hạn như các số liệu sau:

  1. Tỷ suất lợi nhuận/doanh thu dựa trên đề xuất cá nhân.
  2. Kiểm tra khách hàng trung bình.
  3. Tần suất truy cập.

Vì vậy, chúng tôi nhân xác suất thu được với các hệ số khác nhau và sắp xếp lại chúng để các sản phẩm ảnh hưởng đến các chỉ số trên sẽ đứng đầu. Không có giải pháp sẵn có nào cho cách tiếp cận nào là tốt nhất để sử dụng. Chúng tôi thậm chí còn thử nghiệm các hệ số như vậy trực tiếp trong quá trình sản xuất. Nhưng đây là những kỹ thuật thú vị thường mang lại cho chúng ta kết quả tốt nhất:

  1. Nhân với giá/lợi nhuận của sản phẩm.
  2. Nhân với biên nhận trung bình mà sản phẩm xuất hiện. Vì vậy, hàng hóa sẽ xuất hiện và họ thường lấy thứ khác.
  3. Nhân với tần suất truy cập trung bình của người mua sản phẩm này, dựa trên giả thuyết rằng sản phẩm này kích thích mọi người quay lại mua nó thường xuyên hơn.

Sau khi tiến hành thử nghiệm với các hệ số, chúng tôi thu được các số liệu sau trong sản xuất:
Cách chúng tôi cải thiện đáng kể chất lượng đề xuất trong bán lẻ ngoại tuyến
Здесь chuyển đổi sản phẩm tổng thể — tỷ lệ sản phẩm đã mua trong số tất cả các sản phẩm trong đề xuất mà chúng tôi đã tạo.

Người đọc chú ý sẽ nhận thấy sự khác biệt đáng kể giữa số liệu ngoại tuyến và trực tuyến. Hành vi này được giải thích là do không phải tất cả các bộ lọc động cho các sản phẩm có thể được đề xuất đều có thể được tính đến khi đào tạo mô hình. Đối với chúng tôi, đó là chuyện bình thường khi một nửa số ứng viên được tìm thấy có thể được lọc ra; đặc điểm này là điển hình trong ngành của chúng tôi.

Về mặt doanh thu, có câu chuyện sau đây, rõ ràng sau khi đưa ra đề xuất, doanh thu của nhóm thử nghiệm đang tăng trưởng mạnh, hiện mức tăng doanh thu trung bình với đề xuất của chúng tôi là 3-4%:
Cách chúng tôi cải thiện đáng kể chất lượng đề xuất trong bán lẻ ngoại tuyến

Tóm lại, tôi muốn nói rằng nếu bạn cần các đề xuất không theo thời gian thực, thì chất lượng có thể tăng lên rất nhiều trong các thử nghiệm trích xuất các ứng cử viên cho các đề xuất. Một lượng lớn thời gian dành cho thế hệ của họ giúp có thể kết hợp nhiều phương pháp tốt, tổng cộng sẽ mang lại kết quả tuyệt vời cho doanh nghiệp.

Tôi sẽ vui lòng trò chuyện trong phần bình luận với bất kỳ ai thấy tài liệu này thú vị. Bạn có thể đặt câu hỏi trực tiếp cho tôi tại điện tín. Tôi cũng chia sẻ suy nghĩ của mình về AI/khởi nghiệp trong kênh điện tín - Chào mừng :)

Nguồn: www.habr.com

Thêm một lời nhận xét