在线选品优化(Online assortment optimization)是近年来运营管理领域中备受关注的重要研究方向。其核心在于探讨平台如何从有限的产品库存中精心挑选出一组最优的产品组合(即“选品”),并将其推荐给随着时间陆续到达的多样化客户群体,以实现在特定时间段内的平台总收益最大化。众多现实场景,例如酒店预订、演出票销售以及短生命周期产品的推荐等,均可被建模为在线选品优化问题。然而,现有主流模型驱动方法(如离散选择模型)的模型假设通常存在局限性,与真实用户行为不符,且在相应的高维动态规划问题求解中计算代价显著。

图1 在线选品优化(以酒店预订为例)
为解决上述难题,西安交通大学管理学院智能决策与机器学习研究中心王尧教授与其硕士研究生李韬(现为香港科技大学博士生)、王晨浩(即将入职同济大学),联合美国纽约州立大学布法罗分校唐少杰(Shaojie Tang)教授和加拿大多伦多大学陈宁远(Ningyuan Chen)教授开展了全新的基于人工智能技术的研究策略,提出了一种无模型(Model-free)的深度强化学习(Deep reinforcement learning)方法。该方法通过使用一个特别设计的深度神经网络(DNN)来构建选品策略,并利用从历史交易数据构建的模拟器,通过优势演员-评论家(A2C)算法更新DNN的网络参数,以有效解决传统强化学习训练需要大量、甚至不切实际的交易数据的问题。

图2 本文构建的DNN架构
一系列合成数据与实际数据上的实验结果表明,与主流方法相比,所提方法能够显著提高长期收益,并且在各种实际条件下保持稳健性。研究还证明了新方法的灵活性,即可以进一步考虑客户属性以实现个性化策略,并且可通过在DNN的输入状态中增加历史销售信息,扩展至包含可重复使用产品的应用场景中。

图3 在Expedia实际数据集上的实验结果对比
上述研究成果以“基于深度强化学习的在线个性化选品推荐:一种数据驱动的方法”(Deep Reinforcement Learning for Online Assortment Customization: A Data-Driven Approach)为题,于2025年6月在运营管理领域顶级期刊《生产与运作管理》(Production and Operations Management)在线发表。李韬博士生、王晨浩博士为论文的共同第一作者,王尧教授为论文的通讯作者,西安交通大学管理学院为论文的第一完成单位与通讯单位。该研究得到了国家自然科学基金面上项目和国家社会科学基金重大项目的资助。
论文链接:https://journals.sagepub.com/doi/10.1177/10591478251351737