餐饮业客流预测的深度联合模型

时间:2023-04-23 14:10:20 手机站 来源:网友投稿


打开文本图片集

【摘要】客流预测是餐饮行业的重要问题,然而其存在影响因子多、相关关系复杂、历史数据缺失等难题,要估计出较为准确的未来客流量并不容易。我们设计了一种深度神经网络模型,通过长短期记忆网络(LSTM)建模客流历史趋势等时序特征,通过深度神经网络(DNN)建模餐厅的静态属性和静态时空特征,并将两个网络结合,进行联合训练。基于(Holdings,2018)数据集上829家餐厅的历史客流和餐厅属性数据,我们建立了通用的的餐饮客流预测模型,可供餐饮企业在缺乏历史数据积累的情况下直接应用,模型在下一日客流预测问题上取得了较优的精度(MAPE=03611),对比常见的基线模型预测性能有显著提高;

【关键词】餐饮客流预测;深度学习;长短期记忆网络

未来客流预测对餐饮业的成本控制、供应链管理、服务质量保障等问题能够起到重要作用,而餐饮客流预测问题面临着一系列难点:首先,客流量的影响因子除餐厅自身属性(如品牌、菜系、价位、客户评价等)之外,还包括一系列时空特征,其中动态的时间序列特征包括历史客流趋势、近期节假日等,静态时空特征则包括餐厅的商圈、经纬度、周边的其它餐厅分布、当时是周几等;在与之类似的客流或销量预测等问题上,当前的统计学习方法往往只对其中某个维度进行建模,或是对几个维度使用不同模型分别建模:如(Ramos et al.,2015)使用状态空间模型和ARIMA模型预测零售业销量,使用历史销量的时间序列作为特征;(Aburto and Weber,2007)结合ARIMA和神经网络模型,利用商品历史销量进行供应链需求预测;(Sun et al.,2009)在时装零售领域使用极限学习机(ELM)利用商品自身属性来预测销量;(周健etal.,2014)在餐饮客流预测问题上,使用神经网络对一些静态特征(如当日天气、是否周末等)建模,同时在特定的场景下(节假日前后)使用马尔可夫链对客流时间序列建模,作为静态模型的补充。据我们当前所知,还没有一类方法能够在客流预测问题上同时建模餐厅的静态特征和时空特征;此外,对众多传统餐饮企业,尤其是中小企业,数据的缺失是客流预测问题的第二个难点:这些企业并没有足够历史统计数据的支持,难以训练出准确的预测模型。

本文中,我们针对上述的两个问题,基于深度学习技术提出了一个端到端的联合模型,能够同时建模餐厅的自身属性和动、静态时空特征,最大程度地拟合了客流量和众多影响因子的相关关系,同时数据集上基于829家餐厅的大量数据(而非具体的某个餐厅),训练了一个通用的客流预测模型,在此基础上只需要收集短期数据,即可直接应用到餐饮企业的实际运营中。

一、餐饮客流预测的深度联合模型

(一)模型定义

我们定义时刻t的客流特征向量为ct,其中各维度代表时间维度上不同特征的取值,如时刻t的客流量、天气、节假日情况等;定义某一家餐厅的静态属性向量为、,其中各维度代表该餐厅的自身属性以及静态时空特征,如价格、菜系、所在商圈、当日是周几等,定义我们需要预测的t+n时刻的客流量为yt+n,则模型可以定义为:

yt+n=f(s,ct,ct-1,…,ct-k

其中,k为模型的超参数,表示我们在预测客流量时最多考虑多少时间的历史数据。下面我们探讨模型拍勺具体形式。

(二)时间序列特征建模

在我们的数据集中,餐厅的历史时序特征包括:

基于近年来递归神经网络(RNNs)在序列建模上的巨大成功(LeCun et al.,2015),我们使用它来建立餐厅历史客流趋势的统计模型,考虑到餐饮业的客流趋势存在长期的变化规律(如受气候变化影响等),而原生的RNN模型存在“长期记忆问题”,即难以捕捉序列中较长间隔之前的数据对目标变量的效应,所以我们引入长短期记忆网络(LSTM)(Graves,1997),该模型通过遗忘/记忆机制缓解了长期记忆问题,能够更好地表达餐饮客流的长期变化规律,模型的具体结构如下:

其中,网络在时间步t的状态输出为:

ht=LSTM_CELL(ht-1,ct

(三)餐厅属性和静态时空特征建模在我们的数据集中,餐厅静态属性和静态时空特征包括:

由于这些特征与客流量间存在普遍的非线性关系,我们使用神经网络对它们进行建模,模型结构如下:

(四)特征嵌入

可以看到,不论在时间序列特征中,还是在餐厅的属性及静态时空特征中,均存在一些定类数据(如是否节假日、菜系、所在商圈等),这些特征必须转化为数值张量的形式,才能使用统计学习模型建模。这种轉化的传统方式是独热编码(one hotencoding),然而该方式有一些显著的不足,主要包括:1)特征泛化能力较差,独热编码无法表达特征不同取值间的关系;2)当特征取值很多时,编码后的特征向量维度过大,过多的特征难以使用统计学习模型进行有效学习,易陷入过拟合(overfitting)。基于以上考虑,我们使用另一种编码方式:特征嵌入(embedding),这种技术将定类特征的每一个取值映射为一个可学习的k维向量(k作为超参数),意图学习出该特征取值在连续特征空间中的隐藏含义。(Goo and Berkhahn,2016)的工作显示,定类变量的嵌入操作在多种模型上对模型预测性能都有显著提升。特征嵌入的形式化表示如下:

embedding(xi)=E[i]

其中,xi为定类特征x的第i个取值,E为可训练(与网络中其它参数一样通过梯度下降更新)的embedding矩阵,形状为(Dx,kx),其中Dx为特征x可能的取值数量,kx为嵌入向量的维数,即embedding操作等价于先给特征x的每个取值编码,然后在embedding矩阵中用特征编码作为索引,查询对应的嵌入向量。

(五)聯合模型

(Cheng et al.,2016)在推荐系统领域引入了deep and wide模型,给了我们较大的启发,该文章中指出,传统线性模型中,基于人工特征工程的稀疏交叉特征对特征交互作用的“记忆”能力虽然十分有效且可解释性较强,但是特征的进一步泛化所需的特征工程工作量很大,经济性较差;另一方面,深度神经网络能够自动学习到原始特征的复杂非线性关系,泛化性能较强,然而会存在“泛化过度”的问题,即可能无法学习到一些稀疏、高阶的特征组合的作用。针对这些问题,文章中引入了deep and wide模型,使用神经网络建模连续特征和离散特征的低维嵌入(embedding)向量,将网络的最后一个隐藏层的输出向量与其它人工特征工程产生的交叉特征向量连接,并再次通过一个线性层,最终通过神经网络(deep model)与线性模型(wide model)的联合训练,成功结合了线性模型结合人工特征以及深度神经网络结合原始特征两种建模方式的优势。

我们的场景与之有一定相似性,使用餐厅静态特征及其组合预估客流量,是一个典型的回归问题,我们可以使用特征嵌入(embedding)结合DNN加以建模,而历史客流属性则是一种序列特征,适合使用序列模型来建模,未来客流是在两类特征的共同作用下决定的,我们需要对这两类特征联合建模,以充分学习未来客流与特征间的关系。我们使用与wide and deepf相似的方式,先将原始特征通过一个嵌入层转化为张量形式,而后将历史客流特征通过LSTM网络,静态特征通过DNN网络,再讲LSTM网络最后一个时间步的输出与DNN网络最后一个隐藏层向量连接,最后通过一个线性层,输出客流量预测的估计值,实现时间维度特征与餐厅静态特征的联合训练,模型结构如下:

我们使用批量随机梯度下降训练网络的参数,并使用MSE(mean squired root)作为loss函数:

其中,y为一个批量样本的真实客流量向量,y为模型对该批样本客流量的估计值。

二、实验

(一)实验数据集和评价指标设置

实验数据来源于(Holdings,2018),包含829家餐厅自2016年1月1日到2017年4月22日的天级客流数据、以及餐厅的自身属性和空间属性;由于我们的目标是训练一个通用的客流预测模型,而非简单地实现某个指定餐厅的客流预测,所以我们取其中580家餐厅为训练集(70%)、249家(30%)为验证集,并在验证集上使用7天的客流数据作为特征,预测之后一天的客流量月J算MAPS(MeanAverage Percentage Error)作为评价指标:

(二)对照模型设置

我们引入几个常见的统训模型作为基线,包括时间维度的线性模型(LR1),餐厅属性的线性模型(LR2)、单一的LSTM时间序列模型(LSTM)、单一的餐厅属性神经网络模型(DNN),并称我们的模型为LSTM-DNN,与上述基线进行性能对照。

(三)实验结果

在这些实验结果上,我们可见得出一些结论:

(1)在时序特征的模型性能上,LSTM优于线性模型LR1。

b)在静态特征的模型性能上,DNN优于线性模型LR2。

c)我们提出的联合模型性能显著优于所有的基线模型。

(四)结论和后续工作

在餐饮客流预测问题中,我们结合长短时记忆网络和深度神经网络,对餐厅静态属性、空间数据与时序趋势特征进行了联合建模,较充分地拟合了影响客流量的众多因子,对比常见的基线模型得到了显著的预测精度提升。

目前我们的模型是对数据集中829家餐厅训练的通用模型,对模型的泛化能力要求很高,所以预测精度的绝对值在实际应用中还有一定提升空间,后续我们可对不同的应用场景做精细化的建模:对拥有充足历史数据积累的企业,可以对具体的餐厅做单独建模,对没有足够数据的企业,也可以先对餐厅进行聚类分析,对同类餐厅进行建模,则预测的绝对精度还可以进一步提高。

参考文献:

[1]周健,曹瑞霞,王兆卫.餐饮业短期客流量预测方法[J].同济大学学报(自然科学版),2014(42):493-498

[2]ABURTO L,WEBER R.Improved supply chain management based on hybrid demand forecasts[J].Applied Soft Computing,2007(7):136-144.

[3]CHENG H T,KOC L,HARMSEN J,et a1.Wide&Deep Learning for Recononender Systems,2016:7-10.

[4]GRAVES A.Long Short-Term Memory[J].Neural Computation,1997(9):1735-1780.

[5]GUO C,BERKHAHN F 2016.Entity embeddings of categorical variables[J].arXiv preprint arXiv,2016:1604,6737.

[6]LECUN Y,BENGIO Y,HINTON G.Deep learning[J].Nature,2015,521:436-144.

[7]HOLDINGS R.Recruit Restaurant Visitor Forecasting DatasegM].2018.https://www.kaggle.corn/c/recruit-restaurant-visitor-forecasting.

[8]RAMOS P,SANTOS N,REBELO R.Performance of state space and ARIMAmodels for consumer retail sales forecasting[J].Robotics and computer-integrated manufacturing,2015(34):151-163.

[9]SUN Z L,CHOI T M,AU K F,et a1.Sales forecasting using extreme learning machine with applications in fashion retailing[J].Decision Support Systems,2009(46):411-419.

推荐访问:客流 餐饮业 深度 模型 预测

版权声明 :以上文章中选用的图片文字均来源于网络或用户投稿 ,如果有侵权请立即联系我们 , 我们立即删除 。