公众号
关注微信公众号
移动端
创头条企服版APP

时序数据升维,一场从0到1的数据革命

3084
中国焦点报 2022-06-13 15:27 抢发第一评


人类对人工智能的想象和探索,从未止步。


随着数据、算法、算力能力提升,人工智能的应用场景深入到生活的方方面面。我们在搜索引擎上输入关键词后,网页会自动匹配相关搜索内容;短视频App能根据我们的浏览习惯,推送相似的博主和场景;对着智能手机等移动终端喊话,便能调用相关功能,实现人机交互。


以人工智能为代表的数字化产业快速向前推进,产业数字化转型也成为不可逆的趋势,各行各业都在寻求与自身商业模式相匹配的AI大脑。AI决策能力,正是AI大脑的内核,它决定了AI解决方案的效率和可执行性。


image.png


AI决策由模型性能决定,而模型性能的好坏,离不开人工智能三驾马车的拉动——数据、算法、算力。其中,数据在模型搭建过程中起基础性作用,一个模型的优劣,百分之八十取决于数据和样本的维度,正如巧妇难为无米之炊。


因此,数据提升对于模型优化有着基础性、全局性的作用,而数据与模型也是AI系统的重要组成部分。目前,AI模型开发及应用难点,主要在于数据应用和算法创新上,其中,后者更多体现的是建模方法的适当性。


数据应用维度不足。从AI决策的模型发展现状来看,当前很多模型仅仅是基于二维的数据组织形式来构建,没有考虑到数据在完整周期中的时间节点变化。最终容易导致模型的辨识度、准确度、稳定性失衡,AI决策效果大打折扣。


例如,在视频推荐和电商推荐场景中,如果模型仅是在用户账户、行为属性、社交记录、交易结果等标准数据集上构建和优化,没有纳入用户在决策过程中的重要时间节点下的行为表现,可能就会使模型效果过于拟合,不能够精准地预判用户喜好以及交易风险控制。


一般来讲,二维数据的维度主要表现为样本维度和特征维度。样本维度常常为用户ID信息或者是订单编号,特征维度则为用户人口属性、行为属性、外部资信等信息。二维数据模式下,用户在每个时间点只对应一条变量。


回到实际业务场景,用户在不同的时间节点会呈现不同的行为表现,尽管这些表现强度存在差异化,但最终会反馈到行为特征上。如果把不同时间节点的用户特征行为差异,尽可能纳入建模过程,那么原有的一对一二维数据就延展至一对多的时间序列形式,也就是说把数据应用升维到样本维度、时间维度、特征维度的三维数据组织形式。


三维数据不仅能降低数据集特征不足的影响,而且能最大程度挖掘数据价值,增加特征数量,提升模型准确性。尤其是在业务数据获取时,外部资信等数据往往会遇到接入不确定因素,而内部数据数量和类型有限,并且利用程度趋于饱和。


但对于模型开发而言,更高的精准度和辨识度,要求引入更多维度的数据,挖掘数据规律,生成更多衍生变量。一旦无法从数量维度获取更多变量,那么只能从质量角度下功夫,向深度挖掘变量内部信息,其中一对多的时间序列角度的升维就是深挖数据信息的方法之一。


其实,数据升维可用于AI模型优化的场景非常多,例如在股票、基金的智能投顾业务中,AI模型的数据应用加入时间维度,与样本维度和个股、个基一起构成三维样本,便能把节点变量考虑在内,更加精准预判未来走势。


要想通过高维时序数据实现模型优化,仅停留在数据层面远远不够,还需对算法提升。决定模型好坏的剩下20%,正是建模方法的选择,而与高维时序数据处理相匹配的算法通常为基于神经网络算法的深度学习。


萨摩耶云为例,萨摩耶云基于深度学习框架,探索数据升维用于模型性能的提升,研发出适用于多行业和场景的AI解决方案,满足企业高效智能决策的需求。同时,这些端到端的云原生科技解决方案,以SaaS+aPaaS形式提供交付,通过双方系统对接实现信息实时交互,能为合作伙伴输出基于云的智能决策服务。


萨摩耶云首席科学家王明明谈到,更高维度的时序数据建模意味着对现有的业务数据的重新理解、更多的数据信息、更复杂的数据组织方式、更高的机器性能要求、存储要求以及模型上线要求。以高维时序数据为基础,施以神经网络来训练,加工多维变量特征,最终建立并优化模型的AI决策能力。


具体来看,作为机器学习的重要分支,神经网络是从数据中学习表示的一种新的方法,强调从连续地层中进行学习。在神经网络算法驱动下,模型可在同一时间共同学习所有表示层,可能包含数十个甚至上百个连续层,而其他机器学习方法往往仅仅学习一两层的数据表示。


神经网络在高维时序数据学习中,一方面通过渐进的、逐层式的方式形成越来越复杂的表示;另一方面,对渐进的表示共同进行学习,每一层的变化都需要同时考虑上下两层的需要。这意味着,循环神经网络引入状态变量时,能保存每个时刻的信息,并且与当前的输入共同决定此刻的输出。


从萨摩耶云的AI决策实践来看,萨摩耶云在模型搭建过程中,不仅考虑了以往的样本维度和特征维度,还把各时间节点的用户特征差异纳入考量,通过三维数据加工完善数据特征。在此基础上,萨摩耶云利用神经网络、深度学习,建立和训练模型,实现比常规模型更为高效的模型效果。


这对于提升模型的预判能力和精准度至关重要。就像阅读一段新闻,如果仅仅从每一个字、每一个词组来理解,很容易断章取义,无法真正明白新闻所指。但把新闻构成中的字词句连贯起来,并置于各个背景节点中,就可以理解新闻的准确意思。


当把基于神经网络等技术的AI模型,应用于实际业务场景之中,能进一步放大数据价值,帮助企业增强预测分析能力,提升精准营销、销售管理、供应链协作、结果预测、风险控制的效率,进而实现从经验决策到智能决策,达到降本增效的效果。


实验数据也表明,用神经网络的时间序列来做变量衍生,可以产生较为显著的变量增益效果,衍生变量可以直接用于其他传统方式的建模环节,同时也可扩充内部的衍生变量空间。当原始特征的区分能力得到提升,模型的区分效果也得到增强,最终强化AI模型性能。


作为领先的独立云服务科技解决方案供应商,萨摩耶云立足场景需求,深耕AI决策智能赛道,不断升级大数据、算法、模型策略和产品设计,为数字经济和企业数字化转型提供技术支撑。在此过程中,萨摩耶云不仅强化了自身核心自主竞争力,而且着眼数字中国全景,源源不断释放科技赋能的价值。






声明:该文章版权归原作者所有,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本网联系。
您阅读这篇文章花了0
转发这篇文章只需要1秒钟
喜欢这篇 0
评论一下 0
凯派尔知识产权全新业务全面上线
评论
试试以这些内容开始评论吧
登录后发表评论
凯派尔知识产权全新业务全面上线
阿里云创新中心
×
#热门搜索#
精选双创服务
历史搜索 清空

Tel:18514777506

关注微信公众号

创头条企服版APP