导读:随着数字经济的发展,数据资产已发展成为一大经济产业,资产评估,资产评估公司,无形资产评估在互联网企业中发挥着极其重要的作用。本文通过对数据资产相关理论及评估方法的介绍,构建了GA-BP神经网络模型来评估数据资产,专利评估,评估公司,房地产评估,房地产评估公司并从多方面考虑数据资产的价值影响因素,将影响因素量化,研究选取了因素与预测价值之间的关系。采用遗传算法优化神经网络,解决了BP神经网络容易陷入局部极值点或最优点,精度难以达到标准、收敛速度较慢等问题。
近年来,互联网产业迅猛发展,数据资源比重不断提高,同时数据挖掘、数据分析技术的发展加快了数据资源价值的评估,从而能够最大程度地发挥数据资产的效用。数据资产评估研究存在数据资源庞大难以有效利用、数据资产不能合理评估造成互联网行业发展缓慢、数据资产本身特性造成评估困难等问题。因此,我们需要观察行业发展现状,充分考虑衡量数据资产价值的因素,构建适用于数据资产价值的评估模型,从而提高数据资产价值评估的精确性。
数据资产评估研究的理论基础
2.1 数据资产相关理论
孟小峰、慈祥(2013)[1]提出大数据具有规模大、多样性、高速性的特点;张兴旺等(2019)[2]认为数据资源经过加工处理实现价值增值后形成数据资产。具体特征包括:控制、可变现、可计量、可估值、可流通。基于此,将数据资产的特征归纳为非实体性、类型多样性、可变性、权属不清晰等四个方面。对不同行业来说,影响数据资产价值的因素也不同;黄萃(2014)[3]提出不同的定价策略及定价方法的选择会受到获取公共信息的目的、价值估算、成本及融资、市场竞争状况及社会信息公平等五个因素的影响;吴江(2015)在探讨数据交易时,数据产权、数据的有用性数据交易成
本、交易机制等会对数据资产价值造成影响。通过总结不同学者的观点,本文认为数据资产与质量、稀缺性、效用等息息相关。
2.2 GA-BP神经网络模型理论
BP神经网络由三部分构成,分别是输入层、隐藏层、输出层。神经网络的每一层由若干个神经元组成,神经元作为BP神经网络的感知器,经过激活函数的处理完成传播过程。BP神经网络由输入、权重、偏置、激活函数、输出等组成。BP神经网络包含正向传播和反向反馈。BP神经网络的正向传播通过激活函数来实现,将训练样本作为输入层,与权重计算加上偏置,经过激活函数的处理,得到的输出结果作为下一次节点的输入,将输出结果与期望值进行比较,结果达不到期望值,不断调整迭代得到满意的结果,将最终的结果进行测试,并应用于适用领域。
遗传算法优化BP神经网络分为BP神经网络结构确定、遗传算法优化和BP神经网络预测3个部分。其中,BP神经网络的结构确定部分根据拟合函数的输入输出参数个数确定BP神经网络结构,进而确定遗传算法个体的长度。遗传算法优化BP神经网络的权值和阈值,种群中的每个个体都包含一个网络所有的权值和阈值,每个个体通过适应度函数计算适应度值,遗传算法通过选择、交叉、变异操作找到最优的适应度值对应的个体。
基金项目:广西高校人文社会科学重点研究基地基金资助项目:“基于 GA-BP 神经网络的搜索引擎数据资产价值研究”。作者简介:党雪宁 (1997-),女,山西运城人,硕士研究生,研究方向:资产评估;
李明 (1977-),男,湖北宜昌人,副教授,研究方向:企业信息化与大数据应用,数据资产价值。
126 2023年1月 www.szjjxsk.com
商展服务
数据资产评估研究案例分析
3.1 百度搜索引擎发展概况
百度公司于2000年1月1日由李彦宏携“超链分析”搜索引擎专利技术在中关村科技园创建,这一技术专利使百度成为国内高科技企业,掌握了世界尖端科学核心技术,也使中国跻身于全球包括美国、俄罗斯、韩国在内仅有的4个具有搜索引擎核心技术的国家之列。百度互联网服务用户达10亿,每天响应数十亿次搜索请求,已成为100余个国家和地区上网民众接收中文信息和服务的重要途径。
3.2 百度搜索引擎价值影响因素的探索
百度搜索引擎价值受网站内在技术、用户角度等多方面影响,通过搜索引擎统计网站,我们尽可能较多的搜集影响搜索引擎数据资产价值的因素,从网站了解到用户因素占了较大的部分,因此本文主要从用户角度出发对搜索引擎价值进行预测,以流量指标作为评价标准,选取浏览量、访客数、IP数、跳出率、平均访问时长、转换次数6个指标作为百度搜索引擎数据资产的价值影响因素。
3.3 百度搜索引擎数据来源及处理
本文将百度搜索引擎包括浏览量、访客数、IP数、跳出率、平均访问时长、转换次数6个指标作为百度搜索引擎数据资产的价值影响因素,将6个指标数值归一化处理作为神经网络输入层。搜集了百度搜索引擎一个月的股票单价,根据股票单价和股数计算预测值,将预测值作为神经网络输出层的训练样本,价值预测计算表达式如下:
V=C*(Smax+Smin)/2*T
其中:
V:百度搜索引擎市场价值;
C:百度搜索引擎价值预测当日股数;
Smax:百度日最高股价;
Smin:百度日最低股价;
T:美元与人民币换算汇率。
本文从百度统计网站统计了百度搜索引擎相关指标样本值,选取2021年10月—11月共计32天的数据,确定了3216个自变量样本数据和32个因变量数据值进行后续的处理。
3.4 神经网络结构设置
3.4.1 传递函数
神经网络的传递函数一般选purelin、tansig、logsig三种
传递函数,将其组合成9种不同形式,经过程序处理得到相对应的均方误差,均方误差越小,BP神经网络学习的效果最优,因此选择均方误差最小的tansig、purelin的组合作为神经网络的传递函数。
3.4.2 神经网络层数
神经网络隐藏层个数决定了其结构的复杂程度,本文
选择一个相同的网络结构,训练迭代50次,比较网络运行时间和结果精度,通过预测结果得出在误差百分比相近的情况下,双层网络结构均方误差和训练时间最为合适。
3.4.3 各层神经元节点数
本文选取了浏览量、访客数、IP数、跳出率、平均访问时长、转换次数6个指标作为神经网络输入层,即输入层神经元节点数为6。被解释变量为百度输出层节点数为1,表示百度搜索引擎数据资产的市值。神经元隐藏层节点的多少决定了神经网络模型拟合的效果,因此确定合适的隐藏层节点数至关重要。最优的隐藏层节点数确定方式公式如下:
其中:
l:隐藏层节点数;
:输出单元神经元数;
:输入单元神经元数;
a:0~10的调节常数;
本文经过查阅相关文献及测试,将第一层隐藏层神经元个数设置为10,第二层神经元个数设置为1。
3.4.4 学习率
本文将学习率初始值确定为0.001,在神经网络学习过程中,用梯度下降法不断调整,直至收敛达到局部最优,得到最终的学习率。
3.5 GA-BP神经网络研究过程
3.5.1 声明全局变量
(1)确定训练集输入数据p和训练集输出数据t
训练集输入数据选取样本数据中前29组数据,即确定一个629的矩阵p。训练集输出数据也就是预测的百度搜索引擎的市值,确定一个129的矩阵t。
(2)输入层、隐藏层、输出层神经元的个数
输入神经元个数R=6,隐藏层神经元个数S1=10,输出神经元个数S2=1。
(3)编码长度
S=RS1+S1S2+S1+S2
=610+101+10+1=81
3.5.2 数据归一化
根据归一化数学原理,在 M a t l a b R 2 018 a 中运用premnmx()函数进行初始数值的归一化。表达如下:
[p,minp,maxp,t,mint,maxt]=premnmx(p,t);其中:
minp,maxp:训练集输入数据中的最大值和最小值;mint,maxt:训练集输出数据中的最大值和最小值。
3.5.3 确定种群个数并初始化种群
设定种群个数popu=50,初始化种群借用功能函数确定过程如下:
www.szjjxsk.com 2023年1月 127
商展经济
function[sol,val] = gabpEval(sol,options)
global S
for i = 1:S
x(i) = sol(i)
end
initPpp = initializega(popu,aa,’gabpEval’,[],[1e-6 1]) 得到一个维度为5081的矩阵。
3.5.4 权值和阈值编码
(1)在Matlab中进行权值和阈值的初始化编码
W1 = zeros(S1,R);
W2 = zeros(S2,S1);
B1 = zeros(S1,1);
B2 = zeros(S2,1)
其中:
W1,B1:输入层到隐藏层的权值和阈值;
W2,B2:隐藏层到输出层的权值和阈值。
(2)神经网络训练过程中不断更新权值和阈值
W1(i,k) = x(R*(i-1)+k);(i=1:S2,k=1:S1)
B1(i,1) = x((R*S1+S1*S2)+i);(i = 1:S1)
W2(i,k) = x(S1*(i-1)+k+R*S1);(i=1:S2,k=1:S1)
B2(i,1) = x((R*S1+S1*S2+S1)+i)
3.5.5 创建网络
我们用“tansig”“,purelin”函数创建神经网络:
net = newff(minmax(p1),[S1,1],‘{tansig’,’purelin’},’
trainlm’);
其中:输入层到隐藏层用‘tansig’函数,隐藏层到输出层
用‘purelin’函数。
3.5.6 设置训练参数
(1)设置训练迭代过程
net.trainParam.show = 10;
(2)最大训练次数
net.trainParam.epochs = 2000;
(3)训练要求精度
net.trainParam.goal = 1.0e-13;
(4)学习率
net.trainParam.lr = 0.001
3.5.7 计算最优的权值和阈值
我们用W1、W2分别代表两层神经元连接的权值,B1、
B2代表与权值相对应的偏置。表达式如下:
[W1,B1,W2,B2,val] = gadecod(x);net.IW{1,1} = W1;net.LW{2,1} = W2; net.b{1} = B1;
net.b{2} = B2
通过运行上述程序,得到最优的权值和阈值如下:
W2=[-0.1165 0.5853 0.5427 -0.0232 -0.2901 0.8966 -0.8430 0.0964 -0.0370 -0.0462]
B1=[-0.4374 -0.5340 0.5455 0.8378 -0.9290 -0.5974 0.5891 -0.1202 0.1376 -0.5295]
B2=0.0624
3.5.8 计算隐藏层和输出层的输出
用A1表示隐藏层的输出,A2表示输出层的输出隐藏层tansig函数表达式为:
A1= 2⁄(1+e-2x)-1
x=W1*p+B1
输出层purelin函数表达式为:
A2=W2*A1+B2
将上述计算的具体数值带入求解,即可得到输出层的输出值。
上述计算在Matlab中表示为:
A1 = tansig(W1*p,B1);
A2 = purelin(W2*A1,B2);
运行后得出:A1为由1和-1组成的1029的矩阵,A2为129的矩阵。
3.5.9 计算误差平方和
SE=∑(t-A2)2
在Matlab中表示为:
SE=sumsqr(t-A2)
运行得误差平方和SE=5.7460*106。
3.5.10 计算适应度值
val=1/SE;
在matlab中运行得val=1.7403*10-7,适应度值越小,说明寻出来的结果越好,因此用遗传算法优化神经网络评估出来的值是可信的。
研究成果分析
4.1 训练结果汇总
在Matlab中用postmnmx()函数将输出的数据反归一化得到预测数据,同时输出测试数据作为真实值,表示如下:
c=postmnmx(s_ga,mint2,maxt2)。
得出的预测值和真实值汇总如表1所示。
128 2023年1月 www.szjjxsk.com
商展服务
表1 预测值和真实值对比 通过表1中预测值和真实值的比较,计算的误差百分比
日期 预测值 真实值 误差 误差百分比 大部分在5%以内,说明GA-BP神经网络模型拟合效果良好,
2021/10/8 409.8914 428.2587 18.3673 0.042888 预测的结果可信,因此用该模型预测的结果作为百度搜索引
2021/10/11 441.8554 437.5283 4.3271 0.009890
擎数据资产的价值是可行的。
2021/10/12 443.5899 438.4118 5.1781 0.011811
4.2 训练结果分析
2021/10/13 417.9599 430.4183 12.4584 0.028945
2021/10/14 451.3243 433.0428 18.2815 0.042216 根据设置的参数,在软件MATLABR2018a中进行模型
2021/10/15 444.6391 434.4417 10.1974 0.023472 的构建和训练,得出遗传算法优化神经网络的预测值与实
2021/10/18 413.7990 437.6657 23.8667 0.054532
际值效果如图1所示。
2021/10/19 479.8507 476.2489 3.6018 0.007563
2021/10/20 454.3540 449.3458 5.0082 0.011146
2021/10/21 478.4689 451.6408 26.8281 0.059401
2021/10/22 496.9727 466.6684 30.3043 0.064938
2021/10/23 494.9564 481.3363 13.6201 0.028296
2021/10/24 506.1251 481.6827 24.4424 0.050744
2021/10/25 492.1247 478.3122 13.8125 0.028878
2021/10/26 460.3265 457.3059 3.0206 0.006605
2021/10/27 447.5448 439.4556 8.0892 0.018407
2021/10/28 450.1030 465.8558 15.7528 0.033815
2021/10/29 448.9017 455.9440 7.0423 0.015446
2021/11/1 459.4552 448.8565 10.5987 0.023613
2021/11/2 443.0568 445.1129 2.0561 0.004619 图1 GA-BP神经网络数据拟合图
2021/11/3 452.4745 436.8397 15.6348 0.035791 图1反映两种模型预测结果的大体走势,本文给出了
2021/11/4 424.0457 447.3875 23.3418 0.052174
GA-BP神经网络模型评估百度搜索引擎31组数据资产价值
2021/11/5 430.9524 429.4766 1.4758 0.003436
2021/11/8 446.4969 443.6208 2.8761 0.006483 的预测值和真实值,因百度公司目前市场份额及财务状况较
2021/11/9 446.4125 436.2669 10.1456 0.023255 为稳定,可将31组数据的平均值作为最终确定的搜索引擎
2021/11/10 444.7964 437.1861 7.6103 0.017407 数据资产预测的价值,最终计算确定的百度搜索引擎数据
2021/11/11 437.0812 439.7173 2.6361 0.005995
资产的价值为452.6万元。通过计算我们可以看出最终确定
2021/11/12 446.0519 428.2335 17.8184 0.041609
的预测值与真实值的平均值差值较小,说明模型训练的预
2021/11/15 477.3200 438.3388 38.9812 0.088929
测值和真实值的曲线图的拟合效果较好,得出的结论真实可
2021/11/16 450.2530 482.4578 32.2048 0.066752
2021/11/17 441.2974 453.3835 12.0861 0.026658 靠,具有较大的参考性。
参考文献
孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169.
张兴旺,廖帅,张鲜艳.图书馆大数据资产的内涵、特征及其合理利用研究[J].情报理论与实践,2019,42(11):15-20.
黄萃,夏义堃.公共信息定价策略及影响因素分析[J].图书情报知识,2014(4):26-33.
吴江.数据交易机制初探:新制度经济学的视角[J].天津商业大学学报,2015,35(3):3-8+20.
www.szjjxsk.com 2023年1月 129
|