您好,欢迎来到国评网,国内最权威专业性资讯平台! 帮助 | 设为首页 | 加入收藏
基于GA-BP神经网络的搜索引擎数据资产价值研究
作者:党雪宁1 李明1 文章来源:商展经济 浏览次数:3041  时间:2023/3/15 9:18:00 

导读:随着数字经济的发展,数据资产已发展成为一大经济产业,资产评估,资产评估公司,无形资产评估在互联网企业中发挥着极其重要的作用。本文通过对数据资产相关理论及评估方法的介绍,构建了GA-BP神经网络模型来评估数据资产,专利评估,评估公司,房地产评估,房地产评估公司并从多方面考虑数据资产的价值影响因素,将影响因素量化,研究选取了因素与预测价值之间的关系。采用遗传算法优化神经网络,解决了BP神经网络容易陷入局部极值点或最优点,精度难以达到标准、收敛速度较慢等问题。

近年来,互联网产业迅猛发展,数据资源比重不断提高,同时数据挖掘、数据分析技术的发展加快了数据资源价值的评估,从而能够最大程度地发挥数据资产的效用。数据资产评估研究存在数据资源庞大难以有效利用、数据资产不能合理评估造成互联网行业发展缓慢、数据资产本身特性造成评估困难等问题。因此,我们需要观察行业发展现状,充分考虑衡量数据资产价值的因素,构建适用于数据资产价值的评估模型,从而提高数据资产价值评估的精确性。

 

数据资产评估研究的理论基础

 

2.1 数据资产相关理论

 

孟小峰、慈祥(2013)[1]提出大数据具有规模大、多样性、高速性的特点;张兴旺等(2019)[2]认为数据资源经过加工处理实现价值增值后形成数据资产。具体特征包括:控制、可变现、可计量、可估值、可流通。基于此,将数据资产的特征归纳为非实体性、类型多样性、可变性、权属不清晰等四个方面。对不同行业来说,影响数据资产价值的因素也不同;黄萃(2014)[3]提出不同的定价策略及定价方法的选择会受到获取公共信息的目的、价值估算、成本及融资、市场竞争状况及社会信息公平等五个因素的影响;吴江(2015)在探讨数据交易时,数据产权、数据的有用性数据交易成

 

 

 

 

本、交易机制等会对数据资产价值造成影响。通过总结不同学者的观点,本文认为数据资产与质量、稀缺性、效用等息息相关。

 

2.2 GA-BP神经网络模型理论

 

BP神经网络由三部分构成,分别是输入层、隐藏层、输出层。神经网络的每一层由若干个神经元组成,神经元作为BP神经网络的感知器,经过激活函数的处理完成传播过程。BP神经网络由输入、权重、偏置、激活函数、输出等组成。BP神经网络包含正向传播和反向反馈。BP神经网络的正向传播通过激活函数来实现,将训练样本作为输入层,与权重计算加上偏置,经过激活函数的处理,得到的输出结果作为下一次节点的输入,将输出结果与期望值进行比较,结果达不到期望值,不断调整迭代得到满意的结果,将最终的结果进行测试,并应用于适用领域。

 

遗传算法优化BP神经网络分为BP神经网络结构确定、遗传算法优化和BP神经网络预测3个部分。其中,BP神经网络的结构确定部分根据拟合函数的输入输出参数个数确定BP神经网络结构,进而确定遗传算法个体的长度。遗传算法优化BP神经网络的权值和阈值,种群中的每个个体都包含一个网络所有的权值和阈值,每个个体通过适应度函数计算适应度值,遗传算法通过选择、交叉、变异操作找到最优的适应度值对应的个体。

 

 

基金项目:广西高校人文社会科学重点研究基地基金资助项目:“基于 GA-BP 神经网络的搜索引擎数据资产价值研究”。作者简介:党雪宁 (1997-),女,山西运城人,硕士研究生,研究方向:资产评估;

 

李明 (1977-),男,湖北宜昌人,副教授,研究方向:企业信息化与大数据应用,数据资产价值。

 

 

 

126 20231    www.szjjxsk.com

 

 

商展服务

 

 

 

数据资产评估研究案例分析

 

3.1 百度搜索引擎发展概况

 

百度公司于200011日由李彦宏携“超链分析”搜索引擎专利技术在中关村科技园创建,这一技术专利使百度成为国内高科技企业,掌握了世界尖端科学核心技术,也使中国跻身于全球包括美国、俄罗斯、韩国在内仅有的4个具有搜索引擎核心技术的国家之列。百度互联网服务用户达10亿,每天响应数十亿次搜索请求,已成为100余个国家和地区上网民众接收中文信息和服务的重要途径。

 

3.2 百度搜索引擎价值影响因素的探索

 

百度搜索引擎价值受网站内在技术、用户角度等多方面影响,通过搜索引擎统计网站,我们尽可能较多的搜集影响搜索引擎数据资产价值的因素,从网站了解到用户因素占了较大的部分,因此本文主要从用户角度出发对搜索引擎价值进行预测,以流量指标作为评价标准,选取浏览量、访客数、IP数、跳出率、平均访问时长、转换次数6个指标作为百度搜索引擎数据资产的价值影响因素。

 

3.3 百度搜索引擎数据来源及处理

 

本文将百度搜索引擎包括浏览量、访客数、IP数、跳出率、平均访问时长、转换次数6个指标作为百度搜索引擎数据资产的价值影响因素,将6个指标数值归一化处理作为神经网络输入层。搜集了百度搜索引擎一个月的股票单价,根据股票单价和股数计算预测值,将预测值作为神经网络输出层的训练样本,价值预测计算表达式如下:

 

V=C*(Smax+Smin)/2*T

 

其中:

 

V:百度搜索引擎市场价值;

 

C:百度搜索引擎价值预测当日股数;

 

Smax:百度日最高股价;

 

Smin:百度日最低股价;

 

T:美元与人民币换算汇率。

 

本文从百度统计网站统计了百度搜索引擎相关指标样本值,选取202110月—11月共计32天的数据,确定了3216个自变量样本数据和32个因变量数据值进行后续的处理。

 

3.4 神经网络结构设置

 

3.4.1 传递函数

 

神经网络的传递函数一般选purelintansiglogsig三种

 

传递函数,将其组合成9种不同形式,经过程序处理得到相对应的均方误差,均方误差越小,BP神经网络学习的效果最优,因此选择均方误差最小的tansigpurelin的组合作为神经网络的传递函数。

 

3.4.2 神经网络层数

 

神经网络隐藏层个数决定了其结构的复杂程度,本文

 

 

选择一个相同的网络结构,训练迭代50次,比较网络运行时间和结果精度,通过预测结果得出在误差百分比相近的情况下,双层网络结构均方误差和训练时间最为合适。

 

3.4.3 各层神经元节点数

 

本文选取了浏览量、访客数、IP数、跳出率、平均访问时长、转换次数6个指标作为神经网络输入层,即输入层神经元节点数为6。被解释变量为百度输出层节点数为1,表示百度搜索引擎数据资产的市值。神经元隐藏层节点的多少决定了神经网络模型拟合的效果,因此确定合适的隐藏层节点数至关重要。最优的隐藏层节点数确定方式公式如下:

 

 

 

其中:

 

l:隐藏层节点数;

 

:输出单元神经元数;

 

:输入单元神经元数;

 

a010的调节常数;

 

本文经过查阅相关文献及测试,将第一层隐藏层神经元个数设置为10,第二层神经元个数设置为1

 

3.4.4 学习率

 

本文将学习率初始值确定为0.001,在神经网络学习过程中,用梯度下降法不断调整,直至收敛达到局部最优,得到最终的学习率。

 

3.5 GA-BP神经网络研究过程

 

3.5.1 声明全局变量

 

(1)确定训练集输入数据p和训练集输出数据t

 

训练集输入数据选取样本数据中前29组数据,即确定一个629的矩阵p。训练集输出数据也就是预测的百度搜索引擎的市值,确定一个129的矩阵t

 

(2)输入层、隐藏层、输出层神经元的个数

 

输入神经元个数R=6,隐藏层神经元个数S1=10,输出神经元个数S2=1

 

(3)编码长度

 

S=RS1+S1S2+S1+S2

 

=610+101+10+1=81

 

3.5.2 数据归一化

 

根据归一化数学原理,在 M a t l a b R 2 018 a 中运用premnmx()函数进行初始数值的归一化。表达如下:

 

[pminpmaxptmintmaxt]=premnmx(pt);其中:

 

minpmaxp:训练集输入数据中的最大值和最小值;mintmaxt:训练集输出数据中的最大值和最小值。

 

3.5.3 确定种群个数并初始化种群

 

设定种群个数popu=50,初始化种群借用功能函数确定过程如下:

 

 

 

www.szjjxsk.com    20231   127

 

商展经济

 

 

 

function[solval] = gabpEval(soloptions)

 

global S

 

for i = 1S

 

x(i) = sol(i)

 

end

 

initPpp = initializega(popuaa,’gabpEval’,[][1e-6 1]) 得到一个维度为5081的矩阵。

 

3.5.4 权值和阈值编码

 

(1)Matlab中进行权值和阈值的初始化编码

 

W1 = zeros(S1R)

 

W2 = zeros(S2S1)

 

B1 = zeros(S11)

 

B2 = zeros(S21)

 

其中:

 

W1B1:输入层到隐藏层的权值和阈值;

 

W2B2:隐藏层到输出层的权值和阈值。

 

(2)神经网络训练过程中不断更新权值和阈值

 

W1(ik) = x(R*(i-1)+k)(i=1S2k=1S1)

 

B1(i1) = x((R*S1+S1*S2)+i)(i = 1S1)

 

W2(ik) = x(S1*(i-1)+k+R*S1)(i=1S2k=1S1)

 

B2(i1) = x((R*S1+S1*S2+S1)+i)

 

3.5.5 创建网络

 

我们用“tansig”“,purelin”函数创建神经网络:

 

net = new(minmax(p1)[S11],‘{tansig’,’purelin’},’

 

trainlm)

 

其中:输入层到隐藏层用‘tansig’函数,隐藏层到输出层

 

用‘purelin’函数。

 

3.5.6 设置训练参数

 

(1)设置训练迭代过程

 

net.trainParam.show = 10

 

(2)最大训练次数

 

net.trainParam.epochs = 2000

 

(3)训练要求精度

 

net.trainParam.goal = 1.0e-13

 

(4)学习率

 

net.trainParam.lr = 0.001

 

3.5.7 计算最优的权值和阈值

 

我们用W1W2分别代表两层神经元连接的权值,B1

 

B2代表与权值相对应的偏置。表达式如下:

 

[W1B1W2B2val] = gadecod(x)net.IW{11} = W1net.LW{21} = W2 net.b{1} = B1

 

net.b{2} = B2

 

 

通过运行上述程序,得到最优的权值和阈值如下:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

W2=[-0.1165 0.5853 0.5427 -0.0232 -0.2901 0.8966 -0.8430 0.0964 -0.0370 -0.0462]

B1=[-0.4374 -0.5340 0.5455 0.8378 -0.9290 -0.5974 0.5891 -0.1202 0.1376 -0.5295]

B2=0.0624

 

3.5.8 计算隐藏层和输出层的输出

 

A1表示隐藏层的输出,A2表示输出层的输出隐藏层tansig函数表达式为:

 

A1= 2(1+e-2x)-1

x=W1*p+B1

 

输出层purelin函数表达式为:

A2=W2*A1+B2

 

将上述计算的具体数值带入求解,即可得到输出层的输出值。

 

上述计算在Matlab中表示为:

A1 = tansig(W1*pB1)

A2 = purelin(W2*A1B2)

 

运行后得出:A1为由1-1组成的1029的矩阵,A2129的矩阵。

 

3.5.9 计算误差平方和

 

SE=(t-A2)2

 

Matlab中表示为:

 

SE=sumsqr(t-A2)

运行得误差平方和SE=5.7460*106

 

3.5.10 计算适应度值

 

val=1/SE

 

matlab中运行得val=1.7403*10-7,适应度值越小,说明寻出来的结果越好,因此用遗传算法优化神经网络评估出来的值是可信的。

 

研究成果分析

 

4.1 训练结果汇总

 

Matlab中用postmnmx()函数将输出的数据反归一化得到预测数据,同时输出测试数据作为真实值,表示如下:

 

c=postmnmx(s_gamint2maxt2)

 

得出的预测值和真实值汇总如表1所示。

 

 

128 20231    www.szjjxsk.com

 

 

                      商展服务

                         

    1 预测值和真实值对比     通过表1中预测值和真实值的比较,计算的误差百分比

                         

日期 预测值   真实值   误差 误差百分比    大部分在5%以内,说明GA-BP神经网络模型拟合效果良好,

                     

2021/10/8 409.8914 428.2587 18.3673  0.042888 预测的结果可信,因此用该模型预测的结果作为百度搜索引

                     

2021/10/11   441.8554 437.5283 4.3271   0.009890

                      擎数据资产的价值是可行的。

                     

2021/10/12   443.5899 438.4118 5.1781   0.011811

                         

                      4.2 训练结果分析

2021/10/13   417.9599 430.4183 12.4584  0.028945

                         

2021/10/14   451.3243 433.0428 18.2815  0.042216 根据设置的参数,在软件MATLABR2018a中进行模型

                     

2021/10/15   444.6391 434.4417 10.1974  0.023472 的构建和训练,得出遗传算法优化神经网络的预测值与实

                     

2021/10/18   413.7990 437.6657 23.8667  0.054532

                      际值效果如图1所示。

                     

2021/10/19   479.8507 476.2489 3.6018   0.007563

                         

2021/10/20   454.3540 449.3458 5.0082   0.011146    

                         

2021/10/21   478.4689 451.6408 26.8281  0.059401    

                         

2021/10/22   496.9727 466.6684 30.3043  0.064938    

                         

2021/10/23   494.9564 481.3363 13.6201  0.028296    

                         

2021/10/24   506.1251 481.6827 24.4424  0.050744    

                         

2021/10/25   492.1247 478.3122 13.8125  0.028878    

                         

2021/10/26   460.3265 457.3059 3.0206   0.006605    

                         

2021/10/27   447.5448 439.4556 8.0892   0.018407    

                         

2021/10/28   450.1030 465.8558 15.7528  0.033815    

                         

2021/10/29   448.9017 455.9440 7.0423   0.015446    

                         

2021/11/1 459.4552 448.8565 10.5987  0.023613    

                     

2021/11/2 443.0568 445.1129 2.0561   0.004619 1 GA-BP神经网络数据拟合图

                         

2021/11/3 452.4745 436.8397 15.6348  0.035791 1反映两种模型预测结果的大体走势,本文给出了

                     

2021/11/4 424.0457 447.3875 23.3418  0.052174

                         

                      GA-BP神经网络模型评估百度搜索引擎31组数据资产价值

2021/11/5 430.9524 429.4766 1.4758   0.003436

                     

2021/11/8 446.4969 443.6208 2.8761   0.006483 的预测值和真实值,因百度公司目前市场份额及财务状况较

                         

2021/11/9 446.4125 436.2669 10.1456  0.023255 为稳定,可将31组数据的平均值作为最终确定的搜索引擎

                     

2021/11/10   444.7964 437.1861 7.6103   0.017407 数据资产预测的价值,最终计算确定的百度搜索引擎数据

                     

2021/11/11   437.0812 439.7173 2.6361   0.005995

                      资产的价值为452.6万元。通过计算我们可以看出最终确定

                     

2021/11/12   446.0519 428.2335 17.8184  0.041609

                         

                      的预测值与真实值的平均值差值较小,说明模型训练的预

2021/11/15   477.3200 438.3388 38.9812  0.088929

                         

                      测值和真实值的曲线图的拟合效果较好,得出的结论真实可

2021/11/16   450.2530 482.4578 32.2048  0.066752

                     

2021/11/17   441.2974 453.3835 12.0861  0.026658 靠,具有较大的参考性。

                         

 

 

 

参考文献

 

孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169.

 

张兴旺,廖帅,张鲜艳.图书馆大数据资产的内涵、特征及其合理利用研究[J].情报理论与实践,2019,42(11):15-20.

 

黄萃,夏义堃.公共信息定价策略及影响因素分析[J].图书情报知识,2014(4):26-33.

 

吴江.数据交易机制初探:新制度经济学的视角[J].天津商业大学学报,2015,35(3):3-8+20.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

www.szjjxsk.com    20231   129

 

典型案例
超出诉讼请求的调解协议法…
[案情] 2001年10月,原告某镇文化广播站将改造花灯等工程承揽给被告李某。在承揽施工过程中,李…详细
杨海波等贩卖淫秽物品牟利…
一、基本案情   被告人:杨海波,男,25岁,黑龙江省武常市武常镇人,农民。因涉嫌贩卖淫…详细
丰田诉吉利一审判决书
 原告(日本)丰田自动车株式会社,住所地日本国爱知县丰田市丰田町1番地。   法定代表人…详细

地址:上海市浦东新区浦东大道2000号阳光世界大厦24C 电话:021-58361812 传真:021-58361812-830 E-mail:ca6com@163.com
copyright 2000-2013 in 国评网 技术支持:上海中迎网络   沪公网安备 31011502015387号