基于长短期记忆神经网络的罗非鱼生长预测模型

发布时间:2022-11-06 20:45:05 来源:网友投稿

摘要：【目的】通过测定吉富罗非鱼生长指标，建立其生长的长短期记忆神经网络（Long Short-term Memory neural network model，LSTM）模型，分析模型的拟合度和准确度，为罗非鱼的育种和养殖提供参考。【方法】以罗非鱼生长阶段的生长时间、投喂量及水槽编号3个指标数据作为输入量，通过Dropout和one-hot的方法建立LSTM模型。【结果】模型在训练开始后迅速下降，100次迭代左右，误差下降速度开始逐步减缓，在1000次迭代后，误差开始收敛，数值趋于稳定，稳定值误差在0.0036左右。训练完成的模型对测试集的预测结果相对误差随真实值变大而逐渐变小，真实值较大且稳定时，相对误差较小，整体拟合程度较好。【建议】生长预测模型满足基本生产需求的同时，需增加样本数据的记录采集，建立生长数据库；结合信息平台等技术获取多影响影子数据，增加输入变量，使模型更加完善合理；选择合适的模型，结合预测数据与生产，合理规划上市时间及安排投饲方案等，使养殖利益最大化。

关键词：罗非鱼；长短期记忆神經网络模型；生长模型；预测

中图分类号： S965.125 文献标志码：A 文章编号：2095-1191（2018）10-2110-07

0 引言

【研究意义】罗非鱼是世界上重要的养殖经济鱼类，是联合国粮农组织向世界推广的优良养殖品种。罗非鱼的品种繁多，其中吉富罗非鱼是由国际水生生物资源管理中心采用原产地品系和亚洲广泛养殖的罗非鱼品系选育培养出的品系。吉富罗非鱼凭借其较快的生长速度、较高的抗病能力和肉质细嫩、味道鲜美且易于饲养的特点，已成为世界罗非鱼养殖中的主要品系之一。近年来，随着我国罗非鱼整体养殖面积的扩大、单位养殖密度的增加及养殖技术的不断提高，使得罗非鱼的产量获得了巨大增长，随之而来的是罗非鱼价格受市场波动的影响较大。有效的生长预测模型可在一定程度上预测规划罗非鱼的上市时间，并为养殖实践提供指导，从而提高养殖效益。【前人研究进展】目前吉富罗非鱼的生长模型主要以传统的生物数学模型为基础，通过已有的生长数据进行回归分析拟合，从而建立生长模型。罗非鱼生长模型可用于描述罗非鱼生长过程，反映鱼体生长规律。唐章生等（2011）对网箱养殖环境下的吉富罗非鱼采用Von Bertalanffy方程（VB GF）、逻辑斯谛方程（Logistic GF）、Gompertz方程（Gom-pertz GF）和灰色动态方程（GD GF）4种生长模型进行生长拟合，结果表明VB GF生长模型对吉富罗非鱼体重生长的拟合效果最好，而Gompertz GF生长模型对吉富罗非鱼体长生长的拟合效果最好。肖俊等（2012）研究表明Logistic、Gompertz和Von Bertallanffy 3种非线性模型对尼罗罗非鱼生长曲线拟合程度较好。陈倩等（2017）采用Logistic和Gompertz模型对吉富罗非鱼进行分析，测得鱼体生长与放养规格和密度之间的相关性。人工神经网络（Artificial neural network， ANN）由美国心理学家W. S. McCulloch和数学家W. H. Pitts在1943年开始提出并研究。神经网络采用仿生式神经元的思维逻辑方式研究客观事物的规律，因其具有独特的结构及处理信息的方法，使其在许多实际应用中取得显著成效。李新年等（2016）将反向传播神经网络（Back Propagation neural network，BP神经网络）结合正交试验改进了罗非鱼鱼皮胶原蛋白的提取工艺。Hochreiter和Sch-midhuber结合递归神经网络（Recurrent Neural Ne-tworks，RNN）于1997年最早提出长短期记忆神经网络（Long Short-term Memory neural network model， LSTM）的概念并建立模型。Goltsev和Gritsenko（2012）提出特征选择方法，大幅度提升神经网络在模式识别的准确度。Wang等（2015）将局部估计和全局搜索整合，使神经网络在显著性分析领域的作用提升。【本研究切入点】目前，国内针对罗非鱼生长模型的研究以传统统计回归模型居多，多局限于Von Bertallanffy、Logistic和Gompertz等，而关于生长预测方面的神经网络模型研究鲜见报道。【拟解决的关键问题】通过测定吉富罗非鱼生长指标，建立其生长的神经网络模型，分析模型的拟合和准确度，为罗非鱼的育种及养殖提供参考。

1 材料与方法

1. 1 试验材料

试验在无锡市中国水产科学研究院淡水渔业研究中心南泉实验基地进行。试验对象为产自江苏无锡宜兴市淡水苗种厂的吉富罗非鱼苗，共15000尾；初始平均体长61.0±10.0 mm，初始平均全长73.0±15.0 mm，初始体重3.3±1.0 g 。

1. 2 试验方法

1. 2. 1 试验设计养殖环境为池塘内的跑道式循环水槽，将鱼苗平均分成3组，每组5000尾，分别放养到3条流水循环水槽中，每条水槽的面积为27 m2（长×宽为9 m×3 m），养殖期间平均水深1.7 m，养殖密度109尾/m3。水槽内水流速从高到低分为3个档位，分别对应3条水槽编号1、2和3，试验期间，3条水槽的试验条件管理水平（除流速外）及投喂量完全一致。于2017年6月15日放苗，养殖期间投喂全熟化膨化饲料，投料方式为全自动化定时投料，投料量视鱼的生长阶段而变化。鱼苗和鱼种阶段每日投喂5次，日投喂量为体重的3%～5%；成鱼阶段每日投喂3次，日投喂量为体重的2%～4%（赵美娜等，2017）。每次投喂量相同；投喂时间：鱼苗期间7：00、10：00、13：00、16：00和19：00；成鱼阶段7：00、11：00和16：00。

1. 2. 2 数据采集试验数据包括环境数据和鱼体数据。环境数据通过全时水质传感器获取，包括水温、溶解氧和氧分压等，传感器通过ZigBee及PLC将数据上传至远程服务器中，可直接从远程服务器中调用数据作为试验数据。鱼体数据通过定期采样获得，从放苗后第3 d（6月18日）起至10月21日止，每隔3 d从3条水槽分别随机捕获30尾，分别用游标卡尺和电子天平对鱼体的体重、体长和全长进行测量。测量结果显示，相同水槽内个体的相关测量数据均无明显差异，故均采用每次采样数据的均值建立模型。

1. 3 数据预处理

1. 3. 1 标准化处理模型的输入量有3个，即生长时间（d）、投喂量（kg）和水槽编号；输出量有2个，即体长（cm）和体重（g）。本研究中使用Sigmoid激励函数，需将数据处理转化在激励函数敏感区间内才能有效发挥激励函数的作用，故调用MinMaxScaler函数将投喂量和积温标准化为[0，1]的数值。

1. 3. 2 离散变量转换由于试验中的输入量含有离散型特征向量，将非连续向量直接输入模型会影响模型预测的准确性，且降低学习效率，故采用热编码（one-hot）进行数据处理。水槽编号是离散非连续性特征，故先将水槽编号进行热编码处理。one-hot表达方式即将需要处理的数据进行特征提取，通过提取后的特征数量构建一个高维向量来表示，特征的数量与高维向量的维度相同。高维向量中元素是对特征的索引，只对其代表的特征有意义，其他特征所对应的元素为0，代表特征对应的元素为1；本研究中的3条水槽分别对应3个特征，将其编号1、2和3，进行one-hot转换如下：

[123 one-hot 100010001][123 one-hot 100010001]

1. 4 模型建立

1. 4. 1 LSTM LSTM由RNN变化发展而来，LSTM增加细胞记忆单元（Cell）概念。Cell在接收输入数据时具有选择性，通过Sigmoid激励函数控制状态和信息进入Cell，当函数的输出为1时，Cell完全接受信息，当函数的输出值为0时，Cell则选择遗忘上个状态（蒋昂波和王维维，2018）。上述有效信息的传入，避免一些无效信息影响训练过程。

1. 4. 2 Dropout 神经网络在正向训练过程中，每个神经元的输出对下一层的输入均有一定影响，如果某一神经元出现较大的参数波动会直接影响中间变量的值，整个模型对与单个神经元出现过度依赖的现象，因此引入Dropout方法。Dropout是每批次在向前训练过程中，随机抛弃一定比例的神经元，使得训练的随机性提高，减少对单个神经元的依赖性。神经元的组合是随机，其总个数及每次参与训练的神经元个数不变。试验表明，在输入样本较少的情况下，Dropout可有效减少训练过程中的过拟合现象。

1. 4. 3 模型结构及参数如图1所示，遗忘门筛选输入数据，并将其传递给输入门；输入门选择更新输入变量的值，并继续传递至输出门；输出门将选择后的新变量整合，更新Cell的状态，状态更新方式可加速训练过程，使得干扰降低，训练速度加快，同时可有效减小传统RNN的梯度距离依赖问题。

在t时刻状态下，LSTM中Cell状态的更新公式（吴建华等，2002；Priel and Kanter， 2003）如下：

ft=σ（Wfxt+Vfht-1+bf）

it=σ（Wixt+Viht-1+bi）

ot=σ（Woxt+Viht-1+bo）

Ct=fiCt-1+it tanh（Wcxt+Vcht-1+bc）

式中，遺忘门、输入门、输出门的输出分别为ƒt、it和οt；Cell和上一时刻神经网络的输出为Ct和ht-1；W和V表示权重矩阵，b为偏置向量。建立双LSTM层的神经网络模型，模型参数设置如表1。

1. 5 统计分析

采用Python数据分析模块numpy和pandas对采集的数据进行初步转换。神经网络构建采用Keras 2.0，Keras的后台是Tensorflow，输出的数据调用tensorboard及Python的matplotlib模块进行绘制和可视化分析。

2 结果与分析

2. 1 流速对罗非鱼生长的影响

表2显示了3条不同流速水槽间的数据差异性检验结果，F>F-crit，3组数据间差异不显著（P>0.05），表明试验中流速梯度的差异对罗非鱼生长无显著影响。

2. 2 模型的稳定性与准确性

如图2所示，随着训练迭代次数增加，预测准确性逐渐提高，输出数据与真实值的拟合程度同时提高，误差快速下降，在100次迭代左右，误差下降速度开始逐步减缓，在1000次迭代之后开始收敛，数值趋于稳定，稳定值约0.0036。模型具体预测值与实际测量值的误差比较如表3所示，其中，均方误差（MSE）为37.89，均方根误差（RMSE）为6.16，平均绝对偏差（MAE）为4.92。由图3直观可见，训练后的模型准确性受输入数据影响很大：输入数据较小时，模型预测结果与测量值之间相对误差偏大，且在图3的前半段体现出较大程度波动；随着输入数值增长，误差开始收敛，模型预测值残差与测量值间相对误差逐渐减小且趋于稳定，此时能够较好反映罗非鱼的生长状态。

图4为神经网络模型在训练集上的反向传递训练过程，4张图片分别表示500、1000、1500和3000次迭代后反向训练曲线。由图4-A可看出，在训练初期反馈阶段的500迭代时模型拟合程度，模型返回值与测量值间的距离较大，模型较保守，权重分配距离初始值比较接近，模型整体波动幅度不大；随着迭代次数的增加，模型反向传播数据不断累积，神经元间的权重分配逐渐稳定，模型返回值与测量值的拟合程度进一步提高，由图4-D可看出，3000次迭代之后模型反向传播的相对误差逐渐收敛趋于稳定。

图5为模型测试集中正向拟合过程，随着迭代次数增加，模型的准确度逐渐提高。在迭代次数较少的阶段，预测值接近于线性，且水平角度较小，拟合程度低；随着训练的进行，反馈数据传递使得模型中神经元间连接权重进行修正，误差方程促使模型开始进一步训练，最终在迭代3000次左右，权重趋于稳定，平均误差逐步收敛，模型预测值与测量值间的拟合程度也较好。

2. 3 与传统预测模型的对比

图6显示了Gompertz、Logistic和Von Bertallanffy 3种非线性数学模型对试验数据的拟合曲线，表4为模型整体拟合度。3种模型均能在不同程度上反映罗非鱼的生长状态。结合图6和表4分析每条曲线的增长趋势及模型：Gompertz模型在数据前段拟合值高于测试数据，中段略低于测试数据，调整R2为0.9662，较其他模型偏低，同时均方根误差明显大于其他两种数学模型，且在拟合准确度上偏离较大；Von Bertallanffy和Logistic模型的调整R2均在0.9900以上，拟合程度较好，且均方根误差较小，可以很好地反映罗非鱼的生长状态。

由表4可知， Logistic模型均方根误差为12.39，Von Bertallanffy模型均方根误差为11.39，而由表3可知LSTM神经网络模型的均方根误差仅为3.6964，从而得出LSTM神经网络模型在本研究中的稳定性最好，相对偏离程度明显低于其他两种模型。LSTM神经网络由于没有进行公式系数拟合推导，故无法得到如3种非线性数学模型中A、B、K的数值，所以无法绘制拟合方程，不能象传统数学模型一样直观和解释。LSTM的系数数值以隐藏层中神经元权重存在，随着迭代的进行，权重也在不断改变，是一个动态变量，非固定值。

3 讨论

一个完整的生物体生长过程可近似用一条S曲线拟合表示，本研究所建立的神经网络模型和数学模型基本符合S生长曲线。在养殖初期模型预测误差较大，随着养殖过程的进行，鱼体各项指标数据有了一定程度的积累，可准确反映罗非鱼的生长特性。LSTM神经网络在面对大数据量时有优势，但面对数据样本较少时易出现过拟合现象，使得建立的模型难以收敛。在动物生长最优模型的研究上，不同物种或同一物种所得结果不完全相同，影响因素包括研究对象的生长环境及养殖模式等，且不同生长发育阶段也可能会呈现出不同的生长规律。在本研究阐述的3种数学模型中，Von Bertallanffy模型对吉富罗非鱼体重的拟合程度最好，模型预测均方根误差最小，预测值也与池塘循环水养殖经验值相接近，与唐章生等（2011）的研究结论相吻合；与之相似，霍堂斌等（2009）发现Von Bertallanffy模型同样能较好地反映白斑狗鱼的生长状态；陈倩等（2017）研究发现Gompertz和Logistic模型对网箱养殖下的吉富罗非鱼体长拟合度高，且曲线描述的体长瞬时增长速度变化趋势和拐点时间也符合吉富罗非鱼体长生长规律，并认为在大多数鱼类体长研究中适用；何小燕等（2011）、肖俊等（2012）研究发现Logistic模型相较于其他两个数学模型在大口黑鲈和尼罗罗非鱼的体重拟合预测上更加具有适用性。与本研究相对应的神经网络在生长模型上的应用多集中于植物及微生物方面，金星姬等（2008）研究发现BP神经网络能更准确地预测兴安落叶松天然林全林分的生长；吕永生等（2010）研究发现人工神经网络模型适用于航空配餐微生物的生长预测。本研究比较了传统数学与LSTM神经网络两类神经模型，结果发现LSTM神经网络同样适用于吉富罗非鱼的生长预测，并在体重拟合上优于传统数学模型。

随着人工神经网络理论的完善，一系列的神经网络模型相继被提出。LSTM神经网络在BP神经网络的基础上增加了时间因子。LSTM神经网络将训练数据输入，通过细胞记忆单元（Cell）将输出数据筛选重组，再通过神经元将信息赋予权重并向前传递，最后通过全连接层（Dense）进行整合输出（曹成远和吕强，2017）。输出值和真实值进行比较，在误差方程（loss function）的作用下，再反向传播到每层神经元间的连接权值，即完成一次神经网络权重的更新。在相同的试验数据下LSTM神经网络模型比Gompertz、Logistc和Von Bertallanffy模型拥有更好的拟合程度及更小的误差，在描述罗非鱼鱼体生长方面更加准确，此外，在生长模型构建过程中参数的选择初始化及更新与生物生长时间序列的加入都是LSTM神经网络模型相较于传统数学模型的优势。相较于递归神经网络RNN神经网络，LSTM神经网络可有效减小梯度信号的波动，减少梯度爆炸和梯度消失现象的发生，使得训练结果更容易收敛。

4 建议

LSTM神经网络模型能较好地描述和预测池塘循环水槽环境下罗非鱼的生长，可为罗非鱼的养殖提供参考。但随着各方面技术条件的不断发展，基于LSTM神经网络的特点及罗非鱼的养殖模式，模型仍有需要改进的地方：

（1）样本量数据的规模化记录。由于人工神经网络模型是基于大量数据和样本量的累计，样本量较少不能有效地进行拟合，本研究也发现在训练初期数据样本量较少的情况下模型的准确度较差。故在生产实践中应加强数据的采集与记录，大量数据可有效避免个别离散值对整体结果的影响，同时能体现出人工神经网络并行计算的优势。

（2）输入变量及影响因子的增加和多元化。随着养殖生产的需要，神经网络模型的输入量可增加，结合渔业信息云平台等新技术实时获取水中溶氧变化、水温等数据作为新的输入变量同时建立生长数据库，可更加全面地建立预测模型。

（3）科学规划罗非鱼的上市时间。通过选择合适的罗非鱼生长预测模型有效规划生产养殖，适当避开低价出鱼期，建立合理的投饲方案，提高鱼塘的科学管理程度，降低生產成本的同时使养殖利益最大化。

参考文献：

曹成远，吕强. 2017. 使用双向LSTM的深度神经网络预测蛋白质残基相互作用[J]. 小型微型计算机系统，（3）： 531-535. [Cao C Y， Lü Q. 2017. Using bidirectional LSTM deep neural network for protein residue contact prediction[J]. Journal of Chinese Computer Systems，（3）：531-535.]

陈倩，苏胜彦，刘思辰，叶伟，朱伟凡，袁新华. 2017. 不同放养规格和放养密度下吉富罗非鱼体长生长模型研究[J]. 江苏农业科学， 45（22）： 170-175. [Chen Q， Su S Y， Liu S C， Ye W， Zhu W F， Yuan X H. 2017. Study on growth model of GIFT Oreochromis niloticus under different sizes and stocking densities[J]. Jiangsu Agricultural Sciences， 45（22）： 170-175.]

何小燕，白俊杰，樊佳佳，李胜杰，刘小林. 2011. 大口黑鲈早期生长发育规律的研究[J]. 大连海洋大学学报， 26（1）： 23-29. [He X Y， Bai J J， Fan J J， Li S J， Liu X L. 2011. Analysis of fitting growth model in early stages of largemouth bass Micropterus salmoides[J]. Journal of Dalian Fisheries University， 26（1）： 23-29.]

霍堂斌，马波，唐富江，李喆，姜作发，蔡林钢，阿达克白克·可尔江，刘立志. 2009. 额尔齐斯河白斑狗鱼的生长模型和生活史类型[J]. 中国水产科学，16（3）： 316-323. [Huo T B，Ma B，Tang F J，Li Z，Jiang Z F，Cai L G， Adakbek·Kar Jan， Liu L Z. 2009. Growth models and life-history pattern of Esox lucius in Ertixhe River[J]. Journal of Fishery Sciences of China， 16（3）： 316-323.]

蒋昂波，王维维. 2018. ReLU激活函数优化研究[J]. 传感器与微系统，2（2）： 50-52. [Jiang A B， Wang W W. 2018. Research on optimization of ReLU activation function[J]. Transducer and Microsystem Technologies，2（2）： 50-52.]

金星姬，贾炜玮，李凤日. 2008. 基于BP人工神经网络的兴安落叶松天然林全林分生长模型的研究[J]. 植物研究， 28（3）：370-374. [Jin X J，Jia W W，Li F R. 2008. Whole stand growth model for natural Dahurian Larch forests based on BP ANN[J]. Bulletin of Botanical Research， 28（3）： 370-374.]

李新年，尚学峰，张玉苍，王江. 2016. BP神经网络结合正交试验优化海南‘罗非鱼’鱼皮提取胶原蛋白工艺[J]. 甘肃农业大学学报，51（6）：115-120. [Li X N， Shang X F， Zhang Y C，Wang J. 2016. Extraction optimization of co-llagen from tilapia fish skin by back propagation neural network and orthogonal design[J]. Journal of Gansu A-gricultural University， 51（6）：115-120.]

吕永生，钱吉生，韩建平，吴海磊，漆少廷，曲媛，李延平. 2010. 应用人工神经网络技术建立航空配餐微生物生长模型[J]. 食品科技，（4）：104-107. [Lü Y S，Qian J S， Han J P，Wu H L，Qi S T，Qu Y，Li Y P. 2010. Development of microbiological growth model for flight catering with the technology of artificial neural networks[J]. Food Science and Technology，（4）： 104-107.]

唐章生，林勇，杨慧赞，张永德，陈忠，黄姻，彭婷，张妍. 2011. 吉富罗非鱼生长模型研究[J]. 广东农业科学，38（18）： 104-107. [Tang Z S，Lin Y，Yang H Z，Zhang Y D，Chen Z，Huang Y，Peng T，Zhang Y. 2011. Growth model of GIFT strain tilapia（Oreochromis niloticus）[J]. Guangdong Agricultural Sciences， 38（18）： 104-107.]

吴建华，卢炎生，汪溢. 2002. 基于神经网络的树木生长预测[J].电力科学与技术学报，17（2）：28-30. [Wu J H， Lu Y S，Wang Y. 2002. Tree growth prediction based on neural network technology[J]. Journal of Electric Power Science and Technology，17（2）： 28-30.]

肖俊，凌正宝，唐瞻杨，罗永巨，郭忠宝，郭恩彦，严欣，张明，甘西. 2012. 尼罗罗非鱼（Oreochromts niloticus）生长相关分析及生长模型构建[J]. 海洋与湖沼，43（6）： 1272-1278. [Xiao J，Ling Z B，Tang Z Y，Luo Y J，Guo Z B，Guo E Y，Yan X，Zhang M，Gan X. 2012. Study on correlateon analysis and growth model in Nile tilapia Oreochromis niloticus[J]. Oceanologia et Limnologia Sinica， 43（6）： 1272-1278.]

趙美娜，赵早亚，孙彩云，李文笙. 2017. 投喂模式对吉富罗非鱼摄食和生长的影响[J]. 广东农业科学， 44（3）： 120-127. [Zhao M N，Zhao Z Y，Sun C Y，Li W S. 2017. Effects of feeding regime on food intake and growth of nile tilapia（Oreochromis niloticus）[J]. Guangdong Agricultural Sciences，44（3）： 120-127.]

Goltsev A，Gritsenko V. 2012. Investigation of efficient features for image recognition by neural networks[J]. Neural Networks，（28）： 15.

Hochreiter S，Schmidhuber J. 1997. Long short-term memory[J]. Neural Computation， 9（8）： 1735-1780.

Priel A， Kanter I. 2003. Time series generation by recurrent neural networks[J]. Annals of Mathematics and Artificial Intelligence， 39（3）： 315-332.

Wang L J，Lu H C，Ruan X，Yang M H. 2015. Deep networks for saliency detection via local estimation and global search[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition（CVPR）.doi：10.1109/CVPR.2015. 7298938.

（责任编辑邓慧灵）