logo

SCIENTIA SINICA Informationis, Volume 51 , Issue 5 : 764(2021) https://doi.org/10.1360/SSI-2019-0183

Sparsely connected asynchronous reservoir computing network

More info
  • ReceivedAug 26, 2019
  • AcceptedJan 9, 2020
  • PublishedApr 12, 2021

Abstract


Funded by

国家自然科学基金(21606256)


References

[1] Jaeger H. Harnessing Nonlinearity: Predicting Chaotic Systems and Saving Energy in Wireless Communication. Science, 2004, 304: 78-80 CrossRef PubMed ADS Google Scholar

[2] Maass W, Markram H. On the computational power of circuits of spiking neurons. J Comput Syst Sci, 2004, 69: 593-616 CrossRef Google Scholar

[3] Lymburn T, Khor A, Stemler T, et al. Consistency in echo-state networks. Chaos: An Interdisciplinary. J Nonlinear Sci, 2019, 29(2): 023118. Google Scholar

[4] Grigoryeva L, Ortega J P. Echo state networks are universal.. Neural Networks, 2018, 108: 495-508 CrossRef PubMed Google Scholar

[5] Ozturk M C, Xu D, Príncipe J C. Analysis and design of echo state networks.. Neural Computation, 2007, 19: 111-138 CrossRef PubMed Google Scholar

[6] Qiao J, Wang L, Yang C. Adaptive Levenberg-Marquardt Algorithm Based Echo State Network for Chaotic Time Series Prediction. IEEE Access, 2018, 6: 10720-10732 CrossRef Google Scholar

[7] Yang C, Qiao J, Ahmad Z. Online sequential echo state network with sparse RLS algorithm for time series prediction.. Neural Networks, 2019, 118: 32-42 CrossRef PubMed Google Scholar

[8] Holzmann G, Hauser H. Echo state networks with filter neurons and a delay&sum readout.. Neural Networks, 2010, 23: 244-256 CrossRef PubMed Google Scholar

[9] Jaeger H. Short-Term Memory in Echo State Networks. Technical Report no. 152. German National Research Center for Information Technology Bremen, 2002. Google Scholar

[10] Xu M, Yang Y, Han M. Spatio-Temporal Interpolated Echo State Network for Meteorological Series Prediction.. IEEE Trans Neural Netw Learning Syst, 2019, 30: 1621-1634 CrossRef PubMed Google Scholar

[11] Koprinkova-Hristova P, Stefanova M, Genova B. Features extraction from human eye movements via echo state network. Neural Comput Applic, 2019, 3 CrossRef Google Scholar

[12] Bo Y C, Zhang X. Online adaptive dynamic programming based on echo state networks for dissolved oxygen control. Appl Soft Computing, 2018, 62: 830-839 CrossRef Google Scholar

[13] Jordanou J P, Antonelo E A, Camponogara E. Online learning control with Echo State Networks of an oil production platform. Eng Appl Artificial Intelligence, 2019, 85: 214-228 CrossRef Google Scholar

[14] Xue Y, Yang L, Haykin S. Decoupled echo state networks with lateral inhibition.. Neural Networks, 2007, 20: 365-376 CrossRef PubMed Google Scholar

[15] Qiao J, Li F, Han H. Growing Echo-State Network With Multiple Subreservoirs.. IEEE Trans Neural Netw Learning Syst, 2017, 28: 391-404 CrossRef PubMed Google Scholar

[16] Koryakin D, Lohmann J, Butz M V. Balanced echo state networks. Neural Networks, 2012, 36: 35-45 CrossRef Google Scholar

[17] Gallicchio C, Micheli A, Pedrelli L. Design of deep echo state networks.. Neural Networks, 2018, 108: 33-47 CrossRef PubMed Google Scholar

[18] Gallicchio C, Micheli A. Richness of Deep Echo State Network Dynamics. In: Proceedings of International Work-Conference on Artificial Neural Networks, 2019. 480--491. Google Scholar

[19] McDermott P L, Wikle C K. Deep echo state networks with uncertainty quantification for spatio?temporal forecasting. Environmetrics, 2019, 30: e2553 CrossRef Google Scholar

[20] Gallicchio C, Micheli A, Silvestri L. Local Lyapunov exponents of deep echo state networks. Neurocomputing, 2018, 298: 34-45 CrossRef Google Scholar

[21] Ma Q, Zhuang W, Shen L. Time series classification with Echo Memory Networks.. Neural Networks, 2019, 117: 225-239 CrossRef PubMed Google Scholar

[22] Bo Y C, Zhang X, Liu B. Temporally segregated reservoir computing and its dynamics. Control Theory Appl, 2019, 36: 1316--1321. Google Scholar

[23] Erhan G, Fraenz C, Caroline S, et al. Diffusion markers of dendritic density and arborization in gray matter predict differences in intelligence. Nat Commun, 2018, 9: 1905. Google Scholar

[24] Rodriguez N, Izquierdo E, Ahn Y Y. Optimal modularity and memory capacity of neural reservoirs.. Network Neuroscience, 2019, 3: 551-566 CrossRef PubMed Google Scholar

[25] Yang C, Qiao J, Han H. Design of polynomial echo state networks for time series prediction. Neurocomputing, 2018, 290: 148-160 CrossRef Google Scholar

[26] Yang C, Zhu X, Ahmad Z. Design of Incremental Echo State Network Using Leave-One-Out Cross-Validation. IEEE Access, 2018, 6: 74874-74884 CrossRef Google Scholar

[27] Shi Z W, Han M. Ridge regression learning in ESN for chaotic time series prediction. Control and Decision, 2007, 22: 258--267. Google Scholar

[28] Moscovitch M, Cabeza R, Winocur G. Episodic Memory and Beyond: The Hippocampus and Neocortex in Transformation.. Annu Rev Psychol, 2016, 67: 105-134 CrossRef PubMed Google Scholar

[29] Jaeger H. The Echo State Approach to Analysing and Training Recurrent Neural Networks. Technical Report GMD Report 148, German National Research Center for Information Technology, 2001. Google Scholar

  • Figure 7

    (Color online) Testing results of (a) sparse NMA task and (b) traditional NMA task

  • Table 1   Change of ${\rm~MC}$ vs.number of sub-reservoirs
    $L=$ 2 $L=$ 4 $L=$ 6 $L=$ 8 $L=$ 10 $\Delta~{\rm~MC}$
    ${\rm~MC}~(D=0)$ $15.31\pm~0.55$ $16.53\pm~0.38$ $17.22\pm~0.50$ $17.65\pm~0.46$ $17.63\pm~0.56$ $0.46\pm~0.55$
    ${\rm~MC}~(D=1)$ $16.33\pm~0.29$ $22.09\pm~0.36$ $27.54\pm~0.29$ $32.88\pm~0.24$ $38.57\pm~0.58$ $2.84\pm~0.35$
    ${\rm~MC}~(D=5)$ $20.06\pm~0.17$ $33.62\pm~0.50$ $46.70\pm~0.20$ $59.96\pm~0.60$ $73.15\pm~0.50$ $6.66\pm~0.21$
    ${\rm~MC}~(D=10)$ $24.21\pm~0.31$ $46.05\pm~0.54$ $68.06\pm~0.71$ $90.15\pm~0.50$ $111.28\pm~0.60$ $10.77\pm~0.25$
    ${\rm~MC}~(D=20)$ $27.33\pm~0.43$ $54.09\pm~1.51$ $81.25\pm~0.82$ $105.78\pm~4.19$ $128.86\pm~2.32$ $12.72\pm~1.39$
    ${\rm~MC}~(D=30)$ $26.86\pm~0.53$ $53.26\pm~1.23$ $80.57\pm~2.59$ $109.54\pm~2.51$ $129.02\pm~6.02$ $12.79\pm~2.44$
    ${\rm~MC}~(D=40)$ $26.73\pm~1.28$ $55.68\pm~1.94$ $82.36\pm~1.88$ $106.28\pm~2.82$ $128.61\pm~4.13$ $12.76\pm~2.48$
    ${\rm~MC}~(D=50)$ $27.22\pm~0.76$ $54.56\pm~1.47$ $80.03\pm~1.55$ $105.73\pm~3.27$ $130.90\pm~3.55$ $13.00\pm~0.58$
  •   

    Algorithm 1 滞后时间优化算法

    初始化$L_\mathrm{max}$, $D_\mathrm{max}$, $E_b$, $N^l$, $\rho^l$, ${\rm~SD}^l$, $P=1$, $l=1$;

    构建参数为$N^1$, $\rho^1$, ${\rm~SD}^1$的常规RC网络, 用训练集训练SARC, 用校验集测试SARC性能并得到校验误差$E_v$;

    $E_b=E_v$;

    FLAG $=0$;

    while $l<L_\mathrm{max}$ FLAG = 0 do

    $l=l+1$;

    $D^{l-1}=0$;

    while $D^{l-1}\leq~D_\mathrm{max}$ do

    $D^{l-1}=D^{l-1}+1$;

    用训练集训练SARC;用校验集测试SARC性能并得到校验误差$E_v$;

    end while

    if $\hat{E}_v\leq~E_b$ then

    $E_b=E_v$;

    $D^{l-1}=\hat{D}^{l-1}$;

    else

    $L=l-1$;

    FLAG$=1$;

    end if

    end while

  •   

    Algorithm 2 连接度优化算法

    $P=1$, $P_{\mathrm{step}}=-0.05$, $P_{\mathrm{min}}=0.05$, FLAG = 0;

    训练并校验SARC, 得到校验误差$E_v$, $E_b=E_v$, FLAG $=0$;

    while $P\geq~P_{\mathrm{min}}$ FLAG = 0 do

    $P=P-P_{\mathrm{step}}$;

    输入训练集信息, 并获得各子神经元池状态;

    利用式(9)估计各子神经元池所有神经元的熵并按从大到小排序;

    令第$l$个子神经元池中熵最大的$P\times~N^l$个神经元状态输出到第$l+1$个子神经元池($l=1,\ldots,L$);

    训练及校验连接度改变后的SARC并得到校验误差$E_v$;

    if $E_v\leq~E_b$ then

    $E_b=E_v$;

    else

    $P=P+P_{\mathrm{step}}$;

    $\hat~P=P$;

    FLAG$=1$;

    end if

    end while

  • Table 2   Parameter settings for sparse NMAtask
    Traditional RC RC$_\mathrm{delay}$ D&S RC SARC
    Input $u(k)$ $[u(\tau),u(k-\tau),u(k-2\tau)]$ $u(k)$ $u(k)$
    $L$ 1 1 1 3
    $N^l$ 100 100 100 33
    $D^l$ $-$ $-$ $-$ $[\tau-1,\tau]$
    ${\rm~SD}^l$ 0.1 0.1 0.1 0.1
    $\rho^l$ 0.99 0.99 0.8 0.8
  • Table 31  
    SSISCIENTIA SINICA Informationis中国科学: 信息科学Sci Sin-Inf1674-72672095-948611-5846/TPScience China PressSCP 10.1360/SSI-2019-0183论文稀疏连接的异步池计算网络Sparsely connected asynchronous reservoir computing network迎春*BOYingchun*ZHANGXinLIUBaoWANGPing

    通讯作者, E-mail: boyingchun@sina.com.cn

    Corresponding author (boyingchun@sina.com.cn)

    20215515764260820190901202012042021

    针对池计算网络的构建问题, 提出了一种稀疏连接的异步神经元池构造方法, 该方法将多个子神经元池顺序连接, 并在子神经元池之间设置滞后环节, 以实现各子神经元池对输入信息的异步处理, 进而构成串行的记忆. 为实现信息高效传输, 子神经元池之间采用稀疏的连接方式. 实验表明, 所提方法能够有效地提高神经元池的记忆容量, 易于解决长时依赖问题.此外, 该结构能够使神经元池产生丰富的动力学行为, 对初始参数也有较好的鲁棒性.

    In order to solve the reservoir computing networkconstruction problem, a sparsely connected asynchronous neuronreservoir construction method is proposed. The method connectsseveral sub-reservoirs sequentially and sets lag links amongsub-reservoirs in order to handle input signals asynchronously insub-reservoirs, and further constitutes serial memory. In order toachieve efficient information transmission, sparse connections areused among sub-reservoirs. Experimental results show that theproposed method can effectively improve the memory capacity ofreservoir and it is easy to deal with long-term dependence problems.In addition, the proposed structure makes the reservoir produce moreabundant dynamic behavior and has better robustness to the initialparameters.

    人工神经网络池计算记忆鲁棒性动力学artificial neural networkreservoir computingmemoryrobustnessdynamics国家自然科学基金21606256国家自然科学基金(批准号: 21606256)资助项目Citation薄迎春, 张欣, 刘宝, 等. 稀疏连接的异步池计算网络. 中国科学: 信息科学, 2021, 51: 764-, doi: 10.1360/SSI-2019-0183Crossmark2021-04-30T15:00:33TitleCite稀疏连接的异步池计算网络TitleCiteEnSparsely connected asynchronous reservoir computing networkAuthorMark薄迎春等AuthorMarkCite薄迎春, 张欣, 刘宝, 等AuthorMarkCiteEnBo Y C, Zhang X, Liu B, et al

    《中国科学》杂志社

    infocn.scichina.com

    <x>1</x><x> </x><x>引言</x>

    池计算(reservoir computing, RC)网络是一种以神经元池为核心的递归神经网络, 其典型代表是回声状态网络(echo state network, ESN)及流型状态机(liquid state machine, LSM) [1,2]. 常规RC网络由输入、隐层、输出3部分组成, 其中隐层是一个由大量随机连接的神经元组成的神经元池 [3]. 理论研究表明, RC网络能够以任意精度逼近任意动力学系统 [4]. 与其他递归神经网络相比, RC网络只需学习隐层到输出之间的连接权值, 这使RC网络训练十分容易, 一般的线性求解方法即可得到最优的权值 [5-7]. 目前, RC网络已经在时间序列预测 [1,8-10]、生物特征识别 [11]、控制 [12,13]等领域得到了广泛的应用. 随着RC网络研究的不断深入, 常规RC的缺点也逐渐体现. 首先, 常规RC中存在大量随机给定并且始终保持不变的权值, 使得RC网络构建过程具有较大的随机性. 为获得高性能的网络, 需要进行大量测试 [5,14]. 其次, 常规RC网络的短时记忆(short term memory, STM)容量受池内神经元数量限制 [9], 对于长时依赖问题, 必须构建规模庞大的神经元池 [8,9], 这无疑会增加网络构建难度. 最后, 常规RC网络的池内神经元彼此耦合, 难以产生丰富的动力学行为 [8,14-16].

    为解决上述问题, 一些改进的RC网络被陆续提出. 如解耦的RC网络将一个大的神经元池分解为多个子神经元池, 通过为子神经元池设置不同的参数以使其产生多样化的动力学行为 [14]. 文献 [15]进一步提出了子神经元池自适应增长算法, 以实现子神经元池数量及规模的优化. 平衡的RC网络通过设置反馈连接并调节反馈参数使输入信息与反馈信息达到平衡, 二者共同驱动神经元池, 以使神经元池产生更丰富的状态 [16]. DS RC在神经元池内采用带通滤波神经元, 通过设置不同的滤波参数使神经元池产生多种频率的信号 [8]. 随着深度学习研究不断深入, 深度RC (deep RC, DRC)也被提出 [16-20]. DRC的神经元池由多个子神经元池顺序连接而成, 前一个子神经元池的状态作为下一个子神经元池的输入, DRC通过多级映射使神经元池产生复杂的动力学行为. 上述改进方法主要目的是使神经元池产生多样化的动力学特征, 从而解决复杂的动力学建模问题. 为解决长时依赖问题, 记忆容量(memory capacity, MC)也成为RC网络研究的一个重要课题 [8,9,17,21,22]. 长时依赖问题的输出与过去较长时间的输入相关, 这需要RC网络具有较大的记忆容量. DS RC网络在池内每个神经元后面都附加了一个滞后环节 [8], 通过调节滞后时间可使每个神经元输出不同时刻的信息, 大幅增加了神经元池的记忆容量. 时间分割的池计算网络(temporally segregated reservoir computing, TSRC)以DRC为基础 [22], 在每两个相邻的子神经元池之间加入了一个滞后环节, 这种结构可以实现输入信息的分段记忆, 使一个小规模的神经元池也可以具有较大的记忆容量.

    为进一步提高RC网络的动力学映射能力及解决长时依赖问题的能力, 提出了一种子神经元池稀疏连接的异步深度池计算网络(sparsely connected asynchronous reservoir computing network, SARC). SARC延续了TSRC中分段记忆的思想, 同时借鉴了DRC网络的深度结构. SARC中各子神经元池能够异步处理输入信息及实现输入特征的分时记忆, 从而使神经元池具有较大的记忆容量. 此外, 为降低子神经元池输出信息的冗余, 在子神经元池之间采取了稀疏的连接方式 [23,24]. 实验表明, SARC具有较大的记忆容量, 易于解决长时依赖问题. 同时, SARC的状态具有较低的相关性, 这有助于提高神经元池的动力学映射能力及降低网络对随机初始参数的敏感性.

    本文的主要工作如下: (1)提出了SARC网络结构并深入分析了SARC的记忆模式及记忆容量; (2)研究了SARC网络解决长时依赖问题及复杂动力学问题的能力; (3)探讨了稀疏连接对SARC性能的影响.

    <x>2</x><x> </x><x>SARC网络结构</x>

    SARC网络由多个子神经元池顺序连接而成(图1), 第$l$ ($l$为子神经元池编号)与第$l$+1个子神经元池之间存在一个滞后环节$z^{-D^l}$, $D^l$为相应的滞后时间. SARC的动力学模型可表示为 其中$\pmb{u}^l(k)$为第$l$个子神经元池输入; $L$为子神经元池个数; $\pmb~s^l(k)$, ${\boldsymbol~W}_I^l$, ${\boldsymbol~W}_R^l$分别为第$l$个子神经元池的内部状态、 输入连接权值矩阵以及内部连接权值矩阵. ${\boldsymbol~W}_O$为整个神经元池(包含所有子神经元池)与输出之间的连接权值矩阵; $\pmb~y(k)$为网络输出; $k$为时间步.

    在SARC中, 第1个子神经元池的输入为网络外部输入$\pmb{u}(k)$, 即$\pmb{u}^1(k)=\pmb{u}(k)$. 第$l~(l=2,\ldots,L)$个子神经元池的输入为$\pmb{u}^l(k)=\pmb s^l(k-\tau^l)$, 其中

    在当前时刻$k$, SARC中不同子神经元池接收到的信息是不同时刻的, 即每个子神经元池具有不同的记忆时段, 通过调整滞后时间就可以实现对特定时段信息的记忆. 这使得SARC的记忆非常灵活. SARC中子神经元池之间采用稀疏连接的方式, 这可以降低信息传输的冗余, 提高信息处理的效率. SARC的输出层负责对各子神经元池的状态进行整合, 以产生期望的输出. 由于SARC中神经元池存储了多个时段的信息, 这可以使输出端观察到更完整的输入特征, 有利于精确实现输入到输出的动力学映射. 此外, 由于记忆的信息特征不同, 各子神经元池的动力学行为自然存在差异. 因此神经元整体能够呈现出更丰富的动力学特征. 与常规RC网络相同, 在SARC中, 只有${\boldsymbol~W}_O$需要训练 [25,26]. 为提高训练的鲁棒性, 这里采用岭回归最小二乘方法计算${\boldsymbol~W}_O$的值 [27]: 其中 $\hat~{\boldsymbol~Y}$为训练样本期望输出矩阵, ${\boldsymbol~S}$为所有子神经元池的内部状态构成的矩阵, $\alpha$为岭回归系数.

    <x>3</x><x> </x><x>SARC网络短时记忆容量分析</x> <x>3.1</x><x> </x><x>SARC网络短时记忆容量定义</x>

    如图fig2(a)所示, 常规RC只有一个神经元池, 只能记忆最近一段时间的输入信息 [9], 记忆区间记为$k-$ MC, $k$), MC为神经元池的记忆容量. SARC中每个子神经元池具有不同的记忆时段, 如图fig2(b)所示. 在$k$时刻, 第1到第$L$个子神经元池的记忆区间分别为$k-{\rm~MC}^1$ $k$), $\ldots,$ $k-\tau^L-{\rm~MC}^L$ $k-\tau^L$), ${\rm~MC}^l$为第$l$个子神经元池的记忆容量. 根据式(3), 调节$D^l$即可实现记忆区间的调整.

    Definition 3.1. 设SARC网络共有$L$个子神经元池, 各子神经元池的记忆区间分别为$k-{\rm~MC}^1$ $k$), $\ldots,$ $k-\tau^L-{\rm~MC}^L$ $k-\tau^L$), 则SARC网络的总记忆区间$U$为各子神经元池记忆区间的并集, 即

    Definition 3.2. SARC网络的记忆容量MC为区间$U$的时间宽度.

    beginpropsition如果$\forall~l~~(l=1,\ldots~,L-1)$, 都有$D^l\geq~{\rm~MC}^l$, 则SARC网络的记忆容量达到最大值, 并且最大的记忆容量为${\rm~MC}_\mathrm{max}=\sum_{l=1}^L{{\rm~MC}^l}$. endpropsition

    proof 根据式(3), 当$D^l\geq~{\rm~MC}^l$时, $\tau^{l+1}\geq~\tau^l+{\rm~MC}^l$, 所以, $k-\tau^{l+1}\leq~k-\tau^l-{\rm~MC}^l$. 即当$D^l\geq~{\rm~MC}^l$时, 第$l+1$及第$l$个子神经元池的记忆区间完全不重叠, 两个子神经元池的记忆区间并集宽度为${\rm~MC}^{l+1}+{\rm~MC}^{l}$. 当$D^l\geq {\rm~MC}^l$对所有$l~(l=1,\ldots,L-1)$都成立时, $U$的宽度为$\sum_{l=1}^L{{\rm~MC}^l}$, 这也是$U$的理论最大值. beginpropsition如果$\exists~l~~(l=1,\ldots,L-1)$, 满足$D^l<{\rm~MC}^l$, 则SARC网络的记忆容量${\rm~MC}<\sum_{l=1}^L{{\rm~MC}^l}$. endpropsition

    proof 假设当$l=i$时, $D^i<{\rm~MC}^i$, 根据式(3), $\tau^{i+1}<\tau^i+{\rm~MC}^i$. 即第$i+1$及第$i$个子神经元池的记忆区间存在重叠, 此时两个子神经元池的记忆区间并集宽度小于${\rm~MC}^{i+1}+{\rm~MC}^{i}$. 所以, 当$D^i<{\rm~MC}^i$时, ${\rm~MC}<\sum_{l=1}^L{{\rm~MC}^l}$.

    命题1和2表明, 在SARC中, 可通过调节滞后时间实现神经元池中的柔性记忆. 当需要长时连续记忆时, 可以设置$D^l<{\rm~MC}^l$; 当只需要记忆一些离散的信息片段时, 可设置$D^l\ge {\rm~MC}^l$.

    <x>3.2</x><x> </x><x>SARC网络短时记忆容量测试</x>

    文献 [9]提出的常规RC网络记忆容量测试方法如下: 其中, $y_d(k)$为网络的第$d$个输出, $u(k)$为网络输入, $\rho^2$及$\sigma^2$分别表示协方差及方差. ${\rm~MC}_d$是$y_d(k)$及$u(k-d)$的相关系数. ${\rm~MC}$反映了RC网络输出对过去$d$个时刻输入信号的复现能力. 虽然SARC结构与常规RC不同, 但如果将所有子神经元池看作是一个整体, 仍可以用文献 [9]的方法测试SARC网络的记忆容量.

    (1)子神经元池数量与${\rm~MC}$关系测试. 根据定义1 和 2, 在SARC中, 每增加一个子神经元池, 相当于增加了一个记忆区间. 所以, 在这个实验中, 从只有1个子神经元池的常规RC开始, 逐渐增加子神经元池数量到$L=10$. 每增加1个子神经元池, 都按照式(6)和(7)计算SARC网络的记忆容量. 为减少随机因素的影响, 增加子神经元池及计算记忆容量的实验独立重复10次. 增加的子神经元池具有相同的宏观参数: 神经元池规模($N^l$)为40, 谱半径($\rho^l$)为0.95, 稀疏度(${\rm~SD}^l$)为0.1, 子神经元池之间采用全连接方式. $D^l~(l=1,\ldots,L-1)$均设置为相同的值. 实验中网络输入$u(k)$为$-$0.5, 0.5均匀分布的随机信号, 网络期望输出为$u(k-d)$ ($d=1,\ldots,500$). 实验样本总数为3500, 前2500个用于训练, 后1000个用于测试, 训练集中初始的500个样本用来冲刷初始状态 [1]. 第1个子神经元池输入权值从$-$0.1, 0.1中随机选取, 后续各子神经元池输入权值从$-$1, 1中随机选取. 实验结果如图fig3及表tab1所示. 当$D>0$时, MC随$L$的增加而增加. 并且每增加一个子神经元池, 网络增加的记忆容量大体相当(见表tab1, 存在差异主要是网络生成过程中随机因素的影响). 图fig3也显示当$D>0$时, MC与$L$呈现出良好的线性关系. 当$D=0$时, MC随$L$增加十分缓慢, 并且随着$L$的增加${\rm~MC}$增幅逐渐减小, 这说明$D=0$时, 增加$L$不会出现记忆线性叠加的现象. 按照定义1和2, 当$D=0$时, ${\rm~MC}=\mathrm{max}$${\rm~MC}^l,l=1,\ldots,~L$. 所以${\rm~MC}$不会随$L$的增加而显著增加. $D=0$时${\rm~MC}$的缓慢增加主要是由于动力学映射能力增强导致的. 当$D=20\sim50$时, ${\rm~MC}$随$L$变化曲线基本重合, 如图fig3所示, 命题1表明, 当$D\ge\mathrm{max}$${\rm~MC}^l,l=1,\ldots,~L$ 时, 记忆容量达到最大值, 此时继续增大滞后时间不会再增加${\rm~MC}$. 通过这个实验可以看出, 定义2中的记忆容量与采用文献 [9]方法测试得到的记忆容量具有较好的一致性.

    (2)滞后时间与${\rm~MC}$关系测试. 接下来固定$L$, 将滞后时间$D$从0逐步增加到40 (步长为2), 其他参数及实验设置与(1)相同. 每增加一次滞后时间, 计算相应的${\rm~MC}$ (重复10次). 从图fig4可见, 在初始阶段, ${\rm~MC}$随滞后时间线性增加, 这是因为当$D$较小时, 子神经元池的记忆区间存在重叠, 随着$D$的增加, 记忆重叠逐渐减小, 当$D$增大到一定值时, 记忆重叠消失, 此时记忆容量达到最大值.

    (3) 子神经元池之间连接度对${\rm~MC}$影响. 接下来保持(2)中$L=10$的网络参数不变, 将各子神经元池的连接度$P$从1减小到0.1 (步长为$-$0.1), 采用随机连接方式, 即随机选择一定比例($P$)的神经元状态作为下一个子神经元池的输入. 从图fig5可见, 随着$P$的降低, ${\rm~MC}$呈上升趋势(当$P$从1减小到0.1时, ${\rm~MC}$增幅分别为8.7% ($D=10$)和72.4% ($D=30$)). 所以, 子神经元池之间的稀疏连接对提高SARC的记忆容量是有利的. 当子神经元池采用全连接的模式时, 外部输入作用较强, 容易导致内部神经元产生与外部输入同步的动作, 如图fig6所示. 当连接度降低时, 外部输入信号减弱, 神经元池的动力学丰富程度增加, 有助于提高子神经元池的记忆能力. 从另一个角度, 神经元池中包含大量随机连接的神经元, 信息不可避免存在冗余, 此时采用全连接是不必要的. 当然, 并不是所有问题都需要神经元池具有大的${\rm~MC}$. 所以, 连接度的设置不能只以${\rm~MC}$为指标, 还应考虑传输到下一个子神经元池的信息是否具有代表性.

    <x>4</x><x> </x><x>滞后时间及连接度优化方法</x> <x>4.1</x><x> </x><x>滞后时间优化</x>

    滞后时间优化只需用到训练集样本, 首先将训练样本分为训练集和校验集两部分, 然后从只有一个神经元池的RC网络开始, 逐步增加子神经元池数量, 每增加一个子神经元池, 就对相应的滞后时间进行优化. 优化采用遍历搜索的方法, 即$D^l$从0增加到最大允许的滞后时间$D_\mathrm{max}$. $D^l$每增加一步, 都对网络进行训练和校验, 并记录所得的校验误差$E_v$. 最优的$D^l$ (记为$\hat{D}^l$)是$\hat~E_v$对应的$D^l$. 当增加$L$不能使$\hat~E_v$减小时, 优化过程结束(见算法1). $\hat E_v$定义如下:

    Algorithm 1 滞后时间优化算法

    初始化$L_\mathrm{max}$, $D_\mathrm{max}$, $E_b$, $N^l$, $\rho^l$, ${\rm~SD}^l$, $P=1$, $l=1$;

    构建参数为$N^1$, $\rho^1$, ${\rm~SD}^1$的常规RC网络, 用训练集训练SARC, 用校验集测试SARC性能并得到校验误差$E_v$;

    $E_b=E_v$;

    FLAG $=0$;

    while $l<L_\mathrm{max}$ FLAG = 0 do

    $l=l+1$;

    $D^{l-1}=0$;

    while $D^{l-1}\leq~D_\mathrm{max}$ do

    $D^{l-1}=D^{l-1}+1$;

    用训练集训练SARC;用校验集测试SARC性能并得到校验误差$E_v$;

    end while

    if $\hat{E}_v\leq~E_b$ then

    $E_b=E_v$;

    $D^{l-1}=\hat{D}^{l-1}$;

    else

    $L=l-1$;

    FLAG$=1$;

    end if

    end while

    <x>4.2</x><x> </x><x>子神经元池之间连接度优化</x>

    神经元所携带的信息量可以用香农(Shannon)熵衡量. 第$l$个子神经元池的第$i$个神经元的熵可用下式计算: 其中 $H(s^l_i)$为信息熵, $q$为样本数, $s^l_{ij}$为第$i$个神经元对第$j$个样本的输出, $p(s^l_{ij})$为$s^l_{ij}$出现的概率.

    为便于优化实施, 这里设所有子神经元池连接度$P$相同. 第$l$个子神经元池中信息熵最大的$P\times N^l$ ($N^l$为第$l$个子神经元池规模)个神经元与下一个神经元池连接. 优化过程从$P=1$开始, 按一定步长减小$P$值, 同时计算相应的校验误差, 校验误差不能降低时, 优化过程结束, 如算法2所示.

    Algorithm 2 连接度优化算法

    $P=1$, $P_{\mathrm{step}}=-0.05$, $P_{\mathrm{min}}=0.05$, FLAG = 0;

    训练并校验SARC, 得到校验误差$E_v$, $E_b=E_v$, FLAG $=0$;

    while $P\geq~P_{\mathrm{min}}$ FLAG = 0 do

    $P=P-P_{\mathrm{step}}$;

    输入训练集信息, 并获得各子神经元池状态;

    利用式(9)估计各子神经元池所有神经元的熵并按从大到小排序;

    令第$l$个子神经元池中熵最大的$P\times~N^l$个神经元状态输出到第$l+1$个子神经元池($l=1,\ldots,L$);

    训练及校验连接度改变后的SARC并得到校验误差$E_v$;

    if $E_v\leq~E_b$ then

    $E_b=E_v$;

    else

    $P=P+P_{\mathrm{step}}$;

    $\hat~P=P$;

    FLAG$=1$;

    end if

    end while

    <x>5</x><x> </x><x>实验研究</x>

    (1)稀疏的NMA (nonlinear moving average)建模 [8]. 稀疏的NMA模型如下: 其中$\tau$为滞后时间, $u(k)$为在0.5, 1均匀分布的白噪声信号.

    该问题的输出$y(k)$只与过去3个时段的输入信息相关, 3个时段分别是$k$至$k-3$; $k-\tau$至$k-\tau-3$; $k-2\tau$至$k-2\tau-3$. 由于常规RC只能记忆一个时段的信息, 所以, 要采用常规RC解决此问题, 就必须构造一个规模庞大的神经元池, 以使神经元池能够记忆区间$[k-2\tau-3,~k)$的输入特征, $\tau$增加, 神经元池的规模也要随之增加. SARC具有分段记忆特点, 可以构建3个神经元池(滞后时间为$\tau$). 第1个神经元池输入为$u(k)$, 相应的记忆区间为$[k-{\rm~MC}^1,~k)$; 第2个子神经元池输入时刻为$k-\tau$, 相应的记忆区间为$[k-\tau-{\rm~MC}^2,~k-\tau)$; 第3个子神经元池输入时刻为$k-2\tau$, 相应的记忆区间为$[k-2\tau-{\rm~MC}^3,~k-2\tau)$. 本问题只需每个子神经元池记住3个时间步的信息, 即${\rm~MC}^l\geq 3~(l=1,2,3)$即可. 所以理论上SARC网络只需要3个子神经元池及少量的神经元即可解决上述稀疏的NMA问题.

    实验中参数设置如表tab2所示, 为便于比较, 将所有神经元池总规模均设置为100 (SARC包含3个子神经元池, 每个子神经元池规模为33). 常规RC, RC$_\mathrm{delay}$以及DS RC均为单神经元池网络. RC$_\mathrm{delay}$有3个外部输入: $u(k)$, $u(k-\tau)$及$u(k-2\tau)$, 这使RC$_\mathrm{delay}$能够记忆问题所需3个时段的信息特征. DS RC在池内每个神经元后附加一个滞后环节, 这相当于在一个神经元池内采用不同神经元完成不同时刻的记忆. 实验中共生成$8000+4\tau$个样本, 前2500个样本用于冲刷初始状态, 接下来的$5000+2\tau$个样本用于训练, 剩余的$500+2\tau$个样本用于测试. 采用测试集中最后500个样本计算网络性能, 性能指标采用规范化的均方根误差(normalized root mean square error, NRMSE) [8].

    7(a)为4种模型的测试结果. 当$\tau$较小时, 一个规模较小的神经元池即可满足记忆要求, 所以, 4种模型都获得了较高的精度, 随着$\tau$逐渐增加, 常规RC由于不能满足记忆容量需求, 逐渐失去解决问题能力. 其他3种模型在$\tau$较大时也能较好地解决问题.这说明后3种模型均可实现对所需信息的记忆. 相比之下, DS RC解决问题能力弱于RC$_\mathrm{delay}$及SARC, 这是由于DS RC需要设置的滞后参数较多, 如何合理设置这些滞后参数是一个难题. 而RC$_\mathrm{delay}$及SARC的滞后参数较少, 设置相对简单. 从性能上看, RC$_\mathrm{delay}$与SARC相当. 尽管如此, RC$_\mathrm{delay}$与SARC的记忆原理存在很大差别. RC$_\mathrm{delay}$将过去的信息和当前的信息并行输入到神经元池, 从而使神经元池能够对多个时段的信息形成记忆. 所以, RC$_\mathrm{delay}$采用的是并行的记忆方式, 即一个神经元池内同时存在不同时段的输入特征. SARC则是将不同时段的信息独立记忆于不同的子神经元池, 越久远的信息存储于越深层次的子神经元池, 这是一种串行的记忆方式. 从生物学的角度 [28], 过去的信息应该是以某种形式存储于记忆中, 外部输入会唤醒某些时段的记忆. 大脑内部实现当前信息和过去记忆的整合, 进而产生新的输出. 所以从宏观的角度, SARC的信息处理模式比RC$_\mathrm{delay}$更接近生物学的本质.

    (2)常规NMA建模. 考虑如下模型: 其中 $u(k)$为在0.5, 1均匀分布的白噪声信号.

    本问题中模型输出$y(k)$与过去$M$个时刻的输入有关, 这要求神经元池能够记忆区间$k-M-1$, $k$)的输入特征. 与问题(1)不同, 这个问题需要神经元池能够记忆一段连续时间步的信息. 实验中设置神经元池总规模为400. SARC设置10个子神经元池, 每个子神经元池规模为40, 子神经元池之间的滞后时间设置为$\lfloor {M/9}\rfloor$ (非优化值), 连接度设置为0.40. 网络其他参数与表tab2相同. 实验中共生成5500个样本, 前3000个用于训练, 接下来的2500个用于测试. 训练集的前500个样本用于冲刷初始状态. NRMSE采用测试集中最后的300个样本计算. 图7(b)显示了当$M$从10增加到100时常规RC, RC$_\mathrm{delay}$以及SARC的测试结果. 其中, RC$_\mathrm{delay}$($I$) ($I$为正整数)为有$I$个输入的RC$_\mathrm{delay}$网络, 输入为$u(k),\ldots,u(k-\lfloor{M/I}\rfloor$). 经测试, 常规RC的记忆容量约为$38.96\pm0.73$. 随着$M$的增加, 常规RC的性能越来越差, 当$M>40$时, 常规RC失去解决问题能力. RC$_\mathrm{delay}$(2)将过去的输入$u(k-\lfloor{M/2}\rfloor$)引入神经元池, 从而实现过去和当前信息的并行记忆. RC$_\mathrm{delay}$(2)能够记忆两个时段的信息, 理论上每个时段的记忆长度不会超过常规RC的记忆容量. 实际上, $M>50$时, RC$_\mathrm{delay}$(2)就失去了解决问题的能力(图7(b)), 并且在$M\le50$时, RC$_\mathrm{delay}$(2)的性能也随着$M$的增加而下降. 这主要由于RC$_\mathrm{delay}$(2)的记忆方式会使不同时段的记忆发生耦合, 对于复杂的问题容易造成记忆失真. 从图7(b)可以看出, 随着$I$的增加, RC$_\mathrm{delay}$($I$)的性能越来越差, 这说明输入越多, 记忆耦合引起的记忆失真越严重. 当$I\ge6$时, RC$_\mathrm{delay}$的性能甚至不如常规RC. $M$从10增加到100时, SARC一直保持了较好的解决问题能力, 这说明SARC有能力实现所需的连续记忆(经测试, SARC记忆容量为$115.43\pm0.52$). 根据命题1, 只要满足$\lfloor{M/9}\rfloor\le~{\rm~MC}^l~(l=1,\ldots,10)$, 各子神经元池的记忆区间是连续的. 在此问题中, SARC的 每个子神经元池只需完成所需记忆的1/10即可, 这对每个子神经元池来说都是容易实现的. 同时SARC的这种记忆方式能够大幅减弱记忆耦合引起的记忆失真. 所以, SARC在解决具有较大记忆容量需求的长时依赖问题方面具有显著优势.

    (3) Mackey-Glass时间序列预测. Mackey-Glass时间序列预测是人工神经网络领域的一个典型问题, 其模型定义如下 [1]: 当$\tau~>$ 16.8时,系统具有混沌状态, 本实验设置$\tau=$ 17.

    实验共生成4000个样本, 前100个用来冲刷初始状态, 接下来的1900个用于训练, 最后的2000个用于测试. 在测试阶段, 网络输入信号不再从样本中获取, 而是将上一时刻的输出反馈到输入端作为输入信号. 也就是说, 在测试阶段, 网络处于一个自激运行状态. 由于预测输出存在误差, 这个误差反馈到输入端, 带有误差的输入会在输出端产生更大的误差, 如此往复, 网络的输出误差会越来越大, 最终偏离期望的Mackey-Glass混沌状态, 如图fig9(b)所示. 该实验主要测试模型对混沌时间序列的长时预测能力. 实验中采用测试样本的前500步来计算NRMSE. 网络参数设置如表tab3所示, 为便于比较, 各网络的神经元池规模均设为1000, 优化后的SARC网络的神经元池由4个子神经元池组成(每个子神经元池有250个神经元), 子神经元池之间的滞后时间均为6. 为减弱初始随机参数的影响, 对每种网络进行100次独立测试, 取NRMSE最小的50次数据进行性能分析.

    从表tab4可见, 常规RC, RC$_\mathrm{delay}$以及SARC均具有解决Mackey-Glass时间序列问题的能力. 相比之下, SARC的50次测试NRMSE均值比常规RC及RC$_\mathrm{delay}$低了一个数量级, 同时方差更小, 这说明SARC网络性能更加稳定, 对初始随机参数有更好的鲁棒性. Mackey-Glass不属于长时依赖问题, 所以并不需要神经元池具有大的记忆容量. 但Mackey-Glass时间序列的混沌特点需要神经元池能够产生足够丰富的动力学行为. 常规RC采用大规模的神经元池产生多样化的信号. SARC在神经元池规模不变的情况下, 进一步采用异步的处理方式, 将不同时间的信号特征存储于不同的神经元池, 使池内信号的耦合程度降低. 此外, 不同时段的信息特征存在差异, 所以, SARC神经元池的动力学行为比常规RC网络更为丰富, 从而使SARC网络能够取得更好的性能.

    (4) MSO (multiple superimposed oscillator)建模. MSO模型如下: 其中$Q$为正弦波数量. $\alpha_i=0.2+0.11(i-1)$.

    MSO的输出由多个不同频率的正弦信号叠加而成. $Q$越大, MSO模型越复杂. MSO模型是测试神经元池能否产生丰富动力学行为的一个经典问题 [8,14,16,22,29]. 文献 [29]认为, 常规RC的神经元池很难产生多种频率的信号, 所以常规RC难以解决复杂的MSO问题. 随着研究的深入, 陆续提出了多种可以解决复杂MSO问题的改进型RC网络 [8,14,16,22]. 实验中, 共生成1500个样本, 前1000个为训练样本, 后500个为测试样本, 最开始的100个训练样本用来冲刷初始状态, 采用测试集前300个样本计算NRMSE. 神经元池规模均设置为400, SARC中每个子神经元池规模为$\lfloor{400/L\rfloor}$ (表tab5为优化后参数); 谱半径均设置为0.99, 池内神经元稀疏度为0.1. 为降低初始参数的影响, 对每个MSO问题都进行100次独立测试, 用NRMSE最小的50个结果来分析综合性能.

    各网络的测试性能如表tab6所示. 常规RC只能解决2阶MSO问题, 并且性能较差, 这验证了常规RC网络的神经元池很难产生复杂的动力学行为. 当$Q=2$时, SARC的性能比DS RC和Ballanced RC差, 这主要是由于当$Q=2$时, MSO模型比较简单, 由于SARC结构的复杂性, 使其在解决简单的动力学问题时优势不明显. 当$Q\ge5$时, SARC的性能显著超过DS RC和Ballanced RC. SARC的性能也明显优于RC$_\mathrm{delay}$, 这是由于RC$_\mathrm{delay}$只有一个神经元池, 虽然引入过去的输入能够提高神经元池信息的多样性, 但池内神经元的耦合同时也会抑制神经元池产生丰富动力学的能力. 与RC$_\mathrm{delay}$相比, SARC的多神经元池结构减弱了信息耦合, 同时采用异步的信息处理方式使不同的子神经元池产生不同的动力学行为, 增加了神经元池整体的动力学多样性. 图fig11显示了100次实验的误差分布, 从误差分布结果来看, SARC的性能比RC$_\mathrm{delay}$更稳定, 即SARC对初始的随机参数有更好的鲁棒性.

    为衡量神经元池输出信号的总体差异, 定义平均相关度$\overline R$指标如下: 其中${\boldsymbol~S}_i$, ${\boldsymbol~S}_j$分别为第$i$及第$j$个池内神经元状态形成的序列, $R({\boldsymbol~S}_i,{\boldsymbol~S}_j)$为${\boldsymbol~S}_i$及${\boldsymbol~S}_j$的Pearson相关系数.

    从表tab7可见, 对于所有MSO问题, SARC的$\overline R$要低于RC$_\mathrm{delay}$及常规RC, 这说明SARC的神经元池内信号差异性较大, 动力学特性也更为丰富.

    (5)稀疏度对系统性能的影响. 图fig12显示了稀疏度对SARC性能的影响. 对于稀疏的NMA问题、常规NMA问题、 Mackey-Glass时间序列预测问题以及12阶MSO问题, 进行连接度优化后, 平均NRMSE比全连接分别提高了$6.58%$, $2.69%$, $80.05%$以及$88.87%$. 所以, SARC中子神经元池稀疏的连接有助于提升网络性能. 对于NMA问题, 输入为随机信号, 随机分布本身为最大熵分布, 信息冗余较小, 所以稀疏连接与全连接性能差别不大, 但采用稀疏连接能够使子神经元池之间的连接矩阵包含大量零元素, 可降低计算负担. 对于Mackey-Glass及MSO问题, 输入为有规律的信号, 池内信息也会随外部输入规律的变化而变化, 池内神经元状态会部分趋同, 信息冗余较大, 这时采用稀疏连接模式能够降低信息的冗余, 使网络性能提高.

    <xref rid="FIG7" xml:base="fig">图 7</xref>

    (网络版彩图) (a)稀疏NMA问题 和(b)常规NMA问题的测试结果

    <xref rid="FIG7" xml:base="fig">Figure 7</xref>

    (Color online) Testing results of (a) sparse NMA task and (b) traditional NMA task

    <x>6</x><x> </x><x>结论</x>

    记忆与智能密切相关, SARC是从记忆的角度提出的一种新的神经元池构建方法, 该方法采用异步信息处理方式实现了信息的串行记忆, 这种记忆具有深度的结构, 越久远的信息存储于越深层次的神经元池. SARC的这种记忆模式可以实现长时记忆任务的分解, 降低完成长时记忆任务的难度. 此外, SARC的记忆更加柔性, 通过调整滞后时间, 可以记忆需要的信息, 同时丢弃不需记忆的信息, 这使得SARC能够用非常简单的结构解决长时依赖问题. SARC中子神经元池采用了稀疏的连接方式, 这可以降低信息冗余, 使信息得到更有效的传输, 进一步提高网络的性能. 滞后时间的选择对于SARC的性能有重要影响, 其与子神经元池的宏观参数(规模, 谱半径等)相关, 在不同的子神经元池参数下, 优化得到的滞后时间也可能不同. 从文中的实验可见, 多数情况下, 各子神经元池采用相同的宏观参数, 相同的滞后时间和相同的连接度即可满足大多数问题要求, 这在很大程度上简化了参数的优化过程.

    JaegerHHarnessing Nonlinearity: Predicting Chaotic Systems and Saving Energy in Wireless CommunicationScience2004304788010.1126/science.1091277150644132004Sci...304...78J MaassWMarkramHOn the computational power of circuits of spiking neuronsJ Comput Syst Sci20046959361610.1016/j.jcss.2004.04.001 Lymburn T, Khor A, Stemler T, et al. Consistency in echo-state networks. Chaos: An Interdisciplinary. J Nonlinear Sci, 2019, 29(2): 023118 GrigoryevaLOrtegaJ PEcho state networks are universal.Neural Networks201810849550810.1016/j.neunet.2018.08.02530317134 OzturkM CXuDPríncipeJ CAnalysis and design of echo state networks.Neural Computation20071911113810.1162/neco.2007.19.1.11117134319 QiaoJWangLYangCAdaptive Levenberg-Marquardt Algorithm Based Echo State Network for Chaotic Time Series PredictionIEEE Access20186107201073210.1109/ACCESS.2018.2810190 YangCQiaoJAhmadZOnline sequential echo state network with sparse RLS algorithm for time series prediction.Neural Networks2019118324210.1016/j.neunet.2019.05.00631228722 HolzmannGHauserHEcho state networks with filter neurons and a delay&amp;amp;sum readout.Neural Networks20102324425610.1016/j.neunet.2009.07.00419625164 Jaeger H. Short-Term Memory in Echo State Networks. Technical Report no. 152. German National Research Center for Information Technology Bremen, 2002 XuMYangYHanMSpatio-Temporal Interpolated Echo State Network for Meteorological Series Prediction.IEEE Trans Neural Netw Learning Syst2019301621163410.1109/TNNLS.2018.286913130307877 Koprinkova-HristovaPStefanovaMGenovaBFeatures extraction from human eye movements via echo state networkNeural Comput Applic2019310.1007/s00521-019-04329-z BoY CZhangXOnline adaptive dynamic programming based on echo state networks for dissolved oxygen controlAppl Soft Computing20186283083910.1016/j.asoc.2017.09.015 JordanouJ PAntoneloE ACamponogaraEOnline learning control with Echo State Networks of an oil production platformEng Appl Artificial Intelligence20198521422810.1016/j.engappai.2019.06.011 XueYYangLHaykinSDecoupled echo state networks with lateral inhibition.Neural Networks20072036537610.1016/j.neunet.2007.04.01417517490 QiaoJLiFHanHGrowing Echo-State Network With Multiple Subreservoirs.IEEE Trans Neural Netw Learning Syst20172839140410.1109/TNNLS.2016.251427526800553 KoryakinDLohmannJButzM VBalanced echo state networksNeural Networks201236354510.1016/j.neunet.2012.08.008 GallicchioCMicheliAPedrelliLDesign of deep echo state networks.Neural Networks2018108334710.1016/j.neunet.2018.08.00230138751 Gallicchio C, Micheli A. Richness of Deep Echo State Network Dynamics. In: Proceedings of International Work-Conference on Artificial Neural Networks, 2019. 480--491 McDermottP LWikleC KDeep echo state networks with uncertainty quantification for spatio?temporal forecastingEnvironmetrics201930e255310.1002/env.2553 GallicchioCMicheliASilvestriLLocal Lyapunov exponents of deep echo state networksNeurocomputing2018298344510.1016/j.neucom.2017.11.073 MaQZhuangWShenLTime series classification with Echo Memory Networks.Neural Networks201911722523910.1016/j.neunet.2019.05.00831176962 Bo Y C, Zhang X, Liu B. Temporally segregated reservoir computing and its dynamics. Control Theory Appl, 2019, 36: 1316--1321 Erhan G, Fraenz C, Caroline S, et al. Diffusion markers of dendritic density and arborization in gray matter predict differences in intelligence. Nat Commun, 2018, 9: 1905 RodriguezNIzquierdoEAhnY YOptimal modularity and memory capacity of neural reservoirs.Network Neuroscience2019355156610.1162/netn_a_0008231089484 YangCQiaoJHanHDesign of polynomial echo state networks for time series predictionNeurocomputing201829014816010.1016/j.neucom.2018.02.036 YangCZhuXAhmadZDesign of Incremental Echo State Network Using Leave-One-Out Cross-ValidationIEEE Access20186748747488410.1109/ACCESS.2018.2883114 Shi Z W, Han M. Ridge regression learning in ESN for chaotic time series prediction. Control and Decision, 2007, 22: 258--267 MoscovitchMCabezaRWinocurGEpisodic Memory and Beyond: The Hippocampus and Neocortex in Transformation.Annu Rev Psychol20166710513410.1146/annurev-psych-113011-14373326726963 Jaeger H. The Echo State Approach to Analysing and Training Recurrent Neural Networks. Technical Report GMD Report 148, German National Research Center for Information Technology, 2001 <xref rid="FIG1" xml:base="fig">图 1</xref>

    SARC结构图

    <xref rid="FIG1" xml:base="fig">Figure 1</xref>

    Scheme diagram of SARC

    <xref rid="FIG2" xml:base="fig">图 2</xref>

    (a) Traditional RC和(b) SARC记忆模式

    <xref rid="FIG2" xml:base="fig">Figure 2</xref>

    Memory modes of (a) traditional RC and (b) SARC

    <xref rid="FIG3" xml:base="fig">图 3</xref>

    (网络版彩图) MC 随子神经元池数量的变化

    <xref rid="FIG3" xml:base="fig">Figure 3</xref>

    (Color online) Change of MC vs. $L$

    <xref rid="FIG4" xml:base="fig">图 4</xref>

    (网络版彩图) MC 随滞后时间的变化

    <xref rid="FIG4" xml:base="fig">Figure 4</xref>

    Change of MC vs. $D$

    表 1${\rm~MC}$随子神经元池数量的变化

    Table 1Change of ${\rm~MC}$ vs.number of sub-reservoirs

    $L=$ 2 $L=$ 4 $L=$ 6 $L=$ 8 $L=$ 10 $\Delta~{\rm~MC}$
    ${\rm~MC}~(D=0)$ $15.31\pm~0.55$ $16.53\pm~0.38$ $17.22\pm~0.50$ $17.65\pm~0.46$ $17.63\pm~0.56$ $0.46\pm~0.55$
    ${\rm~MC}~(D=1)$ $16.33\pm~0.29$ $22.09\pm~0.36$ $27.54\pm~0.29$ $32.88\pm~0.24$ $38.57\pm~0.58$ $2.84\pm~0.35$
    ${\rm~MC}~(D=5)$ $20.06\pm~0.17$ $33.62\pm~0.50$ $46.70\pm~0.20$ $59.96\pm~0.60$ $73.15\pm~0.50$ $6.66\pm~0.21$
    ${\rm~MC}~(D=10)$ $24.21\pm~0.31$ $46.05\pm~0.54$ $68.06\pm~0.71$ $90.15\pm~0.50$ $111.28\pm~0.60$ $10.77\pm~0.25$
    ${\rm~MC}~(D=20)$ $27.33\pm~0.43$ $54.09\pm~1.51$ $81.25\pm~0.82$ $105.78\pm~4.19$ $128.86\pm~2.32$ $12.72\pm~1.39$
    ${\rm~MC}~(D=30)$ $26.86\pm~0.53$ $53.26\pm~1.23$ $80.57\pm~2.59$ $109.54\pm~2.51$ $129.02\pm~6.02$ $12.79\pm~2.44$
    ${\rm~MC}~(D=40)$ $26.73\pm~1.28$ $55.68\pm~1.94$ $82.36\pm~1.88$ $106.28\pm~2.82$ $128.61\pm~4.13$ $12.76\pm~2.48$
    ${\rm~MC}~(D=50)$ $27.22\pm~0.76$ $54.56\pm~1.47$ $80.03\pm~1.55$ $105.73\pm~3.27$ $130.90\pm~3.55$ $13.00\pm~0.58$
    <xref rid="FIG5" xml:base="fig">图 5</xref>

    (网络版彩图) ${\rm~MC}$随$P$的变化

    <xref rid="FIG5" xml:base="fig">Figure 5</xref>

    (Color online) Change of ${\rm~MC}$ vs. $P$

    <xref rid="FIG6" xml:base="fig">图 6</xref>

    (网络版彩图) 正弦信号驱动下神经元池的状态protectłinebreak 变化

    <xref rid="FIG6" xml:base="fig">Figure 6</xref>

    (Color online) State change of neuron reservoir under external sine signal driver

    表 2稀疏NMA参数设置

    Table 2Parameter settings for sparse NMAtask

    Traditional RC RC$_\mathrm{delay}$ D&S RC SARC
    Input $u(k)$ $[u(\tau),u(k-\tau),u(k-2\tau)]$ $u(k)$ $u(k)$
    $L$ 1 1 1 3
    $N^l$ 100 100 100 33
    $D^l$ $-$ $-$ $-$ $[\tau-1,\tau]$
    ${\rm~SD}^l$ 0.1 0.1 0.1 0.1
    $\rho^l$ 0.99 0.99 0.8 0.8
    <xref rid="FIG7" xml:base="fig">图 7</xref>

    (网络版彩图) (a)稀疏NMA问题 和(b)常规NMA问题的测试结果

    <xref rid="FIG7" xml:base="fig">Figure 7</xref>

    (Color online) Testing results of (a) sparse NMA task and (b) traditional NMA task

    <xref rid="FIG8" xml:base="fig">图 8</xref>

    (网络版彩图) Mackey-Glass (a)测试结果(SARC)和(b)测试误差(SARC)

    <xref rid="FIG8" xml:base="fig">Figure 8</xref>

    (Color online) (a) Testingresult and (b) testing error of SARCfor Mackey-Glass

    表 3表 1

    Mackey-Glass参数设置

    Table 3Table 1

    Parameter settings of RCmodels for Mackey-Glass task

    24pt

    Traditional

    RC

    RC

    $_\mathrm{delay}$

    SARC

    Input

    $u(k)$

    $[u(k),u(k-6),u(k-12),u(k-18)]$

    $u(k)$

    $L$

    1

    1

    4

    $N^l$

    1000

    1000

    250

    $D^l$

    [6,~6,~6]

    ${\rm~SD}^l$

    0.1

    0.1

    0.2

    $\rho^l$

    0.99

    0.99

    0.99

    表 4各类型网络性能比较—— Mackey-Glass

    Table 4Performancecomparison of various RC networks—Mackey-Glass

    $P$ Maximum value Minimum value Mean value Variance
    RC $6.25\times~10^{-4}$ $3.87\times~10^{-5}$ $3.43\times~10^{-4}$ $1.68\times~10^{-4}$
    RC$_\mathrm{delay}$ $4.21\times~10^{-4}$ $1.73\times~10^{-5}$ $2.56\times~10^{-4}$ $1.02\times~10^{-4}$
    SARC $1.07\times~10^{-4}$ $1.71\times~10^{-5}$ $5.40\times~10^{-5}$ $2.55\times~10^{-5}$

    表 5MSO任务参数优化结果

    Table 5Optimization results of delaytime for MSO tasks

    Parameter MSO$_2$ MSO$_5$ MSO$_8$ MSO$_{12}$ MSO$_{16}$
    $L$ 5 5 5 5 4
    $D$ 6 10 13 16 16
    $P$ 0.45 0.40 0.50 0.45 0.45

    表 6MSO任务性能比较

    Table 6Performance comparison of variousRC networks for MSO tasks

    NRMSE Traditional RC D&S RC Ballanced RC RC$_\mathrm{delay}$ SARC
    MSO$_2$ $1.48\times~10^{-4}$ $3.02\times~10^{-9}$ $2.51\times~10^{-12}$ $4.08\times~10^{-7}$ $2.49\times~10^{-8}$
    MSO$_5$ $8.21\times~10^{-5}$ $1.06\times~10^{-6}$ $1.38\times~10^{-6}$ $6.16\times~10^{-8}$
    MSO$_8$ $2.73\times~10^{-4}$ $1.01\times~10^{-5}$ $1.27\times~10^{-7}$
    MSO$_{12}$ $9.39\times~10^{-5}$ $2.10\times~10^{-6}$
    MSO$_{16}$ $1.20\times~10^{-3}$ $1.35\times~10^{-5}$
    <xref rid="FIG9" xml:base="fig">图 9</xref>

    (网络版彩图) MSO问题的误差分布

    <xref rid="FIG9" xml:base="fig">Figure 9</xref>

    (Color online) Error distribution of MSOtasks. (a) MSO$_2$; (b) MSO$_8$; (c) MSO$_{12}$; (d) MSO$_{16}$

    表 7神经元池信号相关度比较

    Table 7Correlation degreecomparison of various RC networks

    $\overline~R$ Traditional RC RC$_\mathrm{delay}$ SARC
    MSO$_2$ $0.7243\pm~0.0292$ $0.4538\pm~0.0091$ $0.4473\pm~0.0074$
    MSO$_8$ $0.5793\pm~0.0234$ $0.3117\pm~0.0082$ $0.2089\pm~0.0106$
    MSO$_{12}$ $0.5158\pm~0.0181$ $0.3095\pm~0.0105$ $0.1870\pm~0.0089$
    MSO$_{16}$ $0.4817\pm~0.0269$ $0.2880\pm~0.0107$ $0.1619\pm~0.0072$
    <xref rid="FIG10" xml:base="fig">图 10</xref>

    (网络版彩图) 连接度对网络性能的影响

    <xref rid="FIG10" xml:base="fig">Figure 10</xref>

    (Color online) Effects of connection degreeto network performance. (a) Sparse NMA; (b) traditional NMA; (c) Mackey-Glass; (d) MSO$_{12}$

    24pt

  • Table 4   Performancecomparison of various RC networks—Mackey-Glass
    $P$ Maximum value Minimum value Mean value Variance
    RC $6.25\times~10^{-4}$ $3.87\times~10^{-5}$ $3.43\times~10^{-4}$ $1.68\times~10^{-4}$
    RC$_\mathrm{delay}$ $4.21\times~10^{-4}$ $1.73\times~10^{-5}$ $2.56\times~10^{-4}$ $1.02\times~10^{-4}$
    SARC $1.07\times~10^{-4}$ $1.71\times~10^{-5}$ $5.40\times~10^{-5}$ $2.55\times~10^{-5}$
  • Table 5   Optimization results of delaytime for MSO tasks
    Parameter MSO$_2$ MSO$_5$ MSO$_8$ MSO$_{12}$ MSO$_{16}$
    $L$ 5 5 5 5 4
    $D$ 6 10 13 16 16
    $P$ 0.45 0.40 0.50 0.45 0.45
  • Table 6   Performance comparison of variousRC networks for MSO tasks
    NRMSE Traditional RC D&S RC Ballanced RC RC$_\mathrm{delay}$ SARC
    MSO$_2$ $1.48\times~10^{-4}$ $3.02\times~10^{-9}$ $2.51\times~10^{-12}$ $4.08\times~10^{-7}$ $2.49\times~10^{-8}$
    MSO$_5$ $8.21\times~10^{-5}$ $1.06\times~10^{-6}$ $1.38\times~10^{-6}$ $6.16\times~10^{-8}$
    MSO$_8$ $2.73\times~10^{-4}$ $1.01\times~10^{-5}$ $1.27\times~10^{-7}$
    MSO$_{12}$ $9.39\times~10^{-5}$ $2.10\times~10^{-6}$
    MSO$_{16}$ $1.20\times~10^{-3}$ $1.35\times~10^{-5}$
  • Table 7   Correlation degreecomparison of various RC networks
    $\overline~R$ Traditional RC RC$_\mathrm{delay}$ SARC
    MSO$_2$ $0.7243\pm~0.0292$ $0.4538\pm~0.0091$ $0.4473\pm~0.0074$
    MSO$_8$ $0.5793\pm~0.0234$ $0.3117\pm~0.0082$ $0.2089\pm~0.0106$
    MSO$_{12}$ $0.5158\pm~0.0181$ $0.3095\pm~0.0105$ $0.1870\pm~0.0089$
    MSO$_{16}$ $0.4817\pm~0.0269$ $0.2880\pm~0.0107$ $0.1619\pm~0.0072$
qqqq

Contact and support