这个问题其实很值得思考,而不是直接照搬计量经济学教材或者很犬儒地认为协整没用。我就以纯理论角度试答“统计套利中的协整”,而不仅仅是时间序列分析中的协整。
在计量经济学的范畴内,协整有很多方法,比如常见的Engel-Granger Test、Johansen Test等等,回答题主的问题可能把这几个方法摆上来就皆大欢喜,反正很多人都觉得这是几句话就能解决的问题。但是,计量经济学往往教给了我们模型和方法,但其背后的原理很少有人深究,我们往往直接就拿着方法去解决实际问题了,而且问题本身和计量方法之间究竟有什么关联,更是很少有问题研究者会去深究。
当然这里没有批评计量经济学的意思,事实上这是一门很了不起的学科,我本人也很喜欢。只是在这个“协整在统计套利中的应用”的问题背景下,照搬计量经济学教材是没有意义的,特别是一想到要解释向量自回归(VAR)/向量移动平均(VMA)、平稳性(stationarity)、单位根(unit root)、时间序列分解(decomposition)等等概念。这是不必要的。而我们要做的是尽可能直观地回归到统计套利的基本原理,然后再探讨一个不限于具体模型的(model-independent)协整理念是为什么、以及如何可以应用到统计套利里面。
统计套利是均值回归策略的一种。在随机过程里,有一个叫O-U过程(Ornstein-Uhlenbeck process)是用来描述均值回归过程的。所以我们从原理上剖析统计套利,是无法绕开O-U过程的。O-U过程就是:
如果时序矩阵
是服从O-U过程,那么它就具有均值回归(mean-reverted)特点。
为转移矩阵代表均值回归的速度,
代表均值,
代表波动幅度,
代表维纳过程(Wiener process)。可得解析解:
(详见wikipedia)
那么这个O-U过程有什么用呢?我们先不要着急,也不要纠结这一坨东西是什么。
我们先回到这个随机微分方程中的
。由于
矩阵在实数域,那么它的特征值可能是实数,也可能是共轭复数:
和
,K+2*J=N。
我们令矩阵
为剔除虚部的特征向量,那么转移矩阵
就可以分解为:
然后我们就要在矩阵
上做些文章了。我们引入一个仿射变换(affine transformation)
通过伊藤引理(Ito's Lemma)将
带入到O-U过程里,得到
(其中
)
因为这也是一个O-U过程,所以它的解同样服从正态分布(
),其中
为确定性漂移项,
为自协方差(autocovariance),也即是
。
的解在这里就不做推导了,但知道了
的解,我们就可以知道了
的解,即
。由此我们看到
中每个
的运动是不独立的,所以我们来看看
的自协方差矩阵,实际上也就是
的自协方差矩阵。这里的推导过程过于繁琐,只写最终结果:
其中,
从这个自协方差矩阵的显式解(详见文末Appendix)可以看出,如果
或者
,转移矩阵
中任意一个特征值为非正数,那么
的协方差矩阵就不收敛(not converge)。换句话说,当且仅当
的特征值的实部全都为严格正(strictly positive),
才是平稳的(stationary)。
但是,只要当
的特征值存在严格正实的,那么
的协方差矩阵的对应行/列在经过变换之后就平稳下来了。也就是说,这些过程及其线性组合也可以是平稳的。这样的线性组合我们就称之为协整的。
为了更好地理解协整,我们再把O-U过程的离散形式写出来:
其中转移矩阵
.
如果矩阵
的特征值中有0,那么矩阵
有单位特征值。拥有这种特点的随机过程就是单位根过程(unit root process)。如果矩阵
为零矩阵,那么
就变成了单位矩阵,
也就变成了零矩阵,O-U过程就变成了随机游走(random walk)。
再多说两句,大家熬一熬。
假设矩阵
有L个特征值为0,那么矩阵
的秩就是N-L。矩阵
又可以写作
.
和
都是(N-L)*N的满秩矩阵——看到这里应该有人能找到你们教材里的Johansen Test的影子了吧。这种表示法也就是O-U过程的误差修正(error correction)。而且这种表示法并非唯一。当矩阵
有L个正特征值时,就有L个线性组合
是平稳的,收敛于
.也就是说,当time horizon被无限拉长,
的方差是无限逼近于零的。那么我们实际要构建的协整的线性组合的目标就是要将条件方差最小化。这样一来,协整检验其实是可以放宽的。
因为协整,特别是放在统计套利语境下的协整,不是机械地去做假设检验,至少不仅仅是个假设检验。Fischer Black就说过显著性检验本身对于真实世界的研究没有丝毫价值,而研究最好的方法还是要去探究模型(to explore a model)。本着这个精神,你可以有相当数量的方法构建出一个“协整”组合,这个协整未必需要通过协整检验,相反,哪怕你用基本面构建出来的组合也可以是协整的,只要在你探究统计套利本身的模型之后,按照你的理解,做出你的仿射变换。
所以你看,我啰嗦这么半天,榨干了自己全部的数学知识,还讲得一点都不直观,遭人吐槽,根本无法给你带来aha时刻......
所以你看,之所以统计套利会用到协整,是因为协整是天然的(innate)统计套利。同时这一番推导也告诉我们,协整其实是个可扩展的方法,统计套利也就相应的是个可扩展的策略。有没有觉得人生豁然开朗?
所以你看,“人拥有此生此世是不够的,他还需要一个诗意的世界。”要理解统计套利和协整在其中的应用,哈佛商学院式的案例学习法仍是不够的,我们还需要深刻理解概念和理论本身。当你真的透彻理解一个概念,你会发现你之前所试图依赖的具体算法和实例可能只是一个窄门,而你要见天地。
参考文献
[1] Explaining Cointegration Analysis: Parts I and II, by David Hendry and Katarina Juselius, 2000 and 2001. Energy Journal.
[2] Review of Statistical Arbitrage, Cointegration, and Multivariate Ornstein-Uhlenbeck
by Attilio Meucci, 2010, SSRN
[3] Cointegration Based Statistical Arbitrage by Markus Harlacher, 2012. Masters Thesis, ETH Zurich.
[4] 高级计量经济学(下),靳云汇、金赛男等,2011,北京大学出版社
Appendix: OU的自协方差矩阵的显式解
的自协方差矩阵
其中,
任取两个特征值为实数的行/列得到的协方差为
任取一个特征值为实数的行/列与一个特征值为复数的行/列得到的协方差为
;
其中,
,
任取两个特征值为复数的行/列得到的协方差推导出的结果很复杂,而且没什么美感,且无关大局,更不会有人看,故略去。
景德镇麻将算法以上的算法其实熟悉的玩家是一分钟不到就可以计算出来收获多少的,而玩家们如果说想要赢得更丰厚的话就要掌握以上的算法,要尽量的将手中的牌按照最大化的收获去打牌,不过也要注意的是,边摸牌边打牌的变数是很大的,如果说玩家不能够百分之九十的确保能够获得最大收益的话博彩问答,还是稳妥起见比较好。