宽潮组合课量化培训 9月24日第3日学习笔记 发布日期:2016-10-10               类别:原创天地

今天在非常安静的情况下,通过后台数据观察到大家的热心和期待,虽然是周末,依然给予我们很高的回应。


今天的讲师也比较给力,早晨讲解了matlab的一般应用,李洋老师已在某基金公司成为基金经理,对于matalb仅作为主要工具之一使用,对于策略的理解才是最深入的,下午重要嘉宾主要和民间资本合作,实际上已经构建了全品种对冲和超强的资金管理获利能力,晚上出乎意料两位大师,一位讲解套利交易中基本面分析的重要因素,另一位则是22岁已经管理3个亿资本的郑玉峰老(同)师(学)……


做好准备,老司机踩油门了。


早间课程


《matlab在量化投资中的具体应用》 李洋 


首先讲解了如何快速学习matlab,然后介绍了一些使用matalb开发的策略模型。


然后展开讲解了一个open range breaker,也就是经典的RB经典策略。这个策略刚开始赚钱很容易。该模型使用开盘价,形成一个benchmark,目前的改良方法,是benchmark = open + n*ATR,上下轨类似。


李老师说:我这边的策略细节,也是benchmark做改良,我是在当天开盘价N分钟内,对价格求均值,我们用的是1分钟K线,然后生成上沿下沿,做突破操作。


很遗憾没能拍到李洋老师照片,虽然中午一起进餐竟然都忘记了,只能用他的书来替代了。


如果我们再抽象一层,这个benchmark是某些变量的函数,比如开盘价、昨日收盘价、波动率,上沿下沿的生成,应该是不一样的,跌容易,上涨难。各品种的多空状态,并不是很对称的。


比如我可以用一个值,来生成新的benchmark,这就是我们自己的RB,区别于其他团队。如果策略太相似,冲击成本会特别高。我们应该思考,这类策略为什么一直存货。


纵轴是频数,横轴是收益率。答案是:收益率分布肥尾(大家可以绘图分析,尖峰肥尾)。广发做过分析,上下沿用随机数生成,也是可以盈利的。


我们可以看一个跨期套利的案例,协整,ADF检验,得到价差。交易的时候,是对价差进行交易。模型不难,但是远月交易成本较高。还有跨市场跨品种套利,豆油和棕榈油,铜和锌。在matlab高级计量经济学工具箱,有一个协整检验。


matlab内置的函数可以进行K线绘制。还有技术指标,SMA、EMA(以指数式递减加权价格,递归方式来计算,越远离当下,权重外衰)。在未来计算大批量代码编写的时候,注意编程风格问题。AMA方面也值得使用,他的平滑系数,是用ER系数进行变化的。通过效率系数ER,可以给出曲线和震荡的定义。


AMA这部分量化投资训练营之前的夜报已经多次分析过。ER系数来自Kaufman的自适应均线系统。


步骤1:价格方向

价格方向被表示为整个时间段中的净价格变化。比如,使用n天的间隔(或n小时):
direction = price – price[n];

其中,direction是当前价格差或方向数值,price是当前价格(当日收盘价或小时收盘价),price[n]是n日前的收盘价(或n个周期前)。


步骤2:波动性
波动性是市场噪音的总数量,它可以用许多不同的方法定义,但是这个计算使用了所有“日到日”或“小时到小时”的价格变化的总和(每一个都作为一个正数),在同样的n个周期上。
如下表达:
volatility = @sum(@abs(price – price[1]), n);

其中,volatility是指波动性数值,@abs是绝对值函数,@sum(value, n)是n个周期中的数值之和函数。


步骤3:效率系数(ER)
以上两个成分被组合起来,以表达方向移动对噪音之比,称之为效率系数,ER:

Efficiency_Ratio = direction/volativity;

用“方向性”除以“噪音”,该系数的值就从0到1变化。当市场在全部n日以同一方向移动时,则方向=波动性,效率系数=1。如果波动对于同样的价格移动是增加了,“波动性”就变得较大并且ER往小于1的方向移动。如果价格不变化,则方向=0,ER=0。


每一个技术指标,一定要了解背后的意义,然后使用。比如MACD等其他很多指标,其实你把均线梳理很透彻的情况下,会发现很多技术指标都是均线的再复合(我强烈认同该观点,并对此进行了长达一年多的分析)。


最后介绍了万德和大奖章接口,同花顺ifind接口,都是可以使用的。当公司创建初期,规模没上去的时候,建议先用第三方平台把产品跑起来,然后规模上去之后,可以自己开发平台。


接下来做一个基于matalb的交易品种分析。


比如PTA没有外盘,连续性很好,2013年制度修改存量资金少了,不好操作的了。我们给出两个方式进行定义:


流动性:

规则1:成交量/持仓量 每一个时间截面(监控),给出全市场流动性排序,实战中,我们一般做一个N日平均处理,每一个月,半个月,进行调整。这个N周期,和你的策略持仓周期也有很直接的关系。

规则2:对于开始交易的品种,监控流动性实际走势,历史分布,左侧可以少交易、低仓位。


波动性:
趋势性系统的盈利能力,和波动性成正比。

波动性,有3个描述方式。是高相关性的。


最直观的方式,是定义一个波动率,波动率小于某一阈值的情况下,可以少交易,不交易。
规则1:20日波动性MA > 25分位数,就交易

规则2:用这个对比值进行仓位控制,满仓、半仓、暂停


有了流动性规则、波动性规则,就可以放在一起,进行交易品种控制。那么针对震荡策略呢?可以想象,当某个时间级别的趋势类策略关闭的时候,震荡类策略可以开启。


相关性检验的时候,要记得做时间轴校正(数据清洗),这是很多人忽略的,否则日期不能对应。如果剔除了太多,显然统计意义是不强的,所以要做差值来弥补。那么到底需要向后回溯多远,计算相关性合理呢?这部分没有定论,因为牵扯到很多基本面影响因素。


相关性分析方面,求出他们之间的相关系数。这个课题有利于构建一个收益和风险互相包容,能够实现对冲效果的投资组合。


通过数值回测给出交易系统的表现,这是大家都知道的,所以我们可以用matlab构建一个回测系统。


原始策略提出的源泉:
1、国内卖方金工报告,万德,迈博汇金
2、计量金融分析报告《高级计量经济学》

3、SSRN.COM,如国外有一个futures magazine

4、团队自己的Alpha挖掘,团队交流,挖掘交易策略


关于期货主力合约定义,有不同方式,大致是成交量/持仓量最大,即可。隔夜策略的测试,会有很大区别,各个第三方平台都不一样,所以这是需要注意的。期货数据这块的坑,是巨大的,近月远月,升贴水问题。我们做量化的,第一步就是做数据,不要用回测自己骗自己。

我也求证了几个问题:


通道类策略的上下轨,针对商品,多空相似,用一个比率是否可以?李阳老师认为:其实不合适。因为上涨下跌启动点的形态,是不一样的。这里应该设置不同参数,不要怕拟合。


某个主力连续合约数据失真,存在大跳空,但是主力指数,也失真吗?答——也失真,比较尴尬,隔夜策略的评估效果,在实盘中可能不能令人满意。


关于分散参数,分析参数热图,我的办法是,如果有多块高点区域,寻找交易次数较高的参数组合。李老师还是老观点:关于参数优化,找到参数高原图,或者说热图之后,不要去赌某个参数,而是去分散参数。因为后期实战中,你会发现参数漂移。


下午课程


《全市场全周期全品种全通用多元化的全智能》 陈海龙


首先提出几个问题,大家心里要有自己的答案,然后带着问题听讲。


1、你交易多少个品种?股票多少只?
2、赚钱主要是依靠趋势,还是震荡?
3、历史数据写出来的有没有用?失效,改进,失效,再改进,有没有用?
4、期货和股票主要依靠什么在赚钱?
5、补仓或者抄底行为,是对还是错?
6、如何判断程序是否失效?
7、趋势和震荡,能否判断?

8、1万亿以上资金容量的模型是否存在?


我会给大家全新的思路,不是书本上能够看到的,我只生产永动机,不是永动机我还不用。


我写过4000多个模型,很多用历史数学写的,改的很痛苦。都进入垃圾桶了。我实盘用的只有一个程序。


我的模型,全市场、全品种、全周期都通用。


我的团队,把所有不可能的变成可能。但是所有的可能,又变成不可能。很多风险(万一)全部都要变成不可能。我们设计交易系统的时候,只有一万,没有万一。


我认为,根据历史数据训练出的模型,是没用的。历史根本不可靠。谁告诉你加载出来的就一定有行情?万一没有呢?没有行情就是死路。


我们不用历史,而是用概率。比如明天新上一个品种,我就可以做。而很多机构,必须等待非常多的历史数据,才可以做。


我做的是全品种,任何一个单品种和我没关系。我看文化商品指数,就知道怎么回事。震荡我就亏钱,趋势我就赚钱。我的一个朋友,40多天震荡都在赚钱,是震荡策略,还有所谓的纪律,但是遇到大的单边行情,他开始逆势加仓。这就是人,关键时刻会由于人性崩溃,没有纪律。最终爆仓了。而做趋势的人,这短时间,都是小亏,赚的时候都是大赚,绝对不会爆仓。


这里牵扯到一个问题:趋势和震荡市可以判断的。


另外,我是只做日内为主的,绝对的日内交易为主,隔夜都是没有仓位,或者很低仓位。


很多东西都是一环扣一环的,判断趋势和震荡,就能赚钱。另外固定品种,这就是个错误。我们的系统,事实扫描所有品种,这个品种没行情,你根本赚不到。


那我们到底是靠什么在赚钱?是仓位管理。有行情重仓,没行情轻仓,什么买卖点都行。你研究历史写出来的,训练出来的模型,有意义吗?


大部分人眼中的模型,就是一个多个模型,然后自动下单。我看着就是个下单工具,根本就不是程序化。


我们的系统,买卖点很弱,资金管理很强,这意味着,我们的容量可以超级大。我们公司的整个系统,可以容纳1.2万个亿。我可以把华尔街很多人干掉,他们已经做了几十年投资,他们相对于我输在哪里,就是输在仓位管理。


2015年,2016年,震荡的时间达到90%,程序化大部分都死了。


我要知道每个账户的总资金,还要知道系统评估后能承受的亏损额。


我们在90%的时间,账户里,只有1成仓位不到。59个合约,哪个最有机会的,我才略大一些交易手术。一旦来行情,我的账户就是50%甚至满仓。但是加仓是有前提的,亏钱是不能加仓的,盈利才能加仓。


我可以明确告诉你们,所有补仓的人都是亏的,追涨杀跌是对的还是错的?答案是对的。涨停板策略,也是对的。而所有逆势策略,抄底,摸顶,都是危险的。我们的账户,达到亏损限制了,直接砍。


如何判断程序失效还是不失效?比如股指5分钟模型,我让你测试4分钟,6分钟,白银,橡胶,我就是不测试你股指5分钟。我就是要考核程序的通用性。历史数据是结果,你知道了结果,再去写程序,写出来的程序,那必然是很好的效果。但是有价值吗?


我是一个做概率的人,做的越多,概率越准确。我可以告诉各位,做13个品种以下,都是赔钱的。我玩概率游戏的胜率可以达到70%,每次押注,我在各品种都押注。就和做期货一样,全品种覆盖。我用仓位去管理这个东西,哪个轻,哪个重,亏的时候,亏的小,赚的时候,绝对要大赚。盈亏比要非常高,才能在市场上生存下去,最后就是一直赚钱。


财经栏目、波浪理论、缠论、江恩理论,这些东西都是狗屁。


通过现场讲解的饼图,可以看到波动性仓位管理。


我选择品种,只看成交量、持仓量大的品种,如果控制不好滑点,特别是焦炭铁矿,一定会亏钱。另外我不赞成选股指,特别是现在,复利效果是很慢的。加仓很少的。


我的单均线模型,都在赚钱,这能失效吗。必须有仓位管理。比如用8成仓位开螺纹,2009年到现在,均线模型,1万元本金开始,30亿。


突破高低点的时候,可以认为是趋势来了,重仓。正常做趋势的,更容易做的就是突破。追涨杀跌,低卖高买。判断趋势之后,还要判断趋势大小。我有一套方法,识别品种、方向、仓位、趋势和震荡。很多人用一生精力研究买卖点。我不仅能判断趋势,才能判断趋势力量


所有时间,都是静态的,凝固的,而行情是连续性的。要提醒大家的是,我们做的是概率,比如说盘中的概率是80%,盘后的概率是70%,我这里的表格,就是一张概率表。


我会用到很多过滤技术,一个单均线系统,胜率从不过滤的25%,到56%。我现在的模型,无周期,无均线,无指标。如果大家做震荡,要记得它不是赚钱的,它就是趋势策略亏钱的时候,用来弥补的。


白糖、股指、黄金,我的一个模型,都可以做出比较好的资金曲线,一个程序,各位看清了。我做所有品种赚钱的原因,是我区分趋势和震荡,趋势行情来了,所有的模型都能赚钱。


开盘20分钟内,都不做,或者仓位很轻。


下面说说过滤方法,可以参考:


大级别(跨级别)均线过滤(也可以理解为单向过滤):我不用跨周期调用,而是设置一个大周期均线,用的是换算方法。
幅度过滤:好像没说明细
指数过滤:比如豆油、棕榈、菜籽油,做成一个篮子数据,然后去过滤
时间过滤:开盘某些时间,不交易。
大权重指数过滤:主力合约过滤非主力合约。
智能过滤

滑点过滤:计算好买卖点,我用挂单方式,我会多挂一个点。


我容纳一万亿资金,用多个方法:
1、全品种分散,我会选择其他国家市场
2、指数基金,和外盘新华富时A50
3、信号是概率发出的,买卖点是不重要的,但是基本上每个买卖点时间上是不同的,基本上都能错开

4、滑点控制:通过控制交易频率、提高网络速度,硬件设备。阿里云是共享资源,速度慢,不安全,交易所直连是一种方法。


从交割单可以看出,策略基本上是在tick级别数据运行,开仓持仓时间非常短。


谈到补仓,再次说明,我们是不补仓的,我设置好止损,到了肯定会走。不补仓的原因是,如果开始下跌了,下跌会更加严重,补仓方法是逆势的。


我描述我的产品:多元化、多周期、多策略、多市场。组合的越多,越平滑。我的目标是全智能,我们是一个全智能的下单系统,资金、仓位、亏损、风险增速、收益增速。后两个值和资金权益相关。我计算出今天收益可能性很高的时候,我下很大的仓位,设置比较宽的止损。


资金管理30%,仓位管理更多,选品种25%,择时交易系统20%,滑点控制15%,心态管理是最小的。因为量化有刚性的风控系统,其要求是很严的,如果加的仓位,经常会平掉,和我系统同方向的,先留着观察,反的立刻平掉。


用系统防止有人来干预,风控系统的权限是最高的,可以随时控制风险(仓位)。我们管理1600多个账号,就是这样管理的。


通过我的买卖点可以看出,我就是过滤震荡,做趋势。只要趋势来,所有的反向运行都是反弹而已,趋势形成,很难反转。


大道至简、由简到繁。这是课间交流时候讲的,希望大家记忆。


仓位分配:保证金同比例分配,震荡趋势分配。我的仓位下单的时候,是实时复利的,这一秒赚的1万,下一秒我就要用上。


回答问题中:


有以下重要内容:


我只有1成仓位90%时间,大行情来,会快速加仓
日内高频+日内趋势,是交易择时模型的总体描述
趋势级别,和运动速度有直接关系,我只是说这条路是通的

目前我一个品种一天,只交易1-2次,频率不高了


晚间课程 一


《对冲套利——稳健盈利模式的探讨》 王一博


主持人说:王老师是巨大的专家,好(我是说巨大这个词用的牛逼),今晚的两节课鏖战开始。


王老师很谦虚地说,大家参加学习,我们也是自我总结提高。期货市场任何一个你性格的优点,都会10倍回报你。我主要是做套利,半年时间,我就转到套利。对于一个交易者,对一个个人、家庭、公司,是最为重要的。


我们从2012年成立到2016年,资产管理规模有50亿元。


趋势交易,基本上是一战成名。但是他的缺点是,一年或者几年,70~80%时间里,都是震荡,这个时间点,趋势没有走出来,是非常考验交易者资金管理和操作心里的。


但是,有现货和贸易背景的团队个人,在趋势交易中,远远胜于个人投资者。且优秀交易者,凤毛麟角。观察了别人,结合自己的性格,我选择了套利交易,这是一个日久生辉,复利增长的交易模式。这几年套利模式的公司,资金规模都在快速放大,所以大家需要仔细甄选。


王老师展示了自己的一个产品。赚钱的交易模式,有时候是很简答的,不要把赚钱想得很复杂。2005年上了IC和IH,这是套利的盛宴,IC和IH自己的跨期,和IC-IH跨品种套利,都是非常好的机会。后来股指受限,流动性降低,我们就走的慢了。去年我们100%收益,在套利方面,但是我知道,这不是常态。今年到现在,我半年的收益也就6%,我接受这个收益率。


比如豆油、豆粕套利,这是一个大级别的宏观经济机会。无论是个人,公司,都需要抓住机会,机会来的时候,全力以赴。没有风的时候,我们也要站在风口等风来。凯丰600万到4000万,就是抓住这个机会。


套利领域也有失败的案例,2010年,棉花起涨,内盘带动外盘,内外盘有2000点利润(价差)。当时上海一家公司买入纽约棉,卖出国内棉。后来价差竟然拉倒4000点,加仓一次,浮亏加仓,这种回归机会,4000点难遇。后来价差拉倒6000点的时候,扛不住了,棉花冲击33000,砍仓了。这就是做套利交易,不要刻舟求剑,很多条件已经不具备了。


07~08年的时候,只做少数品种,收益不错,第一桶金。2010年,PTA,RU跨期,2012年,焦炭焦煤。当时高波动率,不用太深入研究,现在是低波动率,必须精细化操作。人无完人,我们要找到自己适合的,符合自己的交易模式。


我们是在交易行情吗?我们是在交易自己的资金曲线,我们要控制资金向上,低回撤。在某些特殊时段,我们要集中全部火力在一些品种上,大胆做,带来资金曲线的大幅度提升。


说到软件,目前文化财经WH4,达钱,TB,2006年我一直用易盛交易软件,有非常多的好处。


股指的收敛是很好的,在贴水情况下,买近空远,是没有资金能够操纵的。


大豆提油套利,买大豆,卖出豆油豆粕期货。在大豆1号上,有一段时间,炒作非转基因大豆,豆粕猛跌,大豆猛涨,价差迅速拉大。当时亏了150个点,迅速平仓了。当时也是因为急躁,使用了较大仓位。


在一点就是要选对对手,比如油脂,产业机构已经非常成熟了,难以套利了。很多品种留给投机者的空间,是在压缩的,因为产业客户已经开始在这里获取利润。


需要说明的是:历史规律不会简单重复。人的天然的惯性思维是回忆历史,但是并不是这样。我的套利策略,是产业逻辑分析套利机会,而不是统计套利。


目前阶段,我认为商品里,黑色套利还是不错的。螺纹、热卷、焦炭、焦煤、动力煤跨期跨品种套利还是不错的。钢厂没有什么科技含量,是一个产业链,最重要的核心,是螺纹钢和铁矿石的利润,没有高科技,高利润是周期性的,是不可维持的。螺纹铁矿比价在6,钢厂利润很好。钢厂利润好,加大铁矿石采购量,能复产的都要复产。


笔记到此突然中断一下,昨天有读者说,量化行业没有女生参与,气场不协调啊。其实是有的,我们今天在会场终于找到一位很甜美的,刚毕业的金融专业MM。


嗯,这就是今天标题里所说的峰回路转,谁说没有女生的,看来量化这个行业,还是孕育着希望的。由于此照片分散了精力(改善了量化行业生态环境),本节课后面的笔记无法完成记录……


晚间课程 二


《深度学习(deep learning)方法在量化投资实战当中的应用》 郑玉峰


郑老师本科大四,22岁,目前管理3亿元人民币资金,其策略早已在更多更大的资管公司使用。他使用了很多前沿的科技,比如机器学习算法,大量融入到量化中。


他讲公司发展称作一群量化革命者的自述,我们是一个团队在作战,这就是全天候量化科技团队发起成立的故事。2012年团队在西安成立,是一只90后团队。我们去年在北京,发行第一只公开管理计划,当时21岁,募集资金管理3000万。


2014年我们从30万元管理规模,到年底2000多万,2015年底搬到杭州,再搬到北京。


目前数据抓取技术,在急剧地改变量化的生态。一家科技公司,根据京东数据,构建了一个消费品指数,构建了因子库。然后以此为基础,构建了一个多因子选股模型。这个模型的结果还是比较不错的,从2014年-2016年,这个收益率的alpha非常高,实现了250%。


这说明了一个什么问题?很多人把个性化的,非结构化的,非公开的数据,应用到量化投资体系里。


我想说的是:有效信息的提取,反映到量化中,超额信息就是超额收益的重要来源。超额信息比模型的构建方法,研究方法,更重要。比如说徐翔,每年200%的回报率,他的优势就是大量的内幕信息,他获取了普通人无法获知的信息。


我们普通人应该怎么办?我们应该合理合法地获取信息,在此基础上,建模分析,成为稳定超额收益的来源。我们在构建量化模型过程中,是这个思路。


有一个很火的国外对冲基金公司,使用了VHF跟踪全球市场的船只形成,购买了卫星,来监控大型货轮是否按时到达港口,这是在获取数据,数据爆发增长,如何科学的挖掘,如何科学有效有技巧地抓取,是我们量化投资者的分析研究课题。还是老话:超额信息,有决定性的作用。


我们认为:股票市场,尤其是中国的股票市场,是非常复杂的非线性系统,有显性和隐形因素。隐形因素,本质上大众可以获取,但是获取的难度大,门槛高。


大家应该了解随机漫步游走理论,认为股票是完全随机的,没有规律。所以造就了ETF和共同基金比较多,但是我觉得这种理论是非常愚蠢的。我们肉眼都可以看到,市场上有相当数量的,能够跑赢市场的人,长期、稳定、远远跑赢市场。


中国的金融市场(特指股票),是成熟度非常低,容量大,机会超级多的市场,明显的是波动率非常高,相比于国外,波动率不止大了两三倍。股票交易量基本1个亿保底,大的都是几十亿。我们A股每天的流动性,是非常巨大的。我们的市场介于确定性和非确定性的动力系统。


股票价格,行情数据,非行情数据,在未来预测股票价格信息。有一个函数关系,是成立的。T+1天的股票价格,是T天的价格,和行情等基本面的因素共同决定的。量化的建模,就是通过现有的训练数据,通过实战方法,无限逼近函数F,也就是构造函数。但是大多数我们做出来的F,只在样本内有效,或者有效性非常短。


我们认为传统线性量化模型,都是针对训练样本,做加权求和做择时和预测,这是原始不科学的,需要有新的思维和血液进来。


我们注意到:随着硬件的飞速发展,价格下降,我们普通人也可以拥有性能比较好的计算机,这给我们做量化投资一个好的条件,我们可以把传统计算机行业的数据处理方法,应用到股票价格中,ANN SVM 小波等等。


机器学习是什么?它是建立一个模拟人脑建立一个分析学习的神经网络,解决数据问题,这种方法,其实是能够很好地应用到金融建模。数据大,维度多,成分复杂,这个方法非常好。可以无限逼近金融市场的真实函数F。


我想提醒大家一点,机器学习很火,都在推,尤其是DP深度学习,但是目前机器学习应用到实际场景,是比较难的。很多说法,都是很扯淡的,我们的观点是:机器学习要应用到实际量化投资:你得有数据,你得有数据,你得有数据。


机器学习,不仅对数据质量要求高,数据的有效信息多,数据预处理细致合理,国内大学的计算机专业,都有这个研究方向,但是水平不好说,极少数的人,深刻掌握理解机器学习方法。我们有过惨痛的教训,我们走了很多的坑。我们去年到北京的时候,做了一个实验室。4个博士,8个硕士,10个本科,国内比较好的学校都招了,结果比较惨,最终根据数据做优良结果的,样本外检验的,只有2个人。需要深刻理解,才可以做出来。


机器学习有一个很重要的概念:经验的反馈,这个概念很重要。人类与生俱来的的,从生活和实践中,通过对已经发生的事实观测,归纳总结。机器学习也是这个过程,模拟人类。一个叫做样本外推广能力,是核心的,致命的问题。只要训练时间长,一般都是拟合度高的,但是如果你过优化了,样本外数据,是需要质疑的,这太常见了,这是最大的坑。


我用了Adaboost算法,多个训练分类器的方法做示意。就像多个评委打分,我们需要评价股票好坏,我们需要建立标准体系。多个评价体系,构成终极分类器。比如有2700多个股票,我们需要机器学习模型做评级、评分。我们要找到相对好的东西,基于这个思路,我们要学习出分类器,最终用这个分类器,去评价所有股票。当模型有效,评价体系得分在前面的股票,预期收益是比较高的,这就是这个策略的思路。


我们看来量化投资有五个模块:


1、收集数据、收集各种原始数据,这是5个模块中,最重要的,这是70%左右重要的。
2、数据预处理,对原始数据进行加工。比如缺失值,比如不需要的数据去除,这是一个非常复杂的工作。这样才能保证数据的可学习性。
3、训练算法,用10年整体长度,随机抽取时间段,做样本内交叉验证数据(训练集)
4、样本外测试,基于之前的成果,测试算法的工作效果。我们样本外数据会留20%,我们对过拟合比较敏感。

5、实盘测试,实盘也需要三个月左右数据,没有明显衰减,使用这个模型。


第一部分是我们引以为傲的,我们做了一个事,依托复杂算法,以海量舆情数据,财经新闻、社交网站、上市公司公告,多层次语义匹配,形成知识图谱。可以提取关键词,匹配版块,个股,最终形成一张网,这是知识图谱。这是策略最基本的策略框架。


以一个上市公司图谱,它产生了很多标签,信息,各种好听的名字概念。公告中,可以分析到被机构表扬还是出发。还有定增的协议,子公司诉讼等。还有产品标签,比如新能源汽车。还有股东标签,没那么重要了。


我们用基本面数据,是做反向排除工作。A股比较奇葩,基本面信息,是可以找到比较坏的股票,排除掉它。我们的优势,就是在新闻数据分析方面,做数据清洗、网络训练。


我们用了一个比较新的技术,大部分是关键字分析阶段,但是只是这样分析,误差比较大的。当网络出现某一个关键字的时候,是积极的?消极的?正向的?反向的?我们用了一种技术,做这个结论的产生。以股民对万科的评价为例,有一个思维情绪的结果。


最终形成了数据链,数据图谱,形成了最基础的数据。目标函数是:保证拓展能力的情况下(也就是样本外外推),对训练数据做处理,这个Y最大。这是我们的训练目标。


最终我们形成打分体系的时候,肯定是很多因子,连接在一起。首先是构建因子库,作为训练参数的材料,我们采用的是多因子选股的投资方法,我们将其抽象成一个二元分类问题:强势股(前10%)、弱势股(其他的)。构建能够解释收益率高低差异的因子。


数据分为样本内训练,样本外检验,要得到样本内优秀的因子集合,参数集合。外推检验证明合格。从因子选股角度来说,运算过程中,大概是先做样本划分,给样本给权重。对因子按照大小进行排序,分组,然后分别计算每个分组中,强势股和弱势股的比重,我们以此方式,要检验因子的对于股票涨跌的解释能力。


我们可以从大量复杂的因子库里,初步提取有效因子。一个弱分类器就完成了。


然后进行算法训练,我讲过Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。AdaBoost算法中不同的训练集是通过调整每个样本对应的权重来实现的。


如果迭代的分类器有效,做回测的时候,是比较稳健的。错误率为0不可信,难以实现的。比如我们看到一个因子,远远跑输大盘,收益率差,比较低。


我们先淘汰无效因子,然后留下有效的,反复训练迭代,最终可以构建更强的因子组合。不同有效性因子组合积累到一定量,就会产生质的飞跃。我们在做模型的交易,暂时不考虑回撤的控制,如果测试的回撤小,实际中不会给你任何的保障。我们寻找的是超额收益,和超额收益的稳定性。


关于时间窗口推进建模测试,我们加了时间窗口,测试得到不稳定。所以就一次性把数据分为样本内、样本外即可。


机器学习量化投资中,我们看中的,是:


1、注重数据采集收集,我们的理念就是超额信息,产生超额收益。
2、一脉相承的,个性化数据方面,很下功夫。我们最宝贵的,就是很早开始积攒构建的舆情数据库。

3、这部分没有记录到……


舆情数字地形图,经过几层处理后,最终留下的东西:


从0到2400左右,2400个股票的信息量,纵轴是信息强度。
机器学习还有一个优势是,能够大规模地,批量地生产策略。它可以帮助公司快速拓展投资容量和规模。
1、少数派思维,走在大众思维的反方向。少数人能够赢,避免大众化思维。

2、不与狼群争草原,守住自己的树林。自己的水平、团队能力,还有就是对手是谁。如果对手太强,比如期货市场,就避免这些成熟度比较高的市场,找成熟度低的市场。


我对未来发展趋势的一些看法:
1、方法趋同化。我会用机器学习,你也会,大家都会。
2、数据差异化。数据的差异化,是决定成败的来源,基础数据做的好,正则化提炼清洗好,就有超额信息优势。

3、量化建模的模型是否有效,能否赚钱,不是用研究方法和挖掘方法决定的,最终是数据质量决定的。如果信息有效性低,不可能挖掘出好的策略,只有包含的有效信息多,足,才是战胜大盘,产生超额收益的最终来源。


未来专业化分工
1、基本的模式验证,需要人来做——策略模式研究员

2、最优参数调节,批量生产——数据挖掘专家


我的提问:


小波右侧数据怎么办?lowess等方式呢?

——需要用到右侧数据的,都不能用。可能实验过程中可以用,但是实战过程中,貌似不好用。我提出回归出后几个数据,郑老师没有直接解答是否可以


我听您的意思,价格信息,并不是主要了,是这样吗?

——是的,舆情数据很重要。价格数据也是需要的。


最终负责决策的因子,是能够解释的清晰明确的因子,还是合成的因子,不容易解释的?

——都是一些合成因子。郑老师对因子有效性(也就是对于价格的解释能力)很有信心。


舆情数据,基本上都要反着用的(因子强度和语义度,对价格起到反作用力)。
——舆情是韭菜的观点,不解释了……
上一篇下一篇
安全认证
声明:本站只提供软件使用和用户交流服务,所有用户观点不代表宽潮教育认同。本站禁止推销、非法理财、私下收费等行为、请用户甄别。投资有风险,入市请谨慎!