【1.0时期 终端+Excel】
1.0时期,我们获得数据的体例是在终端点开阅读器,把数据经由过程 Excel 下载到当地中利用。Excel 中各类透视表与插件组合知足了绝年夜大都小批量数据利用的场景。Excel+终端阅读器,根基解决了小批量数据利用的问题。
【2.0时期 SQL+单一数据来历】
跟着研究的深切、数据维度的拓展、数据规范的清楚,布局化数据最先成为标配。比拟在曩昔的数据阅读器提取体例,SQL 经由过程一个或几个语句就可以实现全数数据的提取,让用户倍感轻松。信息化带来的效力晋升,恍如履历了“工业革命”般的体验。
【2.0时期后期 更高的算力需求】
逐步地,SQL 也最先表露一些没法知足研究需求的问题。假设研究的重心放在组合治理、因子发掘、风险节制范畴,SQL 仿佛既不克不及知足计较要求、也没法知足数据处置的时效性要求,这意味着,用户需要破费年夜量的精神提高一点点效力。
在是,DolphinDB 与聚源也最先给合作摸索一种全新的营业模式。
【3.0时期 摸索高质量+高机能】
高质量数据与高机能数据库的融会是市场对3.0时期新营业场景的等候,但今朝来看仍存在一些困难待解。以MySQL为例,在海量的时序数据场景下存在一些问题:
·存储本钱年夜:对时序数据紧缩欠安,需占用年夜量机械资本。
·保护本钱高:单机系统,需要在上层人工的分库分表,保护本钱高。
·写入吞吐低:单机写入吞吐低,很难知足时序数据万万级的写入压力(针对tick级数据场景)。
·查询机能差:海量数据的聚合阐发机能差。
在3.0时期的摸索进程中,DolphinDB 与聚源数据告竣合作,我们为构建一站式行情数据库办事模式配合尽力。
全新的营业场景下,用户可以经由过程 DolphinDB 拜候和挪用聚源数据库的各类数据,快速实现高频数据对接、存储、查询、指标计较、因子研究等,助力实现更便捷、更高效的投研。海量数据意味着数据质量高、汗青可追溯时候长、维度多,是以全量数据供给商显得尤其主要,而数据质量是一切的根本。
从数据质量的角度:
聚源数据库以金融证券为焦点,办事内容涵盖投研数据、财富数据、固收数据、江南体育风险数据、ESG 数据等,普遍利用在金融资讯展现、金融投研、年夜数据阐发、风控、量化回测、金融监管等多个范畴,颠末二十余年的成长,公司与国内券商、基金、保险、信任、银行、期货、资产治理公司等机构成立了普遍的营业合作,确立了在中国金融数据办事范畴的领先地位,是中国最优异的金融资讯办事供给商之一。
从数据库机能的角度:
SQL 或单一 Python 的处置方式,不管便携性仍是本钱都不算友爱。好比计较一个投资组合的协方差矩阵,没法在 SQL 中完成,需要借助额外的 Python 反推回数据库。高机能时序数据库 DolphinDB 有超卓的内置函数、多范式的剧本说话、矫捷的自界说计较,不管是在数据存储端,仍是在复杂阐发端,都是比 SQL 和 Python 更优的选择。以下图为例:
高质量数据、高机能数据库两者怎样融会?从最传统的量化场景动身,以聚源供给的因子库为例。
DolphinDB 撑持直接加工底层数据成果而且和时反馈成果到利用者手中,量化场景下的根本因子、特点因子、回测框架都可以直接依托厥后的数据基准进行融会。这些步调的融会帮忙用户解决数据贮存量极年夜、读取迟缓的通病。也就意味着,当具有了绑缚好的高质量根本数据与高机能平台的时辰,用户便有了所有想要的内容。同时,由于 DolphinDB 自界说的优势加上聚源数据除常规的表露数据外,还包罗但不限在其它主流另类数据(司法,工商,舆情,预期、宏不雅行业等)等,极风雅便机构客户做特点因子发掘和回测的工作流程,将本来离散化的工作使命集成式安插在 DolphinDB 上,真正阐扬出1+1融会可是产出弘远在2的结果。
数据质量与数据库机能的优势彼此连系,机构可以直接享遭到聚源高质量数据加 DolphinDB 高机能数据库的一站式办事。
除此以外,散布式高机能的数据存储,必定对高频率的数据量处置有着显著优势,对聚源在金融全场景下涵盖的各更新频率纷歧的数据,科学公道的插值方式,是提高数据频率的有用手段;因子算法摆设在更加高频的数据空间(如 Alpha191 算法由日K,调剂为 1分钟K),也是发掘非线性因子的,进入市场颗粒化水平更深范畴的首要路径。数据升频与 DolphinDB 的高机能协作,必将会斥地量化数据场景的新赛道。
这也意味着,3.0时期将迎来数据库与编程说话的融会。
在传统的数据库时期,我们更注重数据的写入,所以我们强调数据库的一致性、原子性、持久性等,而用在阐发的 SQL 语句功能则相对简单,复杂的阐发和计较凡是由更高级的编程说话(如 C++, Python 等)来完成。在海量数据时期,我们更注重数据的读取,也就是经由过程对海量数据的阐发,挖掘数据背后的价值,数据阐发的时效性则对企业的竞争能力相当主要。将来 SQL 语句和更高级的编程说话也将走向融会,高质量的数据+高机能的数据库将解决数据来历广、时效性差、本钱开消年夜等一系列持久困扰市场的困难。
基在此,DolphinDB 与聚源,在路上。
责任编纂:prsky