qy288千亿国际-qy288千亿国际-千亿国际966

发表日期:2019-12-06      来源: 河北qy288千亿国际软件技术有限公司

为了抓着市场,守住入口,自2019年上半年初步形成自有产权的大数据分析工具包后,qy288千亿国际一直坚持战略思维,眼光长远地将“把大势、谋方案、明思路、抓关键、治痛点、重技术”作为公司大数据分析当前和今后一个时期的工作思路,加快搭建个性化大数据分析工具包。

截止到11月份底,qy288千亿国际大数据分析工具包已集成了多种成熟的、广泛的、可直接应用的库、框架,不仅应用为多个项目的底层核心技术,形成行业技术堡垒,还根据业务逻辑提供行业数据分析接口,进一步提供个性化解决方案。在其8个核心模块,1个框架中,近半年来,我们做到了:

数据自动化获取

在前期轻自动化爬虫托管平台上,秉持“更方便、更快捷、更自动化”的理念,升级托管系统,逐步实现实时实地的数据提供,通过触发事件,触发事件可以是系统或人为操作,对数据任务工作流通过设置计划任务使其定时运行。过程中,我们不仅增加了数据加载前的数据验证机制,确保收集到的数据字段符合质量标准,而且创建了元数据数据下载器,能够允许用户选择兴趣元数据,自动提供其所需的格式,了解数据结构。

数据管理中心

该模块侧重对数据的管理,目标是打造快捷的数据全生命周期的管理应用平台,提供功能齐全的数据治理工具,是数据服务的基础,实现数据库和文件的分布存储、快速检索、智能管理。目前我们已经实现融合数据、提供数据标准和质量的管理,使得部分数据实现集成管理,并引进Git内容寻址机制思想,加快实现数据的快速检索。

数据可视化

我们知道,数据分析发展一般主张分为三个阶段,分别是早期的商务智能(BI)、近期自助式数据分析,即敏捷BI、再到正在不断探索的基于人工智能和机器学习的AI+BI。早期的数据分析结果多以报表和KPI的形式呈现和推送数据,不够直观。公司致力于提高用户体验性和交互性,专门成立设计团队来设计更为美观、符合数据结构的图表展示,不仅赋予数据分析结果新的表现张力,更能加深用户对数据的理解度。将来源于业务的数据,经数据分析后,只将有效的数据以贴切用户的交互方式再还给业务人员,高效地发挥数据价值。目前几套设计方案已应用成为中非协同商贸、儿童教育等多个项目。

数据清洗

数据清洗是整个数据分析过程中不可缺少的一个环节,其结果质量直接关系到模型效果和最终结论。目前解决了在保证数据质量时的清洗问题,具体包括保证数据的完整性、唯一性、权威性和合法性。接下来要做的是如何让数据更适合做挖掘或展示,具体体现在:解决高纬度数据、解决低纬度和缺少维度、解决无关信息和字段冗余以及解决多指标数据。

自然语言处理(NLP)

利用自然语言处理技术,让计算机具备文字阅读能力,多场景技术应用为导向,研发国际前沿的自然语言理解算法。目前能够做到帮助客户自动化处理海量文本数据,提供新闻摘要、资讯标签、资讯分类、舆情分析、情感分析、主题模型等功能,提升文字处理效率,加深文本挖掘深度,降低人工成本。

算法工具箱

该模块旨在提取并集成数据处理、分析算法,形成算法包,方便应用于众多解决方案中,是公司数据分析算法成果的集合。目前已将爬虫框架、轻清洗框架和NLP文本分析算法集成于一处,实现文本自助式分析,之后将进一步结合人工智能、机器学习算法,逐步形成以技术为核心的生态圈,构建数据采集、数据处理、数据分析、数据应用的一体化的闭环算法包。

鉴证工具箱

利用区块链hyperledger fabric架构思想使数据公正、唯一、安全,提供以共识机制、加密算法为基础的鉴证工具箱。保证所有数据拥有方的数据具有唯一加密标识,解决数据共享和隐私之前的矛盾。目前通过流行的不可逆加密算法实现对数据的唯一加密,并通过内容寻址机制进行检索,使得数据具有可追溯特性。针对中非协同平台、儿童教育平台等项目的原创数据保护和认证方面都有这一模块的体现。

数据安全工具箱

工具箱从硬件、软件、管理(规范)、审计等四个方便保证数据安全,硬件上,不仅增设数据存储盘,并加大工作站硬盘存储容量来存储重要数据、业务数据和备份数据;软件上,关注数据处理过程的安全问题,例如安全验证、访问控制、数据加密等;管理上,规范漏洞扫描机制和基线核查;审计上,对数据访问进行管控、数据审计,防止非法或越权访问数据。在各个项目开发过程中,在四个方面我们不断积累数据安全操作经验,并逐步集成基础的数据安全工具箱,目前该工具箱能够实现数据的基本安全保障,之后团队将不断的完善工具箱,搭建全方位的数据安全堡垒。

任务工具框架

作为公司重点发展的任务工具框架,依托业务项,基于TensorFlow、spark等建模工具实现组建、控制、分析用户数据产品的大纲、业务流、业务逻辑等模型。该框架核心是各类工具流处理工具,目前公司已经能够通过搭建的小型Spark数据处理集群工作站,对简单业务流进行梳理和组建。

在即将到来的2020年里,团队将在领导的带领下,本着利用数据分析为用户创造美好生活的理念继续专注智能数据分析技术,完善上述9大方面的技术优势,提高市场竞争力,树立数据分析行业核心技术解决者形象。