大数据技术相关概念--学习笔记

一.大数据定义

维基百科的定义:大数据是指其大小或复杂性无法通过现有常用的软件工具,以合理的成本并在可接受的时限内对其进行捕获、管理和处理的数据集。这些困难包括数据的收入、存储、搜索、共享、分析和可视化。

IBM的定义:大数据横跨三个层面:数量 ,速度和品种。IBM将大数据概括为三个V,即大规模(volume),高速度(velocity)和多样化 (variety),这些特点也反映了大数据所潜藏的价值。因此大数据的特征可以概括为海量+多样化+快速处理+价值。

SAS的定义:SAS在大数据传统3V模拟定义的基础上加入了“可变性”和“复杂性”两个重要特征。可变性主要反映可数据流可能具有高度的一致性,并存在周期性的峰值。复杂性主要提现在数据来源的多样性。连接、匹配、清洗、和转化 来自多个系统的数据是一件非常复杂的事情。

二.大数据的研究内容

大数据的研究工作面临5个方面的挑战:

  1. 数据获取问题,需要决策哪些数据需要保持或者丢弃等问题。
  2. 数据结构问题  如何将没有语义的 内容转换为结构化的格式,并进行后续处理。
  3. 数据集成问题 只有将数据进行关联,才能充分发挥数据的作用,因此数据集成也是一项挑战。
  4. 数据分析、组织、抽取和建模是大数据本质的功能。
  5. 如何呈现数据分析的结果,并与非技术的领域专家进行交互。

为应对上述挑战,白皮书建议采用现有的成熟技术解决大数据带来的挑战,并给出了大数据分析的分析步骤 ,大致分为 数据获取/记录、信息抽取/清洗/注记、数据集成/聚集/表现、数据分析/建模和数据解释五个主要阶段。

数据获取和记录

研究数据压缩中的科学问题,能够智能处理原始数据,在不丢失信息的情况下,将海量数据 压缩到人可以理解的程度;研究在线数据分析技术,能够处理实时流数据;研究元数据自动获取技术和相关系统;研究数据来源技术,追踪数据的处理和产生过程。

信息抽取和清洗

一般来说,收集到 的信息需要一个信息抽取过程 ,才能用来进行 数据分析。抽取的对象 可能包含图像 、视频等 具有复杂结构的数据,而且该过程是与应用高度相关的。一般认为大数据通常会反应事实情况,实际上大数据中广泛存在虚假数据。关于数据清洗的现有 工作通常假设数据是有效的、良好组织的,后对其错误模型具有良好的先验知识,这些 假设在大数据领域将不再正确。

数据集成、聚集和表示

由于大量异构数据的存在 ,大数据处理不仅仅是对数据进行记录,然后就将其放入存储中。如果仅仅 是将一堆数据放入存储中,那么其他人就可能无法查找、修改数据,更不能使用数据了。即使各个数据 都存在元数据,将异构数据整合在一起仍然是一项巨大的挑战。对大数据进行有效分析需要以自动化的方式对数据进行定位 、识别、理解和引用。为了实现该目标,需要研究数据结构和语义的统一描述方式与智能理解技术,实现机器自动处理,从 这一角度看,对数据结构与数据库的而设计也显得尤为重要。

查询处理、数据建模和分析

大数据的噪声很多,具有动态性、异构性、关联性,不可信任性等多种特征。尽管如此,即使是充满噪声的大数据也可能比小样本的数据更有价值,因为频繁模式和相关分析 得到的一般统计数据通常强于 具有波动性的个体数据,往往透露更可靠的隐藏模式和知识。互联的大数据可形成大型异构的信息网络,可以披露固有的社区,发现隐藏的关系和模式。

数据挖掘需要完整的、经过清洗的、可信的、可被高效访问的数据,以及声明性的查询和挖掘接口,还需要可扩展的挖掘算法及大数据计算环境。

解释

仅仅有能力分析大数据本身,而无法让用户理解分析结果,这样的效果价值不大。如果用户无法理解的分析,最终,一个决策者需要对数据分析结果进行解释。对数据的解释不能凭空出现,通常包括检查所有提出的假设并对分析过程进行追踪和折回分析。大数据由于其复杂性,这一过程特别具有挑战性,是一个重要的研究内容。

三.大数据的应用领域

1制造业的应用

制造业目前正在相信息化和自动化的方向发展 。在产品设计、生产和销售中,越来越多的企业使用计算机辅助设计(CAD)、计算辅助制造(CAM)等软件 ,数控机床,传感器等设备,物料需求计划,企业资源计划等系统。这些信息技术的应用大大提高了工作效率和产品质量。

然而随着信息化的不断深入,制造业目前所面临的挑战就是在 产业信息话之后。如何提升获取和开拓市场需求的能力,从而创造出更有价值的商品。

2服务业的应用

传统的服务行业有悠久的历史。当信息时代到来的时候,服务业就衍化出现了两种形态;一种是信息技术与服务 业相结合的信息服务业,另一种是应用信息技术改造传统服务业而来的服务业。在信息 服务业,最常见的大数据分析当属网络公司收集用户的网页点击 行为提供个性化的广告与 信息推送服务,需要注意的是这些行为需要考虑用户隐私的保护问题。在信息化改造后的服务业,大数据更是无处不在。在零售行业,厂商可以通过互联网点击流实时跟踪客户行为、更新客户偏好、建立可能行为的模型。在此基础上 ,产商能够确定客户下次购买的时间,通过捆绑优选商品、提供省钱的奖励性计划,对交易实施微调等措施,最终使得整个销售圆满结束。在金融行业,银行可以从大量数据中发现信用卡欺诈和盗用;理财网站从停机的消费数据中来测试宏观的经济趋势;保险公司通过大数据能够找出可以的权利要求。在旅游行业,企业致力于旅游预定数据的收集、分析与处理。

3交通行业的应用

当前,出行难问题对各大城市来说都是亟待解决。当前,可以利用新进的传感技术 、网络技术、计算技术、控制技术、智能技术,对道路和交通进行全面感知。而在大数据时代的智慧交通,需要融合传感器、监视视频和GPS等设备产生的海量数据,甚至与气象监测设备产生的天气状况等数据 相结合,从中提取出人们真正需要的信息,及时而准确地进行发布和推送,通过计算直接提供最佳的出行方式和路线。

4医疗行业的应用

医疗健康问题是当前社会普遍关注的焦点问题。以往,人们总是在发现自己生病时才看病 就医,而且到了医院还要经历挂号、求诊、配药等复杂流程,整个过程需要 耗费大量的时间,容易形成 就医困难的困境。如今,基于电子医疗记录技术,点子病例正逐渐被各大医疗机构所采用。在大数据时代,可以将医疗机构的电子病历记录标准化,形成全方位多维度的大数据仓库。系统首先全面分析 患者的基本资料、诊断结果、处方、医疗保险情况和付款记录等诸多数据,再将这些不同的数据综合起来,在医生的参与下通过决策支持 系统选择 最佳的医疗护理解决方案 。