时空数据分析,时空数据挖掘

2023-10-17崇庆运势网热度: 12406

大数据研究常用软件工具与应用场景

大数据研究常用软件工具与应用场景

如今,大数据日益成为研究行业的重要研究目标。面对其高数据量、多维度与异构化的特点,以及分析方法思路的扩展,传统统计工具已经难以应对。

工欲善其事,必先利其器。众多新的软件分析工具作为深入大数据洞察研究的重要助力, 也成为数据科学家所必须掌握的知识技能。

然而,现实情况的复杂性决定了并不存在解决一切问题的终极工具。实际研究过程中,需要根据实际情况灵活选择最合适的工具(甚至多种工具组合使用),才能更好的完成研究探索。

为此,本文针对研究人员(非技术人员)的实际情况,介绍当前大数据研究涉及的一些主要工具软件(因为相关软件众多,只介绍常用的),并进一步阐述其应用特点和适合的场景,以便于研究人员能有的放矢的学习和使用。

基础篇

传统分析/商业统计

Excel、SPSS、SAS 这三者对于研究人员而言并不陌生。

Excel 作为电子表格软件,适合简单统计(分组/求和等)需求,由于其方便好用,功能也能满足很多场景需要,所以实际成为研究人员最常用的软件工具。其缺点在于功能单一,且可处理数据规模小(这一点让很多研究人员尤为头疼)。这两年Excel在大数据方面(如地理可视化和网络关系分析)上也作出了一些增强,但应用能力有限。

SPSS(SPSS Statistics)和SAS作为商业统计软件,提供研究常用的经典统计分析(如回归、方差、因子、多变量分析等)处理。
SPSS 轻量、易于使用,但功能相对较少,适合常规基本统计分析
SAS 功能丰富而强大(包括绘图能力),且支持编程扩展其分析能力,适合复杂与高要求的统计性分析。

上述三个软件在面对大数据环境出现了各种不适,具体不再赘述。但这并不代表其没有使用价值。如果使用传统研究方法论分析大数据时,海量原始数据资源经过前期处理(如降维和统计汇总等)得到的中间研究结果,就很适合使用它们进行进一步研究。

数据挖掘

数据挖掘作为大数据应用的重要领域,在传统统计分析基础上,更强调提供机器学习的方法,关注高维空间下复杂数据关联关系和推演能力。代表是SPSS Modeler(注意不是SPSS Statistics,其前身为Clementine)

SPSS Modeler 的统计功能相对有限, 主要是提供面向商业挖掘的机器学习算法(决策树、神经元网络、分类、聚类和预测等)的实现。同时,其数据预处理和结果辅助分析方面也相当方便,这一点尤其适合商业环境下的快速挖掘。不过就处理能力而言,实际感觉难以应对亿级以上的数据规模。

另一个商业软件 Matlab 也能提供大量数据挖掘的算法,但其特性更关注科学与工程计算领域。而著名的开源数据挖掘软件Weka,功能较少,且数据预处理和结果分析也比较麻烦,更适合学术界或有数据预处理能力的使用者。

中级篇

1、通用大数据可视化分析

近两年来出现了许多面向大数据、具备可视化能力的分析工具,在商业研究领域,TableAU无疑是卓越代表。

TableAU 的优势主要在于支持多种大数据源/格式,众多的可视化图表类型,加上拖拽式的使用方式,上手快,非常适合研究员使用,能够涵盖大部分分析研究的场景。不过要注意,其并不能提供经典统计和机器学习算法支持, 因此其可以替代Excel, 但不能代替统计和数据挖掘软件。另外,就实际处理速度而言,感觉面对较大数据(实例超过3000万记录)时,并没有介绍的那么迅速。

2 、关系分析

关系分析是大数据环境下的一个新的分析热点(比如信息传播图、社交关系网等),其本质计算的是点之间的关联关系。相关工具中,适合数据研究人员的是一些可视化的轻量桌面型工具,最常用的是Gephi。

Gephi 是免费软件,擅长解决图网络分析的很多需求,其插件众多,功能强且易用。我们经常看到的各种社交关系/传播谱图, 很多都是基于其力导向图(Force directed graph)功能生成。但由于其由java编写,限制了处理性能(感觉处理超过10万节点/边时常陷入假死),如分析百万级节点(如微博热点传播路径)关系时,需先做平滑和剪枝处理。 而要处理更大规模(如亿级以上)的关系网络(如社交网络关系)数据,则需要专门的图关系数据库(如GraphLab/GraphX)来支撑了,其技术要求较高,此处不再介绍。

3、时空数据分析

当前很多软件(包括TableAU)都提供了时空数据的可视化分析功能。但就使用感受来看,其大都只适合较小规模(万级)的可视化展示分析,很少支持不同粒度的快速聚合探索。

如果要分析千万级以上的时空数据,比如新浪微博上亿用户发文的时间与地理分布(从省到街道多级粒度的探索)时,推荐使用 NanoCubes(http://www.nanocubes.net/)。该开源软件可在日常的办公电脑上提供对亿级时空数据的快速展示和多级实时钻取探索分析。下图是对芝加哥犯罪时间地点的分析,网站有更多的实时分析的演示例子

4、文本/非结构化分析

基于自然语言处理(NLP)的文本分析,在非结构化内容(如互联网/社交媒体/电商评论)大数据的分析方面(甚至调研开放题结果分析)有重要用途。其应用处理涉及分词、特征抽取、情感分析、多主题模型等众多内容。

由于实现难度与领域差异,当前市面上只有一些开源函数包或者云API(如BosonNLP)提供一些基础处理功能,尚未看到适合商业研究分析中文文本的集成化工具软件(如果有谁知道烦请通知我)。在这种情况下,各商业公司(如HCR)主要依靠内部技术实力自主研发适合业务所需的分析功能。

高级篇

前面介绍的各种大数据分析工具,可应对的数据都在亿级以下,也以结构化数据为主。当实际面临以下要求: 亿级以上/半实时性处理/非标准化复杂需求 ,通常就需要借助编程(甚至借助于Hadoop/Spark等分布式计算框架)来完成相关的分析。 如果能掌握相关的编程语言能力,那研究员的分析能力将如虎添翼。

当前适合大数据处理的编程语言,包括:

R语言——最适合统计研究背景的人员学习,具有丰富的统计分析功能库以及可视化绘图函数可以直接调用。通过Hadoop-R更可支持处理百亿级别的数据。 相比SAS,其计算能力更强,可解决更复杂更大数据规模的问题。

Python语言——最大的优势是在文本处理以及大数据量处理场景,且易于开发。在相关分析领域,Python代替R的势头越来越明显。

Java语言——通用性编程语言,能力最全面,拥有最多的开源大数据处理资源(统计、机器学习、NLP等等)直接使用。也得到所有分布式计算框架(Hadoop/Spark)的支持。

前面的内容介绍了面向大数据研究的不同工具软件/语言的特点和适用场景。 这些工具能够极大增强研究员在大数据环境下的分析能力,但更重要的是研究员要发挥自身对业务的深入理解,从数据结果中洞察发现有深度的结果,这才是最有价值的。

以上是小编为大家分享的关于大数据研究常用软件工具与应用场景的相关内容,更多信息可以关注环球青藤分享更多干货

流式时空数据异常检测的可视化实现

随着流式时空数据源源不断的产生,如何及时了解不同时间、空间背景下的数据特征、信息成为一个重要的课题。在异常检测和监控方面,在很多情况下,异常与正常模式的界限实际并不明显,且对于流式数据这种动态的、层次化的数据而言,对于异常的定义也不是固定的,与数据特殊的时间空间背景密切相关,对于这种情况,常常需要人为介入,即依靠专家知识或经验来对异常进行判断。本文通过系统 Voila ,展示了如何对流式时空数据进行有效的异常检测和监控。

在气象分析、公共卫生、城市规划等领域,流式时空数据不断产生,对流式时空数据分析的实时性、准确性提出了更高的要求。

在异常检测方面,传统主要依靠统计学方法或机器学习方法实现。但在实际应用中,异常检测存在两方面的挑战:

在流式数据的异常检测及可视化中,主要需要解决三个问题:

系统针对上述提出的自适应、可解释、可交互三个要求,对系统进行了设计。

p表示该区域存在异常的概率,q表示该区域异常发现的难度。p的值用颜色深浅表示,q的值用内部矩形大小表示。

本文的评估针对是系统异常检测的算法,评估方法较为简单,与大多数简单评估方法相似,基于一个有标签的真实数据,通过实验,对系统的有效性进行评估。

[1] Voila: Visual Anomaly Detection and Monitoring with Streaming Spatiotemporal Data

海洋数据时空特征分析

如上所述的海洋数据的总体特征,从GIS的角度来看,还有着其独特的时空特征。相对于陆地数据来讲,海洋数据普遍存在着非常典型的真三维和时刻变动的特点。

2.1.4.1 海洋数据的空间类型复杂

海洋数据的空间类型相比陆地数据的复杂性主要体现在:海洋是个真三维的环境。这就使处理海洋空间问题必然要涉及3个空间坐标的问题,而不再像陆地上那样,在很多情况下只需要处理2个平面坐标。值得重视的是,第3个空间坐标的出现,不是简单意义上的增加1个坐标。即使是只考虑空间数据的存储,按照这种2:3的线性比例来看,可能新出现需要考虑和处理的空间情况也会多增加一半,而实际情况则是在更多方面,如三维的可视化等,会增加更多的麻烦。

如图2.1所示,通过对国际流行的商业化GIS和数据库软件所采用的数据模型的对比研究,得出常用GIS系统的数据组织与管理模型。数据首先被分解成空间数据和属性数据两大类,属性数据与空间数据分开存储管理,其中属性数据用SQLServer等关系数据管理系统管理,空间数据用文件或关系数据库方式管理。空间数据的存储格式包括矢量、栅格、图像和多维表格等。此外,所谓的对象数据,则经常采用空间数据和属性数据并置的方式进行存储与管理。

对于二维数据(包括含高程的二维数据),这种组织方式已经在无数个实例验证了它的成功,因此对它的效率和可靠度毋庸置疑。

但是目前需要处理的海洋数据,是一种真三维的数据,那么空间数据如果用关系表组织的话,就多出很大的数据量,因为原先是二维空间结构的,现在需要在二维的基础上再叠加一维,如果数据关系表设计不周到,必然会造成数据的极大冗余。数据的文件式存储暂时也许会是个更好的选择,但是需要重新制定新的文件格式,以提高三维空间数据存放的效率。

图2.1 GIS系统中常用的数据组织和管理模型

2.1.4.2 海洋数据的时间类型复杂

与增加了第三维空间数据相比,海洋数据新增加的时间类型则要更加突出。这是因为,在常用的陆地GIS系统中,一般都不考虑或极少考虑到数据的时间变动问题,而在海洋数据中,这种情况恰好相反,时间不再作为一种属性数据的形式出现,而是成为完全并列于空间数据的重要类型之一,在多数时候,它的重要性不亚于任何一维的空间数据。

如图2.2所示,既然有了新的时间类型数据,必须给它赋予一个合理的重要位置,与空间数据的位置同等重要,或者至少也要比一般的属性数据更加重要。

同时,海洋数据的时间类型具有多种样式,类比于空间数据的存储格式,时间数据也有所谓的“矢量”、“栅格”、“图表”等,用更加标准的语言描述,应该是“时刻”、“时段”、“过程”等。时刻指精确到一定精度的时间节点,例如对于一般海洋常规调查的海流测量,精确到分钟的时间精度已经可以作为一个时刻出现。时段指一定时间区间内的所有结果,即具有一定的起始时刻和结束时刻,在这个时间区间中的数据都属于该时段。实际上,一个时段的平均结果或代表性效果,在更大的时间尺度上,可以作为时刻出现,例如以每月的水温测量平均值作为当月的代表,在全年的水温序列中,它仅仅是一个时间点而已。过程定义成时刻或者时段的序列。

用时间和空间做个类比:单个时刻的数据相当于空间“矢量”数据中的点;单个时段的数据相当于空间“栅格”数据中的一个像素;时刻(或时段)的不规则序列,相当于空间“矢量”数据中的线;如果时刻(或时段)的序列是规则间隔的,并且时刻序列间的时间空隙是可以忽略的,那么该过程就相当于空间数据中的“栅格”数据。仅有时间概念的话,无法组成面,因此这里没有“矢量”数据的面,所谓的“栅格”数据也只是指栅格线而已。

这样,就可以重新勾勒一下海洋数据的常用组织方法和管理模型的概念框架了(图2.2)。其中,空间数据已经被时空数据全面代替,需要处理的同时包含时间和空间的数据类型。关于时空拓扑的研究,目前并没有取得较大的进展,并且考虑到这种研究如果和具体的专业(如物理海洋学)结合,将专业理论、技术和方法融入到拓扑关系研究中,会更加合适。

图2.2 海洋数据的时空组织和管理模型

2.1.4.3 海洋数据的属性数据

海洋数据的属性数据,可以分为海洋要素数据和海洋现象数据两大类,前者是海洋调查的真实测量数据,后者则是理论抽象的数据。海洋要素经常是以场的形式出现的,海洋场表现为海洋要素的连续场分布,海洋场是海洋和海洋科学的基本特点。

而关于欧拉方式和拉格朗日方式是物理海洋科学研究中的两种基本表达方式。在海洋地理信息系统中,这两种方式对于解决海洋数据,更重要的是海洋现象(如海流)的问题,具有非常重要的启发意义。其中,欧拉方式更多的是体现了一种欧拉场的表达方式,在空间场的范畴下建立海洋要素场,从而进一步揭示更多的海洋现象。例如,海洋水团的研究,则主要是从海洋要素场入手来分析水团的生消变化。在海洋地理信息系统中,这样的海洋现象应该更容易用欧拉方式来表达。而拉格朗日方式则有所不同,在拉格朗日表达方式中,场的概念被弱化了,但是海洋现象的空间位置变动成为一种更易于表现。例如,海流可以用欧拉方式表达为流场,但是持续的海流更应该用拉格朗日方式来表达,拉格朗日方式的海流在更多的时候更能体现海流研究中的很多精华,起到欧拉方式所难以达到的表达效果。

如前所述,所谓海洋现象,是指在对海洋场的分析和研究基础上,物理要素的特殊空间和时间分布规律的总称。一种海洋现象,外在表现上必然对应着某个或某些物理要素的特殊分布。所以,海洋动力学现象是其中的重点。某些海洋现象,其本身或许不发生明显的动力学变化,但是动力学的变化却必然影响和制约着其随后的发展变化。所以说,海洋动力学现象是海洋要素场的重点。

显然,海洋要素场和海洋现象概念既有联系,又有区别,经常需要在对象与场之间进行概念切换。它们的关系主要体现在:海洋场是海洋科学研究的基本对象,海洋现象相对于海洋场来说,实际上是海洋场的特征表达和概念提炼。从数学的空间变换角度看,对应着场域到局部域的变换。从对象视图到场视图的转换或逆过程,可以用特征函数(对象到场)或反函数(场到对象)建立。但是有时海洋现象也有其特殊性,不能仅仅用这种变换就能够完全解决问题。例如,基于拉格朗日描述方法的海洋现象就是另外一种思路。所以,海洋场的表达目前基本上只局限于欧拉方式下,对于基于拉格朗日的海洋现象的表达需要采用新的表达方法,如采用时空“矢量”方式来处理。

基于拉格朗日描述的海洋动力学,它在监测和预报海洋环境污染方面的特殊地位,因此一直受到广泛重视。例如,海域内污染物质(如油膜)的漂移可以认为是一种拉格朗日形式的运动。简单地说,海水的流线场才真正代表了污染物质的运动特征,海水的运动轨迹场才真正代表了污染物质可能造成的危害。认识到这一点,就可以发现它在应用层次上所具有的特殊意义。

如上所述,海洋数据有时也称为海洋时空数据,它具有三个基本特征,即时间、空间和属性特征。这也是地理信息系统处理地理空间数据的一般方法。

2.1.4.4 时空数据的复杂性

相比于一般地理数据,海洋数据的时间特性和空间三维特性使得海洋地理信息时刻面对时空数据的复杂性问题,尤其是海洋数据的组织、存储和管理,如何对时间和空间重新组合,从而在原有的二维空间图层的概念上增加新的数据类型是一个重要的基本问题。

海洋时空数据除了在数量上具有大小的概念之外,在时空尺度问题上也遵循海洋科学固有的规律,因此时空数据具有自身的尺度问题和多层次问题。

2.1.4.5 海洋现象的表达

海洋要素数据的表达可以通过增加时间—空间组合的方式进行表达,但海洋现象本身还涉及海洋科学研究对海洋现象的定量化刻画问题,对此,涉及海洋地理信息系统的完整化,需要对海洋现象的基本涵义做出定量的解释,进而构建它的时空表达方式。

时空数据挖掘方法在在以下哪些方面可进行进一步研究

利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等, 它们分别从不同的角度对数据进行挖掘。1、分类分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别。它可以应用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等,如一个汽车零售商将客户按照对汽车的喜好划分成不同的类,这样营销人员就可以将新型汽车的广告手册直接邮寄到有这种喜好的客户手中,从而大大增加了商业机会。2、回归分析回归分析方法反映的是事务数据库中属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,发现变量或属性间的依赖关系,其主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等。它可以应用到市场营销的各个方面,如客户寻求、保持和预防客户流失活动、产品生命周期分析、销售趋势预测及有针对性的促销活动等。3、聚类聚类分析是把一组数据按照相似性和差异性分为几个类别,其目的是使得属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小。它可以应用到客户群体的分类、客户背景分析、客户购买趋势预测、市场的细分等。4、关联规则关联规则是描述数据库中数据项之间所存在的关系的规则,即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现,即隐藏在数据间的关联或相互关系。在客户关系管理中,通过对企业的客户数据库里的大量数据进行挖掘,可以从大量的记录中发现有趣的关联关系,找出影响市场营销效果的关键因素,为产品定位、定价与定制客户群,客户寻求、细分与保持,市场营销与推销,营销风险评估和预测等决策支持提供参考依据。5、特征特征分析是从数据库中的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征。如营销人员通过对客户流失因素的特征提取,可以得到导致客户流失的一系列原因和主要特征,利用这些特征可以有效地预防客户的流失。6、变化和偏差分析偏差包括很大一类潜在有趣的知识,如分类中的反常实例,模式的例外,观察结果对期望的偏差等,其目的是寻找观察结果与参照量之间有意义的差别。在企业危机管理及其预警中,管理者更感兴趣的是那些意外规则。意外规则的挖掘可以应用到各种异常信息的发现、分析、识别、评价和预警等方面。7、Web页挖掘随着Internet的迅速发展及Web 的全球普及, 使得Web上的信息量无比丰富,通过对Web的挖掘,可以利用Web 的海量数据进行分析,收集、经济、政策、科技、金融、各种市场、竞争对手、供求信息、客户等有关的信息,集中精力分析和处理那些对企业有重大或潜在重大影响的外部环境信息和内部经营信息,并根据分析结果找出企业管理过程中出现的各种问题和可能引起危机的先兆,对这些信息进行分析和处理,以便识别、分析、评价和管理危机。
-

3s技术的概念?

GIS:

地理信息系统,有时又称为“地学信息系统”或“资源与环境信息系统”。它是一种特定的十分重要的空间信息系统。它是在计算机硬、软件系统支持下,对整个或部分地球表层(包括大气层)空间中的有关地理分布数据进行采集、储存、管理、运算、分析、显示和描述的技术系统。

GPS:

GPS是英文Global Positioning System(全球定位系统)的简称。GPS起始于1958年美国军方的一个项目,1964年投入使用。20世纪70年代,美国陆海空三军联合研制了新一代卫星定位系统GPS 。

RS:

遥感是指非接触的,远距离的探测技术。一般指运用传感器/遥感器对物体的电磁波的辐射、反射特性的探测,并根据其特性对物体的性质、特征和状态进行分析的理论、方法和应用的科学技术。

它们在3S体系中各自充当着不同的角色,遥感技术是信息采集(提取)的主力;全球定位系统是对遥感图像(像片)及从中提取的信息进行定位,赋予坐标,使其能和"电子地图"进行套合;地理信息系统是信息的"大管家"。

拓展资料:

3S技术集成:

RS、GPS和GIS在空间信息采集、动态分析与管理等方面各具特色,且具有较强的互补性。这一特点使得3S技术在应用中紧密结合,并逐步朝着一体化集成的方向发展。

3s技术及其集成应用已经成为空间信息技术和环境科学的一个重要发展方向。

其中,GPS主要用于目标物的空间实时定位和不同地表覆盖边界的确定;

RS主要用于快速获取目标及其环境的信息,发现地表的各种变化,及时对GIS进行数据更新;

GIS是3S技术的核心部分,通过空间信息平台,对RS和GPS及其他来源的时空数据进行综合处理、集成管理及动态存取等操作,并借助数据挖掘技术和空间分析功能提取有用信息,使之成为决策的科学依据。

3S技术 百度百科

其他系统数据怎么清理

1、首先要找到手机设置,然后点击进去,如下图所示:

2、接着点击其它设置,如下图所示:

3、然后点击存储空间,如下图所示:

4、接着点击其他,如下图所示:

5、然后点击编辑,如下图所示:

6、最后将那些要删掉打勾,如下图所示:

7、然后点击删除,如下图所示:

展开全文