人工智能中大数据的预测算法,论述人工智能中大数据的预测算法

2023-10-02崇庆运势网热度: 4542

人工智能分析依赖大数据,可以分为图像预处理 特征筛选和什么三个阶段...

人工智能分析依赖大数据,可以分为图像预处理,特征筛选和预测与识别阶段。人工智能需要数据来建立其智能,特别是机器学习,大数据技术为人工智能提供了强大的存储能力和计算能力。如果说大数据相当于人的大脑存储了海量知识,而人工智能则是吸收了大量的数据,并不断的深度分析创造出更大的价值。人工智能离不开大数据,大数据依托着人工智能。

大数据与人工智能的关系

如果我们把人工智能看成一个嗷嗷待哺拥有无限潜力的婴儿,某一领域专业的海量的深度的数据就是喂养这个天才的奶粉。奶粉的数量决定了婴儿是否能长大,而奶粉的质量则决定了婴儿后续的智力发育水平。当然,并不是只要吃奶粉孩子就能健康的成长,还需要按时按需的补充,同时,孩子自身要具有良好的消化系统,所以大数据需要加上很好的算法和计算力,才能产生智能。

数据是基础,人工智能是实践,大数据,指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。因为大数据是数据采集到处理到存储的过程,所以我们要将这些海量的数据加以利用,才能使其产生作用,这就是数据的“实践”,实践才是大数据终极价值的体现。

人工智能算法简介

人工智能的三大基石—算法、数据和计算能力,算法作为其中之一,是非常重要的,那么人工智能都会涉及哪些算法呢?不同算法适用于哪些场景呢?

一、按照模型训练方式不同可以分为监督学习(Supervised Learning),无监督学习(Unsupervised Learning)、半监督学习(Semi-supervised Learning)和强化学习(Reinforcement Learning)四大类。

常见的监督学习算法包含以下几类:
(1)人工神经网络(Artificial Neural Network)类:反向传播(Backpropagation)、波尔兹曼机(Boltzmann Machine)、卷积神经网络(Convolutional Neural Network)、Hopfield网络(hopfield Network)、多层感知器(Multilyer Perceptron)、径向基函数网络(Radial Basis Function Network,RBFN)、受限波尔兹曼机(Restricted Boltzmann Machine)、回归神经网络(Recurrent Neural Network,RNN)、自组织映射(Self-organizing Map,SOM)、尖峰神经网络(Spiking Neural Network)等。
(2)贝叶斯类(Bayesin):朴素贝叶斯(Naive Bayes)、高斯贝叶斯(Gaussian Naive Bayes)、多项朴素贝叶斯(Multinomial Naive Bayes)、平均-依赖性评估(Averaged One-Dependence Estimators,AODE)
贝叶斯信念网络(Bayesian Belief Network,BBN)、贝叶斯网络(Bayesian Network,BN)等。
(3)决策树(Decision Tree)类:分类和回归树(Classification and Regression Tree,CART)、迭代Dichotomiser3(Iterative Dichotomiser 3, ID3),C4.5算法(C4.5 Algorithm)、C5.0算法(C5.0 Algorithm)、卡方自动交互检测(Chi-squared Automatic Interaction Detection,CHAID)、决策残端(Decision Stump)、ID3算法(ID3 Algorithm)、随机森林(Random Forest)、SLIQ(Supervised Learning in Quest)等。
(4)线性分类器(Linear Classifier)类:Fisher的线性判别(Fisher’s Linear Discriminant)
线性回归(Linear Regression)、逻辑回归(Logistic Regression)、多项逻辑回归(Multionmial Logistic Regression)、朴素贝叶斯分类器(Naive Bayes Classifier)、感知(Perception)、支持向量机(Support Vector Machine)等。

常见的无监督学习类算法包括:
(1) 人工神经网络(Artificial Neural Network)类:生成对抗网络(Generative Adversarial Networks,GAN),前馈神经网络(Feedforward Neural Network)、逻辑学习机(Logic Learning Machine)、自组织映射(Self-organizing Map)等。
(2) 关联规则学习(Association Rule Learning)类:先验算法(Apriori Algorithm)、Eclat算法(Eclat Algorithm)、FP-Growth算法等。
(3)分层聚类算法(Hierarchical Clustering):单连锁聚类(Single-linkage Clustering),概念聚类(Conceptual Clustering)等。
(4)聚类分析(Cluster analysis):BIRCH算法、DBSCAN算法,期望最大化(Expectation-maximization,EM)、模糊聚类(Fuzzy Clustering)、K-means算法、K均值聚类(K-means Clustering)、K-medians聚类、均值漂移算法(Mean-shift)、OPTICS算法等。
(5)异常检测(Anomaly detection)类:K最邻近(K-nearest Neighbor,KNN)算法,局部异常因子算法(Local Outlier Factor,LOF)等。

常见的半监督学习类算法包含:生成模型(Generative Models)、低密度分离(Low-density Separation)、基于图形的方法(Graph-based Mods)、联合训练(Co-training)等。

常见的强化学习类算法包含:Q学习(Q-learning)、状态-行动-奖励-状态-行动(State-Action-Reward-State-Action,SARSA)、DQN(Deep Q Network)、策略梯度算法(Policy Gradients)、基于模型强化学习(Model Based RL)、时序差分学习(Temporal Different Learning)等。

常见的深度学习类算法包含:深度信念网络(Deep Belief Machines)、深度卷积神经网络(Deep Convolutional Neural Networks)、深度递归神经网络(Deep Recurrent Neural Network)、分层时间记忆(Hierarchical Temporal Memory,HTM)、深度波尔兹曼机(Deep Boltzmann Machine,DBM)、栈式自动编码器(Stacked Autoencoder)、生成对抗网络(Generative Adversarial Networks)等。

二、按照解决任务的不同来分类,粗略可以分为二分类算法(Two-class Classification)、多分类算法(Multi-class Classification)、回归算法(Regression)、聚类算法(Clustering)和异常检测(Anomaly Detection)五种。
1.二分类(Two-class Classification)
(1)二分类支持向量机(Two-class SVM):适用于数据特征较多、线性模型的场景。
(2)二分类平均感知器(Two-class Average Perceptron):适用于训练时间短、线性模型的场景。
(3)二分类逻辑回归(Two-class Logistic Regression):适用于训练时间短、线性模型的场景。
(4)二分类贝叶斯点机(Two-class Bayes Point Machine):适用于训练时间短、线性模型的场景。(5)二分类决策森林(Two-class Decision Forest):适用于训练时间短、精准的场景。
(6)二分类提升决策树(Two-class Boosted Decision Tree):适用于训练时间短、精准度高、内存占用量大的场景
(7)二分类决策丛林(Two-class Decision Jungle):适用于训练时间短、精确度高、内存占用量小的场景。
(8)二分类局部深度支持向量机(Two-class Locally Deep SVM):适用于数据特征较多的场景。
(9)二分类神经网络(Two-class Neural Network):适用于精准度高、训练时间较长的场景。

解决多分类问题通常适用三种解决方案:第一种,从数据集和适用方法入手,利用二分类器解决多分类问题;第二种,直接使用具备多分类能力的多分类器;第三种,将二分类器改进成为多分类器今儿解决多分类问题。
常用的算法:
(1)多分类逻辑回归(Multiclass Logistic Regression):适用训练时间短、线性模型的场景。
(2)多分类神经网络(Multiclass Neural Network):适用于精准度高、训练时间较长的场景。
(3)多分类决策森林(Multiclass Decision Forest):适用于精准度高,训练时间短的场景。
(4)多分类决策丛林(Multiclass Decision Jungle):适用于精准度高,内存占用较小的场景。
(5)“一对多”多分类(One-vs-all Multiclass):取决于二分类器效果。

回归
回归问题通常被用来预测具体的数值而非分类。除了返回的结果不同,其他方法与分类问题类似。我们将定量输出,或者连续变量预测称为回归;将定性输出,或者离散变量预测称为分类。长巾的算法有:
(1)排序回归(Ordinal Regression):适用于对数据进行分类排序的场景。
(2)泊松回归(Poission Regression):适用于预测事件次数的场景。
(3)快速森林分位数回归(Fast Forest Quantile Regression):适用于预测分布的场景。
(4)线性回归(Linear Regression):适用于训练时间短、线性模型的场景。
(5)贝叶斯线性回归(Bayesian Linear Regression):适用于线性模型,训练数据量较少的场景。
(6)神经网络回归(Neural Network Regression):适用于精准度高、训练时间较长的场景。
(7)决策森林回归(Decision Forest Regression):适用于精准度高、训练时间短的场景。
(8)提升决策树回归(Boosted Decision Tree Regression):适用于精确度高、训练时间短、内存占用较大的场景。

聚类
聚类的目标是发现数据的潜在规律和结构。聚类通常被用做描述和衡量不同数据源间的相似性,并把数据源分类到不同的簇中。
(1)层次聚类(Hierarchical Clustering):适用于训练时间短、大数据量的场景。
(2)K-means算法:适用于精准度高、训练时间短的场景。
(3)模糊聚类FCM算法(Fuzzy C-means,FCM):适用于精确度高、训练时间短的场景。
(4)SOM神经网络(Self-organizing Feature Map,SOM):适用于运行时间较长的场景。
异常检测
异常检测是指对数据中存在的不正常或非典型的分体进行检测和标志,有时也称为偏差检测。
异常检测看起来和监督学习问题非常相似,都是分类问题。都是对样本的标签进行预测和判断,但是实际上两者的区别非常大,因为异常检测中的正样本(异常点)非常小。常用的算法有:
(1)一分类支持向量机(One-class SVM):适用于数据特征较多的场景。
(2)基于PCA的异常检测(PCA-based Anomaly Detection):适用于训练时间短的场景。

常见的迁移学习类算法包含:归纳式迁移学习(Inductive Transfer Learning) 、直推式迁移学习(Transductive Transfer Learning)、无监督式迁移学习(Unsupervised Transfer Learning)、传递式迁移学习(Transitive Transfer Learning)等。

算法的适用场景:
需要考虑的因素有:
(1)数据量的大小、数据质量和数据本身的特点
(2)机器学习要解决的具体业务场景中问题的本质是什么?
(3)可以接受的计算时间是什么?
(4)算法精度要求有多高?
————————————————

原文链接: https://blog.csdn.net/nfzhlk/article/details/82725769

人工智能,大数据与深度学习之间的关系和差异

说到人工智能(AI)的定义,映入脑海的关键词可能是“未来”,“科幻小说”,虽然这些因素看似离我们很遥远,但它却是我们日常生活的一部分。语音助手的普及、无人驾驶的成功,人工智能、机器学习、深度学习已经深入我们生活的各个场景。例如京东会根据你的浏览行为和用户的相似性,利用算法为你推荐你需要的产品;又比如美颜相机,会基于你面部特征的分析,通过算法精细你的美颜效果。还有众所周知的谷歌DeepMind,当AlphaGo打败了韩国职业围棋高手Lee Se-dol时,媒体描述这场人机对战的时候,提到了人工智能AI、机器学习、深度学习等术语。没错,这三项技术都为AlphaGo的胜利立下了汗马功劳,然而它们并不是一回事。

人工智能和机器学习的同时出现,机器学习和深度学习的交替使用......使大部分读者雾里看花,这些概念究竟有何区别,我们可以通过下面一个关系图来进行区分。

图一:人工智能、机器学习、深度学习的关系

人工智能包括了机器学习和深度学习,机器学习包括了深度学习。人工智能是机器学习的父类,机器学习则是深度学习的父类。

人工智能(Artificial Intelligence,AI)是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的与人类智能相似的方式作出反应的智能机器,它不是人的智能,但能像人那样思考、也可能超过人的智能。

人工智能实际应用:机器视觉,指纹识别,人脸识别,视网膜识别,虹膜识别,掌纹识别,专家系统,自动规划,智能搜索,定理证明,博弈,自动程序设计,智能控制,机器人学,语言和图像理解,遗传编程等。人工智能目前也分为:强人工智能(BOTTOM-UPAI)和弱人工智能(TOP-DOWNAI)。

机器学习(Machine Learning,ML)是人工智能的核心,属于人工智能的一个分支。机器学习是指从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法,所以机器学习的核心是数据、算法(模型)、算力(计算机运算能力)。

机器学习应用领域:数据挖掘、数据分类、计算机视觉、自然语言处理(NLP)、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人运用等。

深度学习(Deep Learning,DL):是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据。

数据挖掘(Data Mining,DM),顾名思义是指利用机器学习技术从海量数据中“挖掘”隐藏信息,主要应用于图像、声音、文本。在商业环境中,企业希望让存放在数据库中的数据能“说话”,支持决策。所以数据挖掘更偏向于应用。

图二:数据挖掘与机器学习的关系

机器学习是数据挖掘的一种重要方法,但机器学习是另一门学科,并不从属于数据挖掘,二者相辅相成。数据挖掘是机器学习和数据库的交叉,主要利用机器学习提供的技术来分析海量数据,利用数据库界提供的技术来管理海量数据。

不管是人工智能、机器学习、深度学习还是数据挖掘,目前都在解决共同目标时发挥了自己的优势,并为社会生产和人类生活提供便利,帮助我们探索过去、展示现状、预测未来。

人工智能与大数据怎样结合

了解大数据与人工智能的区别与联系,首先我们从认知和理解大数据和人工智能的概念开始。
1、大数据
大数据是物联网、Web系统和信息系统发展的综合结果,其中物联网的影响最大,所以大数据也可以说是物联网发展的必然结果。大数据相关的技术紧紧围绕数据展开,包括数据的采集、整理、传输、存储、安全、分析、呈现和应用等等。目前,大数据的价值主要体现在分析和应用上,比如大数据场景分析等。
2、人工智能
人工智能是典型的交叉学科,研究的内容集中在机器学习、自然语言处理、计算机视觉、机器人学、自动推理和知识表示等六大方向,目前机器学习的应用范围还是比较广泛的,比如自动驾驶、智慧医疗等领域都有广泛的应用。人工智能的核心在于“思考”和“决策”,如何进行合理的思考和合理的行动是目前人工智能研究的主流方向。
3、大数据与人工智能
大数据和人工智能虽然关注点并不相同,但是却有密切的联系,一方面人工智能需要大量的数据作为“思考”和“决策”的基础,另一方面大数据也需要人工智能技术进行数据价值化操作,比如机器学习就是数据分析的常用方式。在大数据价值的两个主要体现当中,数据应用的主要渠道之一就是智能体(人工智能产品),为智能体提供的数据量越大,智能体运行的效果就会越好,因为智能体通常需要大量的数据进行“训练”和“验证”,从而保障运行的可靠性和稳定性。
目前大数据相关技术已经趋于成熟,相关的理论体系已经逐步完善,而人工智能尚处在行业发展的初期,理论体系依然有巨大的发展空间。从学习的角度来说,如果从大数据开始学习是个不错的选择,从大数据过渡到人工智能也会相对比较容易。总的来说,两个技术之间并不存在孰优孰劣的问题,发展空间都非常大。

常用的分类和预测算法有哪些

常用的分类与预测算法 根据挖掘目标和数据形式可以建立分类与预测、聚类分析、关联规则、时序模式、偏差检测。

怎样用Excel函数做数据预测

预测9到12月的数据方法:
月数据=(一月销售+二月销售+.....+八月销售)/8
预测2015年数据方法:
(2014年一月到八月实际数据+九月到十二月预测数据)*2015年的通货膨胀率

展开全文