去可网 > 杂谈 > 正文

​常用的数据采集方法(数据采集技术数据堂)

2023-08-14 07:17 来源:去可网 点击:

常用的数据采集方法(数据采集技术数据堂)

数据采集(data mining)技术是对数据库采取半自动的方式,寻找特定的模式、关联规则、变化规律、异常信息等具有统计意义的结构和事件。自20世纪90年代以来,数据采集就成为最具活力的研究领域之一,吸引了众多研究者从事这方面的研究。

1.数据采集方法的特点

数据采集方法与统计方法的不同之处主要体现在:通常的统计方法是在已有的假设基础上,从大量的数据中得到验证,而数据采集则是从大量的数据中得到崭新的模式、结论和假设;数据采集方法是纯粹的给予数据驱动的方式,而统计方法则更多地引入人为因素并加以分析。探索式数据分析是统计方法中与数据采集最相似的分支,但它所面向的数据集还是比数据采集对象小得多。

常用的数据采集方法(数据采集技术数据堂)(1)

2.数据采集的过程

数据采集过程可粗略地分为:问题定义(task definition)、数据准备和预处理(data preparation and preprocessing)、数据采集(data mining)以及结果的解释和评估(interpretation and evaluation)等阶段。

数据堂支持多种场景多种类型的数据采集需求,采集内容涵盖图像、文本、语音、视频等全维度数据。数据堂拥有专业的数据采集设备、丰富的数据采集项目经验及数据质量管控经验。 在数据采集过程中,数据堂严格遵守GDPR个人隐私数据保护相关条例,并已通过ISO9001质量管理体系认证、ISO27001信息安全管理体系认证,为数据安全全面护航。

问题定义 在该过程中,数据采集人员必须与领域专家及最终用户紧密协作,一方面明确实际工作对数据采集的要求,另一方面通过对各种学习算法的对比进而确定可用的学习算法。后续的学习算法选择和数据集准备都是在此基础上进行的。

数据采集 该阶段首先根据对问题的定义明确采集的任务或目的,如分类、聚类、关联规则发现或序列模式发现等。之后要决定使用什么样的算法。选择实现算法要考虑两个因素:一是不同的数据有不同的特点,因此,需要用与之相关的算法来采集;二是要根据用户或实际运行系统的要求,有的用户可能希望获取描述型的(descriptive)、容易理解的知识(采用规则表示的采集方法显然要好于神经网络之类的方法),而有的用户只是希望获取预测准确度尽可能高的预测型(predictive)知识,并不在意获取的知识是否易于理解。

结果解释和评估 数据采集阶段发现的模式,经过评估,可能存在冗余或无关的模式,这时需要将其剔除;模式也有可能不满足用户要求,这时则需要整个发现过程回退到前续阶段,如重新选取数据、采用新的数据变换方法、设定新的参数值,甚至换一种算法等。

3.采集结果质量评价

数据采集结果质量的好坏有两个影响因素:一是所采用的数据采集技术的有效性,二是用于采集的数据的质量和数据量。如果选择了错误的数据或不适当的属性,或对数据进行了不适当的转换,则采集结果不会好。整个采集过程是一个不断反馈的过程。

4.主要模型

(1) 关联规则模型

发现数据库中数据项之间的相互关系是十分重要的,根据这种关系可以使用户从数据中找到有意义的模式和趋势。以超级市场为例,每个记录包含了一次采购商品的列表,其中关联关系告诉我们两件或更多商品之间的关系。如80%的顾客购买了面包和牛奶,其中有60%的顾客在买面包的同时买了牛奶。我们把这种面包和牛奶之间的关联关系用下列规则方式表示为:面包→ 牛奶 |(60%,80%)。数据项的关联关系也可以在多个项之间产生,例如:面包、牛奶 → 甜酱 | (60%,40%)等。目前采用的典型关联算法有Aprioir算法和PHP散列表算法等。

(2) 神经网络模型

神经网络方法是模拟人脑神经元结构,以MP模型和Hebb学习规则为基础而建立的,主要有三大类多种神经网络模型。

前馈式网络 以感知机、反向传播模型、函数型网络为代表,可用于预测、模式识别等方面。

反馈式网络 以Hopfield的离散模型和连续模型为代表,分别用于联想记忆和优化计算。

自组织网络 以ART模型、Kohonen模型为代表,用于聚类。

神经网络的知识体现在网络连接的权值上,是一个分布式矩阵结构。神经网络的学习体现在神经网络权值的逐步计算上(包括反复迭代或累加计算)。

(3) 粗糙集理论模型

粗糙集理论是一种研究不精确、不确定性知识的数学工具,由波兰科学家Z.Pawlak于1982年首先提出。粗糙集的研究主要基于分类。分类和概念(concept)同义,一种类别对应于一个概念(类别一般表示为外延即集合,而概念常以内涵的形式表示如规则描述)。知识由概念组成,如果某知识中含有不精确概念,则该知识不精确。粗糙集对不精确概念的描述方法是:通过上近似概念和下近似概念这两个精确概念来表示。一个概念(或集合)的下近似(lower approximation)概念(或集合)指的是,其下近似中的元素肯定属于该概念;一个概念(或集合)的上近似(upper approximation)概念(或集合)指的是,其上近似中的元素可能属于该概念。粗糙集方法有几个优点:不需要预先知道额外信息,如统计中要求的先验概率和模糊集中要求的隶属度;算法简单、易于操作。

,