什么是结构化数据和非结构化数据?什么是数据清洗?

Nono 2024-05-30 17:27:54
最佳回答
相对于结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、xml、html、各类报表、图像和音频/视频信息等等。  字段可根据需要扩充,即字段数目不定,可称为半结构化数据,例如exchange存储的数据。  非结构化数据库  在信息社会,信息可以划分为两大类。一类信息能够用数据或统一的结构加以表示,我们称之为结构化数据,如数字、符号;而另一类信息无法用数字或统一的结构表示,如文本、图像、声音、网页等,我们称之为非结构化数据。结构化数据属于非结构化数据,是非结构化数据的特例  数据清洗从名字上也看的出就是把“脏”的“洗掉”。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。我们要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗.而数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。  (1)不完整的数据  这一类数据主要是一些应该有的信息缺失,如供应商的名称、分公司的名称、客户的区域信息缺失、业务系统中主表与明细表不能匹配等。对于这一类数据过滤出来,按缺失的内容分别写入不同excel文件向客户提交,要求在规定的时间内补全。补全后才写入数据仓库。  (2)错误的数据  这一类错误产生的原因是业务系统不够健全,在接收输入后没有进行判断直接写入后台数据库造成的,比如数值数据输成全角数字字符、字符串数据后面有一个回车操作、日期格式不正确、日期越界等。这一类数据也要分类,对于类似于全角字符、数据前后有不可见字符的问题,只能通过写sql语句的方式找出来,然后要求客户在业务系统修正之后抽取。日期格式不正确的或者是日期越界的这一类错误会导致etl运行失败,这一类错误需要去业务系统数据库用sql的方式挑出来,交给业务主管部门要求限期修正,修正之后再抽取。  (3)重复的数据  对于这一类数据——特别是维表中会出现这种情况——将重复数据记录的所有字段导出来,让客户确认并整理。  数据清洗是一个反复的过程,不可能在几天内完成,只有不断的发现问题,解决问题。对于是否过滤,是否修正一般要求客户确认,对于过滤掉的数据,写入excel文件或者将过滤数据写入数据表,在etl开发的初期可以每天向业务单位发送过滤数据的邮件,促使他们尽快地修正错误,同时也可以做为将来验证数据的依据。数据清洗需要注意的是不要将有用的数据过滤掉,对于每个过滤规则认真进行验证,并要用户确认。  随着网络技术的发展,特别是internet和intranet技术的飞快发展,使得非结构化数据的数量日趋增大。这时,主要用于管理结构化数据的关系数据库的局限性暴露地越来越明显。因而,数据库技术相应地进入了“后关系数据库时代”,发展进入基于网络应用的非结构化数据库时代。所谓非结构化数据库,是指数据库的变长纪录由若干不可重复和可重复的字段组成,而每个字段又可由若干不可重复和可重复的子字段组成。简单地说,非结构化数据库就是字段可变的数据库。  我国非结构化数据库以北京国信贝斯(ibase)软件有限公司的ibase数据库为代表。ibase数据库是一种面向最终用户的非结构化数据库,在处理非结构化信息、全文信息、多媒体信息和海量信息等领域以及internet/intranet应用上处于国际先进水平,在非结构化数据的管理和全文检索方面获得突破。它主要有以下几个优点:  (1)internet应用中,存在大量的复杂数据类型,ibase通过其外部文件数据类型,可以管理各种文档信息、多媒体信息,并且对于各种具有检索意义的文档信息资源,如html、doc、rtf、txt等还提供了强大的全文检索能力。  (2)它采用子字段、多值字段以及变长字段的机制,允许创建许多不同类型的非结构化的或任意格式的字段,从而突破了关系数据库非常严格的表结构,使得非结构化数据得以存储和管理。  (3)ibase将非结构化和结构化数据都定义为资源,使得非结构数据库的基本元素就是资源本身,而数据库中的资源可以同时包含结构化和非结构化的信息。所以,非结构化数据库能够存储和管理各种各样的非结构化数据,实现了数据库系统数据管理到内容管理的转化。  (4)ibase采用了面向对象的基石,将企业业务数据和商业逻辑紧密结合在一起,特别适合于表达复杂的数据对象和多媒体对象。  (5)ibase是适应internet发展的需要而产生的数据库,它基于web是一个广域网的海量数据库的思想,提供一个网上资源管理系统ibase web,将网络服务器(webserver)和数据库服务器(database server)直接集成为一个整体,使数据库系统和数据库技术成为web的一个重要有机组成部分,突破了数据库仅充当web体系后台角色的局限,实现数据库和web的有机无缝组合,从而为在internet/intranet上进行信息管理乃至开展电子商务应用开辟了更为广阔的领域。  (6)ibase全面兼容各种大中小型的数据库,对传统关系数据库,如oracle、sybase、sqlserver、db2、**rmix等提供导入和链接的支持能力。  通过从上面的分析后我们可以预言,随着网络技术和网络应用技术的飞快发展,完全基于internet应用的非结构化数据库将成为继层次数据库、网状数据库和关系数据库之后的又一重点、热点技术。 20210311
汇率兑换计算器

类似问答
  • 什么是数据可视化?
    • 2024-05-30 03:11:11
    • 提问者: 未知
    环状信息网络可将不同关系的数据环形排列,利用柱状图,...此类分析图可说明各部件之间的关系构架,同时植入时间,地理位置,功能等第三维度,可表达信息随不同信息元素变化而...
  • 什么是大数据,什么是大数据概念?
    • 2024-05-30 05:04:12
    • 提问者: 未知
    互联网时代背景下大数据是什么,大数据概念是什么
  • 什么是结构化**?
    • 2024-05-30 05:02:08
    • 提问者: 未知
    结构化**是以 ** 形式发行的高收益投资工具,是一种结合“固定收益型产品”及“衍生性金融产品”的 投资 工具,透过发行机构将大部分的 本金 投资于固定收益产品,利用...
  • 如何学习数据结构?
    • 2024-05-30 01:52:22
    • 提问者: 未知
    本人学的是电子系,想考计算机的研究生,本科阶段接触的编程不算丰富,顶多是单片机的程序写的还算多!最…
  • 关系型数据库和非关系型数据库有什么区别?
    • 2024-05-30 12:25:53
    • 提问者: 未知
    没有明确的分类标准,但根据应用场景大致可分为几类:1、文档数据库,没研究过定义,通常mongodb 就是文档数据库,...关系型数据库有基本的四则运算可以增减列或增减行:选择...
  • 小数据和大数据的区别是什么,有什么关系?
    • 2024-05-30 00:16:48
    • 提问者: 未知
    曾经参加过交流会议,有些公司几千万条的数据也称为大数据,也用什么大数据架构,我猜想如果他的架构放到高并发场合...这使得银行的营销部门、零售部门不得不思考,如何结合线...
  • 什么是大数据 大数据是什么意思
    • 2024-05-30 20:53:47
    • 提问者: 未知
    大数据指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。通过大量的统计了解大家的喜好,想要的东西,从而得到他们想要的,比如精准营销,征信分析,消费分析等等
  • 股票k线图的1分钟底部结构和顶部结构是通过什么数据看来的?
    • 2024-05-30 14:08:52
    • 提问者: 未知
    当然是这一分钟的起始价格来定的,日k线你懂吧,换成分钟就不懂了?请采纳!
  • 数据结构与算法实验
    • 2024-05-30 11:44:12
    • 提问者: 未知
    数据结构实验报告题目:线性表班网络工程1401班学号:1408020106指导教师:高峰日期:2016/7/6实验一:线性表一:实验要求掌握数据结构**性表的基本概念。熟练掌握线性表的基本操作:创建、插入、删除、查找、输出、求长度及合并并运算在顺序存储结构撒谎能够的实验。熟练掌握链表的各种操作和应用。二.实验内容1.编程实现在顺序存储的有序表中插入一个元素(数据类型为整型)。2.编程实现把顺序表中...
  • 为什么说虚拟化是数据中心架构的核心技术?
    • 2024-05-30 20:22:04
    • 提问者: 未知
    随着信息化的多年建发展,诸多商业银行中心形固化的建设扩展模式,即以具体建设为中心,根据应用需求的增加节奏,尽量将发展最大化,通常大都独立配置与搭建服务器和存储系统**。在发展之初,这种模式被认为简单高效、有的放矢,然而长期以往,这种模式的弊病就渐渐显现出来:系统割据、资源分散、投资巨大、能耗居高不下、管理低效等。本论文正是针对上述问题,结合某银行实际情况解决这些痼疾,通过详细讨论分析某商业银行当前...
汇率兑换计算器

热门推荐
热门问答
最新问答
推荐问答
新手帮助
常见问题
房贷计算器-九子财经 | 备案号: 桂ICP备19010581号-1 商务联系 企鹅:2790-680461

特别声明:本网为公益网站,人人都可发布,所有内容为会员自行上传发布",本站不承担任何法律责任,如内容有该作者著作权或违规内容,请联系我们清空删除。