数据挖掘的关联规则挖掘

啦啦啦啦 2024-12-23 04:20:50
最佳回答
1先看一个简单的例子,假如有下面数据集,每一组数据ti表示不同的顾客一次在商场购买的商品的集合:t1: 牛肉、鸡肉、牛奶t2: 牛肉、奶酪t3: 奶酪、靴子t4: 牛肉、鸡肉、奶酪t5: 牛肉、鸡肉、衣服、奶酪、牛奶t6: 鸡肉、衣服、牛奶t7: 鸡肉、牛奶、衣服 假如有一条规则:牛肉—>鸡肉,那么同时购买牛肉和鸡肉的顾客比例是3/7,而购买牛肉的顾客当中也购买了鸡肉的顾客比例是3/4。这两个比例参数是很重要的衡量指标,它们在关联规则中称作支持度(support)和置信度(confidence)。对于规则:牛肉—>鸡肉,它的支持度为3/7,表示在所有顾客当中有3/7同时购买牛肉和鸡肉,其反应了同时购买牛肉和鸡肉的顾客在所有顾客当中的覆盖范围;它的置信度为3/4,表示在买了牛肉的顾客当中有3/4的人买了鸡肉,其反应了可预测的程度,即顾客买了牛肉的话有多大可能性买鸡肉。其实可以从统计学和集合的角度去看这个问题, 假如看作是概率问题,则可以把“顾客买了牛肉之后又多大可能性买鸡肉”看作是条件概率事件,而从集合的角度去看,可以看下面这幅图:1相关内容未经授权抓取自百度经验2上面这副图可以很好地描述这个问题,s表示所有的顾客,而a表示买了牛肉的顾客,b表示买了鸡肉的顾客,c表示既买了牛肉又买了鸡肉的顾客。那么c.count/s.count=3/7,c.count/a.count=3/4。  在数据挖掘中,例如上述例子中的所有商品集合i={牛肉,鸡肉,牛奶,奶酪,靴子,衣服}称作项目集合,每位顾客一次购买的商品集合ti称为一个事务,所有的事务t={t1,t2,....t7}称作事务集合,并且满足ti是i的真子集。一条关联规则是形如下面的蕴含式:  x—>y,x,y满足:x,y是i的真子集,并且x和y的交集为空集  其中x称为前件,y称为后件。  对于规则x—>y,根据上面的例子可以知道它的支持度(support)=(x,y).count/t.count,置信度(confidence)=(x,y).count/x.count 。其中(x,y).count表示t中同时包含x和y的事务的个数,x.count表示t中包含x的事务的个数。  关联规则挖掘则是从事务集合中挖掘出满足支持度和置信度最低阈值要求的所有关联规则,这样的关联规则也称强关联规则。  对于支持度和置信度,我们需要正确地去看待这两个衡量指标。一条规则的支持度表示这条规则的可能性大小,如果一个规则的支持度很小,则表明它在事务集合中覆盖范围很小,很有可能是偶然发生的;如果置信度很低,则表明很难根据x推出y。根据条件概率公式p(y|x)=p(x,y)/p(x),即p(x,y)=p(y|x)*p(x)  p(y|x)代表着置信度,p(x,y)代表着支持度,所以对于任何一条关联规则置信度总是大于等于支持度的。并且当支持度很高时,此时的置信度肯定很高,它所表达的意义就不是那么有用了。这里要注意的是支持度和置信度只是两个参考值而已,并不是绝对的,也就是说假如一条关联规则的支持度和置信度很高时,不代表这个规则之间就一定存在某种关联。举个最简单的例子,假如x和y是最近的两个比较热门的商品,大家去商场都要买,比如某款手机和某款衣服,都是最新款的,深受大家的喜爱,那么这条关联规则的支持度和置信度都很高,但是它们之间没有必然的联系。然而当置信度很高时,支持度仍然具有参考价值,因为当p(y|x)很高时,可能p(x)很低,此时p(x,y)也许会很低。end 20210311
汇率兑换计算器

类似问答
  • app数据分析中,需对哪些关键指标进行挖掘?
    • 2024-12-23 05:33:52
    • 提问者: 未知
    一、为什么要做app数据分析 1.搭建数据运营分析框架 一个app的...app的数据指标体系主要分为五个维度,包括用户规模与质量、参与度分析、渠道分析、功能分析和用户属性分析。...
  • 大数据征信_风险控制_征信数据如何挖掘?
    • 2024-12-23 05:33:35
    • 提问者: 未知
    互联网金融现在通过大数据风控、大数据征信来进行风险控制,那么这些征信数据他们如何挖掘的?怎么就算的上是大数据?大数据风控是噱头还是干货???
  • 数据分析/挖掘工作的疑惑?
    • 2024-12-23 14:54:31
    • 提问者: 未知
    1:分析与挖掘是相辅相成的,比如你要做男女购买的分析,可是你的网站不记录购买商品会员的性别,那咋办?
  • 求一些"数据仓库和数据挖掘"的案例
    • 2024-12-23 05:44:16
    • 提问者: 未知
    去数据挖掘相关论坛 诸如之类上去找吧
  • 求量化投资数据挖掘与实践pdf。
    • 2024-12-23 01:23:51
    • 提问者: 未知
    我这边有两本书,一本是量化投资基础知识(涉及量化投资模型、期货套利、期现套利、算法交易等)另一本是数据挖掘:概念与技术与实战(原书第3版)不知道是不是你想要的!你这个合并在一起的这本书没有!量化投资基础知识(涉及量化投资模型、期货套利、期现套利、算法交易等)因为同时不能...
  • 有什么适合数据分析与数据挖掘初学者的书?
    • 2024-12-23 09:18:59
    • 提问者: 未知
    源码 github星级 300左右 learning scrapy-2016.pdf 另有中文电子版本 因为版权已经在csdn等网站下架,可以在qq群...产品经理用它来分析数据、拆解指标,实现流程的良性运转;...
  • 国内的数据挖掘,大数据应用的案例有哪些?
    • 2024-12-23 09:44:31
    • 提问者: 未知
    “目前的大数据在国内,就好比是一堆青春期的孩子在谈论“性”,每个人都喜欢谈,如果不谈就好像自己不正…
  • 数据分析如何转数据挖掘?
    • 2024-12-23 07:29:58
    • 提问者: 未知
    本科通信,毕业后一直从事与数据不太相关的工作。去年6月份转到一家互联网公司做数据分析师,半年来大部分工作是sql提数,活动效果跟踪,写分析报告等工作,想转数据挖掘,但发现挖掘岗位对专业要求高,一线公司基本需要科班出身。自学过统计学,数据挖掘相关只看过一本《数据挖掘导论》,都是野路子,不得其法。请教大牛们,分析岗位想转挖掘,有无可行方法建议?
  • 数据挖掘、机器
    • 2024-12-23 06:53:35
    • 提问者: 未知
    机器学习比较偏底层,也比较偏理论,机器学习本身不够炫酷,结合了具体的自然语言处理以及数据挖掘的问题才能炫酷。机器学习好像内力一样,是一个武者的基础,而自然语言和数据...
  • 数据挖掘在**哪个行业用处最广
    • 2024-12-23 08:49:28
    • 提问者: 未知
    电信业、银行业 还可以推广至服务业,只要掌握大量数据信息的行业,数据挖掘都可以提示其中隐藏的规律,并将其模型化,指导并应用于企业实际经营
汇率兑换计算器

热门推荐
热门问答
最新问答
推荐问答
新手帮助
常见问题
房贷计算器-九子财经 | 备案号: 桂ICP备19010581号-1 商务联系 企鹅:2790-680461

特别声明:本网为公益网站,人人都可发布,所有内容为会员自行上传发布",本站不承担任何法律责任,如内容有该作者著作权或违规内容,请联系我们清空删除。