1. 什么是数据挖掘 数据挖 据挖掘的目的:提高市场决策能 的术语和定义:data mining, k data archeology.
| 掘是从大量的数据中抽取出潜在的、 力;检测异常模式;在过去的经验基 nowledge discovery, pattern disc
| 不为人知的有用信息、模式和趋势。数 础上预言未来趋势等。 数据挖掘不同 overy, data dredging, knowledge,
| | 2. 数据挖掘支持技术 多技术的综合,Figure 1-2 |
3. 数据挖掘的概念和技术
| 数据挖掘的结果:分类;序列分析;
| 数据依赖分析;偏差检测 Figure 1-3
| Figure 1-10 Part I. Tech
| nologies for Data Mining
|
| * 体系:Figure 2-21,Figure 2-22,Figure 2-23 |
* 数据库、数据仓库与数据挖掘的关系:Figu
| re 3-10,Figure 3-11,Figure 3-12
|
* 统计推理:线性模型,非线性模型。线性回 ananlysis)技术用于分类;非线性技术用于估值
| 归用于预言;线性差别分析(linear discriminate ;抽样
| * 机器学习:active learn 习(concept learning);神经 programming)
| ing; learning from prior knowled 元网络;遗传算法;决策树;归纳逻
| ge; learning incrementally。概念学 辑设计(inductive logic
| * 可视化:可视化表达数据挖掘结果;将数据 术;使用可视化技术steer数据挖掘过程。
| 挖掘技术应用于可视化;使用可视化技术完善数据挖掘技
| | * 并行处理:数据挖掘算法 + 并行处理技术 = 并行数据挖掘算法 |
| * 决策支持:Figure 4-6,Figure 4-7 |
| * 综合技术体系结构:Figure5-1(标准接口和接口定义语言),Figure5-3 |
| * 功能体系结构:Figure5-4,Figure5-5 |
* 系统体系结构:ODBC/COR Figure5-11
| BA Figure5-8,Figure5-9,三层体
| 系结构Figure5-10,封装对象:
| Part II. Techniques and
| Tools for Data Mining
|
| * 数据挖掘项目: 需求;合适的数据;工具;人员;资金。 |
| o 超市分析交易数据,安排货架上货物摆布,以提高销售 |
| o 信用卡公司分析信用卡历史数据,判断哪些人有风险,哪些没有 |
| o 调查局分析行为模式,判断哪些人对受保护的信息具有潜在威胁 |
| o 药房分析医师的处方,判断哪些医师愿意购买他们的产品 |
| o 保险公司分析以前的客户记录,决定哪些客户是潜在花费昂贵的 |
| o 汽车公司分析不同地方人的购买模型,针对性地发送给客户喜欢的汽车的手册 |
| o 人才中心分析不同客户的工作历史,发送客户潜在的感兴趣的工作信息 |
| o 访问没有归类的竞争对手数据库,推断出潜在的归类信息 |
| o 教育学院分析学生历史信息,决定哪些人愿意参加培训,发送手册给他们 |
| o 核武器工厂分析历史核查信息记录,决定没有采用哪项预防措施将导致核灾难 |
| o 广告公司分析人们购买模式,估计他们的收入和孩子数目, 作为潜在的市场信息 |
| o 调查局分析不同团体的旅游模式,决定不同团体之间的关联 |
| o 医师分析病人历史和当前用药情况,不仅诊断用药而且预测潜在的问题 |
| o 税务局分析不同团体的交所得税的记录,发现异常模型和趋势 |
| o 调查局分析罪犯记录,推断哪些人可能会犯恐怖罪和大的谋杀罪 |
| * 数据挖掘的步骤:Figure 6-3,修剪结果:Figure 6-4;管理因素 |
| o Estimation: 例子,分析消费模型,估计个人收入和孩子数目 |
| o 预言 例子,根据个人教育、当前工作、行业趋势,预言2005年工资 |
| o Affinity Grouping(关联规则,Correlation ) |
o 异常检测 anomaly:frau
| d detection ; medical illness de
| tection …
|
o 自下而上bottom-up:直接(supervised le
| arning)- 提问;间接
|
| o market basket analysis: 智能搜索,超市 |
o link analysis, automatic cluster detec
| tion techniques ,nearest neighbor techniques
|
开发新的模型、框架:Stan Rutgers University 目的:综 University,MITRE Corporatio Rutgers University,数据挖掘
| ford University; MITRE Corporati 合数据挖掘和数据库管理 项目名称 n,Hitachi Corporation),开发支 查询语言
| on ; Hitachi Corporation ; :Queryflocks (Stanford 持数据挖掘查询方法和优化技术。
| 挖掘不同类型的数据(多媒 Arizona;Feldman,Bar-Ilan U Lab);Clifton,MITRE Co.;U ;University of Minnesota
| 体) Text数据挖掘:Queryflocks; niversity in Israel Image数据挖 niversity of British Columbia WE
| Cheng and Ng ,University of 掘:SKICAT,JPL(Jet Propulsion B数据挖掘:University of Michigan
| 数据挖掘算法的可度量性:The Massive Digi Machines Co.;SGI;IBM’s YorkTown Heights r
| tal Data System Project;Magnify Inc.;Thinking esearch laboratory
| GTE Lab;Simon Fraser Un
| iversity;University of Massachu
| setts at Lowell
| IBM Quest project, Agarw
| alSimon Fraser University’s DBM
| INER, Han
|
| o Information Discovery: IDIS |
| o Neo Vista: DECISION SERIES |
| Part III. Trends in Data Mining |
| * 分布式数据库:Figure 10-1,Figure 10-2 |
| o 分布式数据挖掘:Figure 10-6,Figure 10-9 |
o 异质数据库挖掘:Figure 10-10,Figure 1 作数据挖掘,中间件 Figure 10-16
| 0-11,Figure 10-12,Figure 10-13,Figure 10-14 合
| o 遗留数据库挖掘:Figure
| 10-17,Figure 10-18,系统重建Fi
| gure 10-19
|
| * 两种方法:抽取结构,挖掘结构数据;直接挖掘多媒体数据 |
* 多媒体数据库:体系结构;数据建模;MM-D ;一致性和完整性。
| BMS 功能:数据操纵,事务管理,元数据管理;存储管理
| 半结构,非结构; 转换成 据挖掘与信息检索结合Figure 1
| 结构化数据,在结构化数据上挖掘( 1-11 开发直接挖掘非结构化数据的
| 文本—关系数据库)Figure 11-10 数 工具Figure 11-12
| Clifton 抽取元数据挖掘;
| Unusual pattern; classify, clust
| er, associate image
| | 转化Figure 11-14;直接挖掘Figure 11-15 |
| 与Video类似,Text转化Figure 11-16;直接挖掘Figure 11-17 |
与异质数据库类似,MDP Multimedia Distrib 综合Figure 11-19
| uted Processor 先综合后挖掘Figure 11-18, 先挖掘后
|
o 挖掘Web数据:Figure 12
| -6;Figure 12-7;Figure 12-8;Fi
| gure 12-9;Figure 12-10
|
| * mining , warehouse , inference |
| o mining and repository Figure 14-5 |
| o 中心容器Figure 14-8(数据库中的数据很难直接挖掘) |
1. 总结 Chap 1:引言 概念;结果,技术, Part I :支持数据挖掘的技术 Chap 2:数据库 和数据挖掘的结合 Chap 3:数据仓库 数据仓库定 和数据挖掘的关系 Chap 4:其他支持的技术:统 :数据挖掘不同的体系结构:技术;功能;Client 挖掘过程 例子(偏差分析/关联规则/分类等); :数据挖掘的结果(任务),方法和技术 结果-聚 策树/神经网络/逻辑归纳 Chap 8:逻辑归纳induc ;ILP作为数据挖掘技术及其缺陷 Chap 9:数据挖 解性/可度量性/大规模项目;商业工具 Part III 库 新的研究领域;问题;需要做的工作 Chap 11 的数据挖掘 – 文本/图象/视频/音频数据;方向 数字图书馆;WEB数据挖掘 – Internet数据库( 13:数据挖掘的安全和隐私问题 推论问题inferen 私问题 Chap 14:数据挖掘的元数据 元数据简介
| 方法;本书三层框架- 所涉及的技术,技术和工具,趋势 系统 数据模型;数据库体系结构;数据库功能;数据库 义、技术、功能;开发数据仓库;数据仓库、数据库管理 计、机器学习、可视化、并行处理、和决策支持 Chap 5 /Server Part II :数据挖掘技术和工具 Chap 6:数据 数据挖掘的原因;数据挖掘步骤;用户接口方面 Chap 7 集/分类等;方法论-自顶而下/自下而上/混合;技术-决 tive logic programming 演绎逻辑编程;逻辑归纳编程 掘工具 研究原型-新的功能模型/新的信息服务/结果可理 :数据挖掘趋势 Chap 10:挖掘分布式、异质、遗留数据 :多媒体数据挖掘 多媒体数据库简介;在多媒体数据上 Chap 12:Web数据挖掘 Web数据管理;Internet数据库和 构建数据仓库和多媒体数据挖掘)/用户浏览模式 Chap ce problem;处理推论问题的方法;逻辑归纳和推论;隐 ;挖掘元数据;利用元数据挖掘数据
| | 标记数据,计算机处理,存储数据库,创建数据仓库,数据清洁,解决不确定性,格式化数据 |
| prune mining result,可视化,数据的可理解性 |
* Part III分布式,异质,遗留数据库/多媒体
| 数据/WEB数据/安全和隐私问题/元数据挖掘
|
| * 可度量性Scalability (大规模数据) |
* 数据挖掘是多技术的综合
| : 数据管理,机器学习,统计推理,高
| 性能计算,决策支持, 可视化
| | * 数据挖掘研究处于初级阶段 (98) : 期望不同的方法论和OO设计和分析技术的应用 |
|