SQL 在数据仓库与应用服务器中的应用与发展
数据仓库性能
数据仓库的性能是其发挥作用的关键因素之一。若商业分析查询耗时过长,人们便不太会临时使用该仓库进行决策;若向仓库加载数据耗时过久,企业信息系统(IS)组织可能会抵制频繁更新,陈旧的数据会降低仓库的实用性。因此,实现加载性能与运行时性能的良好平衡,是成功部署数据仓库的关键。
加载性能
加载数据仓库的过程可能极为耗时,大型仓库的数据加载通常需要数小时甚至数天。加载处理一般涉及以下操作:
1.数据提取:要加载到仓库数据库的数据通常来自多个不同的运营数据源,部分可能是支持联机事务处理(OLTP)应用的关系型数据库。
2.数据清理:运营数据往往存在大量错误,例如旧的事务处理系统可能缺乏严格的完整性检查,导致输入错误的客户编号或产品编号。仓库加载过程通常会进行数据完整性和合理性检查。
3.数据交叉检查:许多公司支持不同业务操作的数据处理系统是在不同时间开发的,且未实现集成。一个系统处理的变更(如向订单处理应用添加新的产品编号)可能不会自动反映在其他系统(如库存控制系统)中,或者变更传播可能会有延迟。当来自这些非集成系统的数据到达仓库时,必须检查其内部一致性。
4.数据重新格式化:运营数据存储中的数据格式可能与仓库数据库有很大差异。字符数据可能需要从大型机的 EBCDIC 编码转换为 ASCII 编码,分区十进制或压缩十进制数据可能需要重新格式化,日期和时间格式也是差异来源之一。此外,来自一个 OLTP 数据源行的数据可能需要拆