数据科学的核心不在于算法调参或模型部署,而在于如何基于业务创建分析型数据集。事务数据库为应用性能而设计,难以直接用于建模;分析数据库则需按研究目标(如客户流失、产品推荐)对数据进行特定聚合。
将事务数据转为可分析数据,需深入理解业务,并具备批判性思维。这通常是一个长期调研过程,而非即插即用。
目标定义常遇挑战
事务库通常无现成目标变量。数据探索中常见问题包括:分析师分类标准不一、行为描述理解模糊、收集流程中途变更、填写流于形式导致偏见等。这些都可能使已有数据不可用。
示例:信用违约预测分析库的构建
假设需预测客户未来是否会拖欠发票,过程如下:
定义目标
分析逾期天数分布(如75%发票在到期后17天内支付),结合业务容忍度设定阈值(如逾期30天以上即视为“坏客户”)。这需要业务判断,而非纯统计。
确定时间窗口
定义观察期(如过去12个月)和绩效期(如未来6个月),以此划定数据集范围。窗口过短增加方差,过长可能过时。
创建目标变量
在绩效期内,若客户最大逾期天数≥30天,则标记为“坏”(0),否则为“好”(1),目标为预测“好”的概率。
排除不合理样本
如剔除观察点无信用额度、已严重逾期或从未交易的客户。
构建特征
按客户分组,生成描述观察期行为的变量,如年龄、额度使用率、采购总额、逾期天数等。
建模与解释
基于构建的分析库应用逻辑回归,输出客户在未来6个月内为好付款人的概率。评分越高,违约风险越低。
结论
数据科学远不止于模型拟合,关键在于正确界定问题、设计分析视图,并构建有意义的特征与目标。这项能力在课程中鲜有教授,却是区分优秀数据科学家的核心。