python基础（逻辑回归例题）-洪萨配资

一、参数选择

在逻辑回归建模中，“过拟合”是绕不开的坑——当模型在训练数据上表现完美，却在新数据上一塌糊涂时，大概率是模型复杂度超出了数据所能支撑的范围。而惩罚因子（也叫正则化参数），正是我们解决过拟合、平衡模型拟合度与泛化能力的核心工具。

1.通过LogisticRegression(C=i,penalty='l2',solver='lbfgs',max_iter=1000)函数C参数的选择最优惩罚因子。通过K折交叉验证cross_val_score(lr,x_train_w,y_train_w,cv=8,scoring='recall')函数来实现。

scores=[] #不同参数下的验证集评分 c_range=[0.01,0.1,1,10,100] for i in c_range: lr=LogisticRegression(C=i,penalty='l2',solver='lbfgs',max_iter=1000) score=cross_val_score(lr,x_train_w,y_train_w,cv=8,scoring='recall') score_m=sum(score)/len(score) scores.append(score_m) print(score_m) best_c=c_range[np.argmax(scores)] print("最优惩罚因子",best_c) lr=LogisticRegression(C=best_c,penalty='l2',solver='lbfgs',max_iter=1000) lr.fit(x_train_w,y_train_w) from sklearn import metrics train_predict=lr.predict(x_train_w) print(metrics.classification_report(y_train_w,train_predict))#获得混淆矩阵的准确值，召回值。 cm_plot(y_train_w,train_predict).show() test_predict=lr.predict(x_test_w) print(metrics.classification_report(y_test_w,test_predict,digits=6))#获得混淆矩阵的准确值，召回值。 cm_plot(y_test_w,test_predict).show()

二、下采样

下采样的核心是“削减多数类样本”，将不同类别的数量平衡一下，减少多的类别的数量

在案例中使用代码：

x_train_w=train_data[train_data['Class']==1]
y_train_w=train_data[train_data['Class']==0]
y_train_w=y_train_w.sample(len(x_train_w))

使用sample函数从y_train_w中抽取x_train_w的数量。

data=pd.read_csv("creditcard.csv") scaler=StandardScaler() data['Amount']=scaler.fit_transform(data[['Amount']]) data=data.drop(['Time'],axis=1)#axis=1，表示删除列 x=data.drop('Class',axis=1) y=data.Class x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.2,random_state=0) train_data=x_train train_data['Class']=y_train x_train_w=train_data[train_data['Class']==1] y_train_w=train_data[train_data['Class']==0] y_train_w=y_train_w.sample(len(x_train_w)) data_c=pd.concat([x_train_w,y_train_w]) x_train_w_1=data_c.drop('Class',axis=1) y_train_w_1=data_c.Class scores=[] c_range=[0.01,0.1,1,10,100] for i in c_range: lr=LogisticRegression(C=i,penalty='l2',solver='lbfgs',max_iter=1000) score=cross_val_score(lr,x_train_w_1,y_train_w_1,cv=10,scoring='recall') score_m=sum(score)/len(score) scores.append(score_m) print(score_m) best_c=c_range[np.argmax(scores)] print("最优因子：",best_c) lr=LogisticRegression(C=best_c,penalty='l2',solver='lbfgs',max_iter=1000) lr.fit(x_train_w_1,y_train_w_1)

三、过采样

上采样的核心是“扩充少数类样本”

我们可以使用SMOTE（合成少数类过采样技术）——在少数类样本的特征空间中，找到每个样本的k个近邻，通过插值生成新的少数类样本（如样本A和样本B的近邻，新样本=A+rand(0,1)*(B-A)）

from imblearn.over_sampling import SMOTE oversampler=SMOTE(random_state=100)#保证数据拟合效果，随机种子 os_x_train,os_y_train=oversampler.fit_resample(x_train,y_train)#人工拟合数据

打Web Developer靶机修改root密码夺取flag

虚拟机网络配置虚拟机kali和Web Developer都用NAT模式扫描靶机 kali查看自己的ip kali的ip是192.168.138.128，子网掩码是255.255.255.0 扫描存活主机 netdiscover -i eth0 -r 192.168.138.0/24 知道到靶机ip 192.168.138.130 nmap扫描端口和服务及版本 nma…

李华

Ollama本地安装DeepSeek大模型

一、Ollama官网 ollama官网搜索选择对应的大模型，根据机器规格选择合适的大模型二、本地运行新建如下环境变量： 变量名：OLLAMA_MODELS变量值: D:\AiProject\AIModel 变量名：OLLAMA_HOST变量值：127.0.0.1 变量名…

李华

【医疗数据合规报告生成秘籍】：PHP开发者必须掌握的10大安全编码实践

第一章：医疗数据合规报告生成的核心挑战在医疗信息化快速发展的背景下，合规报告的生成已成为医疗机构数据治理的关键环节。然而，由于医疗数据的高度敏感性与监管要求的复杂性，报告生成过程面临多重挑战。数据隐私与安全保护医疗数…

李华

揭秘Symfony 8依赖注入机制：5个你必须掌握的性能优化策略

第一章：深入理解Symfony 8依赖注入核心机制Symfony 8 的依赖注入（Dependency Injection, DI）机制是其架构设计的核心之一，它通过容器管理对象的创建与依赖关系，实现松耦合和高可测试性。该机制允许开发者将服务定义集中…

李华

33、拼写检查工具全解析：从Unix原型到awk实现

拼写检查工具全解析：从Unix原型到awk实现拼写检查是一个既有趣又具有挑战性的问题，它为我们提供了用多种方式解决问题的机会。下面我们将详细探讨各种拼写检查工具和方法。 1. Unix拼写检查原型在1975年，Steve Johnson在一个下午就编写了第一个版本的 spell 程序。后…

李华

数据洪流的精妙疏导：Ascend C内存层级与数据搬运优化实战

目录摘要 1. 引言：内存墙下的昇腾突围战 2. 技术原理：Ascend C内存体系架构深度解析 2.1 🏗️ 六级存储体系的设计哲学 2.2 ⚡ 数据搬运的核心机制：DMA引擎详解 2.3 📊 性能特性实测数据分析 3. 实战部分&…

李华