上QQ阅读APP看书,第一时间看更新
3.3.4 聚类模型随机数据生成
make_blobs函数的主要参数如下所示。
·n_samples:样本数量,默认值100。
·n_features:特征个数,默认值2。
·centers:产生数据的中心点,默认值3。
·cluster_std:数据集的标准差,默认值1。
·center_box:中心确定之后的数据边界,默认值(-10.0,10.0)。
·shuffle:随机打乱样本,默认值True。
·random_state:随机数种子,默认值None。
使用make_blobs在Jupyter Notebook环境生成分类模型随机数据代码案例如下:
import numpy as np import matplotlib.pyplot as plt from sklearn.datasets import make_blobs # X为样本特征,Y为样本类别输出,共1000个样本,每个样本2个特征,共3个簇,簇中心在[-1,-1],[1,1],[2,2],簇方差分别为[0.4,0.5,0.2] X, Y = make_blobs(n_samples=1000, n_features=5, centers=[[-2,-1], [1,-0.5], [2,1]], cluster_std=[0.6, 0.3, 0.5], random_state =20) plt.scatter(X[:, 0], X[:, 1], marker='o', c=Y) plt.show()
输出如图3-5所示。
图3-5 聚类模型随机数据散点图