机器学习:软件工程方法与实现
上QQ阅读APP看书,第一时间看更新

3.3.4 聚类模型随机数据生成

make_blobs函数的主要参数如下所示。

·n_samples:样本数量,默认值100。

·n_features:特征个数,默认值2。

·centers:产生数据的中心点,默认值3。

·cluster_std:数据集的标准差,默认值1。

·center_box:中心确定之后的数据边界,默认值(-10.0,10.0)。

·shuffle:随机打乱样本,默认值True。

·random_state:随机数种子,默认值None。

使用make_blobs在Jupyter Notebook环境生成分类模型随机数据代码案例如下:


import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs

# X为样本特征,Y为样本类别输出,共1000个样本,每个样本2个特征,共3个簇,簇中心在[-1,-1],[1,1],[2,2],簇方差分别为[0.4,0.5,0.2]
X, Y = make_blobs(n_samples=1000, n_features=5, centers=[[-2,-1], [1,-0.5], [2,1]], cluster_std=[0.6, 0.3, 0.5], random_state =20)
plt.scatter(X[:, 0], X[:, 1], marker='o', c=Y)
plt.show()

输出如图3-5所示。

图3-5 聚类模型随机数据散点图