3.3.4 聚类模型随机数据生成_机器学习：软件工程方法与实现-QQ阅读男生历史网

上QQ阅读APP看书，第一时间看更新

3.3.4　聚类模型随机数据生成

make_blobs函数的主要参数如下所示。

·n_samples：样本数量，默认值100。

·n_features：特征个数，默认值2。

·centers：产生数据的中心点，默认值3。

·cluster_std：数据集的标准差，默认值1。

·center_box：中心确定之后的数据边界，默认值（-10.0，10.0）。

·shuffle：随机打乱样本，默认值True。

·random_state：随机数种子，默认值None。

使用make_blobs在Jupyter Notebook环境生成分类模型随机数据代码案例如下：

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs

# X为样本特征，Y为样本类别输出，共1000个样本，每个样本2个特征，共3个簇，簇中心在[-1，-1]，[1，1]，[2，2]，簇方差分别为[0.4，0.5，0.2]
X, Y = make_blobs(n_samples=1000, n_features=5, centers=[[-2,-1], [1,-0.5], [2,1]], cluster_std=[0.6, 0.3, 0.5], random_state =20)
plt.scatter(X[:, 0], X[:, 1], marker='o', c=Y)
plt.show()

输出如图3-5所示。

图3-5　聚类模型随机数据散点图