Splunk Machine Learning Toolkit在分类问题上的应用（一）

如果预测值是离散的，比如“好”“坏”，这类问题称为分类；对只涉及两个类别的二分类问题，通常称一个类为正类，另一个类为负类。我们看一下有关算法和概念。

真实类别和预测类别的关系

在二分类问题中，真实类别和预测类别有四种关系，真正类(true positive, tp)、假正类(false positive, fp)、真负类(false negative, fn)、假负类(true negative, tn)，很明显，样本总数=tp+fp+fn+tn。

tp：true positive，被预测为正类，事实上也是正类，可以称为真的正确率；

fn：false negative，被预测为负类，事实上是正类，可以称为假的正确率；

fp：false positive，被预测为正类，事实上是负类，可以称为误报率；

tn：false negative，被预测为负类，事实上也是负类，可以称为漏报率；

评价模型的准确性

准确率(accuracy)，表示正确分类的样本数与总样本数之比。

查准率(precision)，表示真正类个数与预测为正类的总数之比。

查全率(recall)，表示真正类个数与实际为正类的总数之比。

F1度量(F1-Measure)，表示查全率和查准率的调和均值。

一般情况：

其中当β>0时度量了查全率和查准率的相对重要性。β=1为F1形式，β>1时查全率有更大影响，β<1时查准率有更大影响。

LogisticRegression分类算法

在线性回归中，我们使用线性函数来预测y(i)，显然它不能很好预测分类问题，比如输出标记y(i)∈{0,1}。我们引入logistic函数来处理二分类问题：

函数称为logistic或者sigmoid函数，函数是S型曲线：

σ(z)∈ [0,1]，它能处理二分类问题，比如有“1”“0”两类，当x属于 “1” 类时，调整参数θ使P(y=1|x)=hθ(x)尽可能大；相反使P(y=0|x)尽可能大。

成本函数(cost function)是评价模型拟合训练集好坏的方法。在二分类中，对于x(i)的预测值y(i),i=1,...,m，我们有成本函数：

J(θ)值越小，代表拟合的越好。

为了找到拟合最好的模型，我们把问题转化为求最小的J(θ)。参数不同导致函数hθ(x)有很多，哪个函数才能使J(θ)最小？梯度下降(Gradient Descent)可以找到函数J(θ)的最小值。

梯度下降是一种优化算法，它是在目标函数的超平面上，沿着斜率下降的方向前进，直到遇到了超平面构成的“谷底”，这个谷底就是极小值点，同时也是局部最优点。对于J(θ)的梯度∇θJ(θ)为：

LogisticRegression算法先介绍到这里，如果你还没明白它的原理，也没关系，我们看一下它在Splunk MLTK中，怎样利用防火墙流量日志判定用户恶意行为。

首先，firewall_traffic.csv是一份带有标签(特征)的防火墙流量日志，used_by_malware字段标记了日志是否有恶意行为。我们的目标是通过学习这些日志，判断新来流量是否有恶意行为。

很明显，这是二分类问题，我们可以使用LogisticRegression算法来拟合我们的模型。

对于这个界面相信大家都不陌生，首先我们搜索我们的数据，再选择LogisticRegression算法，选定预测字段(used_by_malware)，选择特征字段等，最后拟合模型。

同时，如果你不太熟悉Splunk ML-SPL的话，可以点击“Show SPL”按钮查来看。

拟合后，我们在表格中看到模型准确性指标。

Splunk MLTK提供了创建告警接口，可以快速创建一个告警。

对于机器学习的算法和workflow，Splunk MLTK已经帮你实现，你甚至不需要知道这些算法的原理，只需要根据Splunk MLTK提供的workflow，就可以训练出自己的模型，它是真正把机器学习算法应用到真实数据的工具。

如果你想了解更多有关机器学习的信息，或者在使用Splunk MLTK中有任何疑问，都可以到论坛(http://ask.10data.com)进行留言和讨论。

时间： 2024-09-20 07:51:48

Splunk Machine Learning Toolkit在回归问题上的应用