一个人工智能无处不在的世界

发布时间：2021-01-31 17:36:33 所属栏目：传媒来源：互联网

导读：背景有不同的评估矩阵可以帮助处理这些类型的数据集。这些评估指标称为精确召回评估指标。要了精确度和召回率，您需要了解下表及其所有术语。考虑二进制分类。它将返回0或1。对于给定的训练数据，如果实际类别为1，而预测类别也为1，则称为真实肯定。如果

背景

有不同的评估矩阵可以帮助处理这些类型的数据集。这些评估指标称为精确召回评估指标。

要了精确度和召回率，您需要了解下表及其所有术语。考虑二进制分类。它将返回0或1。对于给定的训练数据，如果实际类别为1，而预测类别也为1，则称为真实肯定。如果实际类别为0，而预测类别为1，则为假阳性。如果实际类别为1，但预测类别为0，则称为假阴性。如果实际类别和预测类别均为0，则为真阴性。

如何处理机器学习中偏斜的数据集

用偏斜的数据集开发有效的机器学习算法可能很棘手。例如，数据集涉及银行中的欺诈活动或癌症检测。发生的情况是，您将在数据集中看到99%的时间没有欺诈活动或没有癌症。您可以很容易地作弊，并且始终可以仅预测0(如果癌症则预测1，如果没有癌症则预测0)，从而获得99%的准确性。如果这样做，我们将拥有99%的准确机器学习算法，但我们将永远不会检测到癌症。如果某人患有癌症，他/他将永远得不到治疗。在银行中，不会采取任何针对欺诈活动的措施。因此，仅靠准确性就无法确定偏斜的数据集，就像算法是否有效运行一样。

12、线程思考

12.1. 变量建议使用栈封闭

所有的变量都是在方法内部声明的，这些变量都处于栈封闭状态。方法调用的时候会有一个栈桢，这是一个独立的空间。在这个独立空间创建跟使用则绝对是安全的，但是注意不要返回该变量哦!

12.2. 防止线程饥饿

优先级低的线程总是得不到执行机会，一般要保证资源充足、公平的分配资源、防止持有锁的线程长时间执行。

12.3 开发步骤

多线程编程不要为了用而用，引入多线程后会引入额外的开销。量应用程序性能一般：服务时间、延迟时间、吞吐量、可伸缩性。做应用的时候可以一般按照如下步骤：

先确保保证程序的正确性跟健壮性，确实达不到性能要求再想如何提速。
一定要以测试为基准。
一个程序中串行的部分永远是有的.
装逼利器：阿姆达尔定律 S=1/(1-a+a/n)

阿姆达尔定律中 a为并行计算部分所占比例，n为并行处理结点个数：

当1-a=0时，(即没有串行，只有并行)最大加速比s=n;
当a=0时(即只有串行，没有并行)，最小加速比s=1;
当n无穷大时，极限加速比s→ 1/(1-a)，这就是加速比的上限。例如，若串行代码占整个代码的25%，则并行处理的总体性能不可能超过4。

12.4 影响性能因素

缩小锁的范围，能锁方法块尽量不要锁函数
减少锁的粒度跟锁分段，比如ConcurrentHashMap的实现。
读多写少时候用读写锁，可提高十倍性能。
用CAS操作来替换重型锁。
尽量用JDK自带的常见并发容器，底层已经足够优化了

（编辑：阜新站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!