一个人工智能无处不在的世界
|
背景 有不同的评估矩阵可以帮助处理这些类型的数据集。这些评估指标称为精确召回评估指标。
要了精确度和召回率,您需要了解下表及其所有术语。考虑二进制分类。它将返回0或1。对于给定的训练数据,如果实际类别为1,而预测类别也为1,则称为真实肯定。如果实际类别为0,而预测类别为1,则为假阳性。如果实际类别为1,但预测类别为0,则称为假阴性。如果实际类别和预测类别均为0,则为真阴性。 如何处理机器学习中偏斜的数据集
用偏斜的数据集开发有效的机器学习算法可能很棘手。例如,数据集涉及银行中的欺诈活动或癌症检测。发生的情况是,您将在数据集中看到99%的时间没有欺诈活动或没有癌症。您可以很容易地作弊,并且始终可以仅预测0(如果癌症则预测1,如果没有癌症则预测0),从而获得99%的准确性。如果这样做,我们将拥有99%的准确机器学习算法,但我们将永远不会检测到癌症。如果某人患有癌症,他/他将永远得不到治疗。在银行中,不会采取任何针对欺诈活动的措施。因此,仅靠准确性就无法确定偏斜的数据集,就像算法是否有效运行一样。 12、线程思考 12.1. 变量建议使用栈封闭 所有的变量都是在方法内部声明的,这些变量都处于栈封闭状态。方法调用的时候会有一个栈桢,这是一个独立的空间。在这个独立空间创建跟使用则绝对是安全的,但是注意不要返回该变量哦! 12.2. 防止线程饥饿 优先级低的线程总是得不到执行机会,一般要保证资源充足、公平的分配资源、防止持有锁的线程长时间执行。 12.3 开发步骤 多线程编程不要为了用而用,引入多线程后会引入额外的开销。量应用程序性能一般:服务时间、延迟时间、吞吐量、可伸缩性。做应用的时候可以一般按照如下步骤:
阿姆达尔定律中 a为并行计算部分所占比例,n为并行处理结点个数:
12.4 影响性能因素
(编辑:阜新站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
