北师大考研专业目录 聚类算法(上)06

yezi1699 经验 2024-01-28 826 0
问题描述 北师大考研专业目录

推荐答案

力学部分:


1. 质点运动学:质点的位置、速度和加速度矢量、自然坐标系、极坐标系。


2.质点的牛顿运动定律:牛顿定律的应用、动量定理、质心系动量定理、动量守恒定律。


3.动能和势能:变力做功、质点和质点系动能定理、保守力、功能原理和机械能守恒。


4.角动量:质点的角动量、质点系的角动量定量及角动量守恒。


5.刚体力学:刚体的转动惯量、刚体定轴转动的动能定理、刚体的平面运动的动力学。


6.振动:简谐运动的力学特征、简谐运动的运动学、判断简谐振动并计算振动周期、简谐运动的合成。



热学部分:


1.平衡态与温度:平衡态概念与判据、温度概念、温标、理想气体微观模型、状态方程、压强公式和温度公式。


2.内能:热力学第一定律与内能、能量均分定理、循环、热机效率与制冷系数。


3.熵:热力学第二定律与宏观熵、熵的微观意义。


4.分子动理学:麦克斯韦速度分布律和速率分布律、平均自由程。


5.物态与相变:液体表面张力、相变的基本概念与相平衡条件、克拉珀龙方程。


其他回答

聚类算法(上)06

这篇文章的整体排版主要是根据个人的博客来哒,如果感兴趣的话可以去我的自己搭建的个人博客看这篇 文章 。

聚类算法很多,所以和讲回归算法一样,分成了上下,上中主要讲了传统的K-Means算法以及其相应的优化算法入K-Means++,K-Means||和Canopy等。下中主要讲了另外两种的思路的聚类算法,即层次聚类和密度聚类。

聚类算就是怼大量未知标注的数据集,按照数据 内部存在的数据特征 将数据集 划分为多个不同的类别 ,使类别内的数据比较相似,类别之间的数据相似度比较小,属于 无监督学习

从定义就可以看出,聚类算法的关键在于计算样本之间的 相似度 ,也称为 样本间的距离

说到聚类算法,那肯定核心就是计算距离的公式了,目前常用的有以下几种。

闵可夫斯基距离(Minkowski) :公式2.1

KL距离(相对熵)

思考下条件熵的定义,简单的来说就是在放生一件事情的时候,发生另一件事的概率。公式如下公式2.7.

注:这里书的概率不是实指概率,而是熵表达的含义。这个公式其实就是条件熵的公式。

杰卡德相似系数(Jaccard)

这个很好理解,它的核心就是使用两个集合的交集和并集的比率来代表两者的相似度,也就是说重合的越多越相似。公式如下,公式2.8.

Pearson相关系数

这个就是考研数学中的相关系数,表达就是两者之间的想关系,所以直接拿来用就好了,公式如下公式2.9。

给定一个有M个对象的数据集,构建一个具有k个簇的模型,其中k<=M。满足 以下条件:

基本思想:

对于给定的类别数目k,首先给定初始划分,通过迭代改变样本和簇的隶属关系,使的每次处理后得到的划分方式比上一次的好,即 总的数据集之间的距离和变小了

K-means的核心算法如下:

再循环中的第二步,我们移动了中心点的位置,把中心点移到了隶属于该中心点类别的所有样本的中间,并使用样本的均值作为位置。这样子看似是拍脑袋想的移动策略,其实是可以推导出来的。正如聚类算法思想所指出的,我们要让所有的点到自己的分类的中心点的欧几里得距离最小,所以我们设置目标放称为公式4.1,公式中的1/2是为了之后求导运算方便。我们为了让目标函数尽可能的小,所以使用了之前一直在使用的思考方式,对其使用梯度下降算法,求导后得到公式4.2,之后令其等于0,就得到了公式4.3。

最后这个看似不错的算法,其实有着不小的缺点,那就是 初值敏感 。我们来仔细想一想,如果两个不小心随机生成的初值落到了一个类别中,两者的距离还特别近,这中情况下就很难正确分类了。除此之外,由于移动策略中使用的是均值,也就是说如果集合中含有非常大的误差点的话,这样子会是中心点的设置偏离正确点很远,所以很多时候我们改用 中值来更新中心点 ,这就是我们说的K-Mediods聚类,即K中值聚类。

总结下K-means算法

优点:

由于K-Means对初始中心点非常敏感,我们这里就尝试着通过二分法弱化初始中心点。这种算法的具体步骤如下:

我们在这个算法中提到了SSE,这个可以是簇内所有样本点,到其中心点的距离的总和,代表着簇内的点是不是高度相关。计算公式如下公式4.4。

可以看出在这种算法下,很好的避开了,两个中心点都在一起的情况。

K-Means++做的改善,是直接对初始点的生成位置的选择进行优化的,他的初始点生成策略如下:

Canopy属于一种“粗略地”聚类算法,简单的来说就是,不那么追求自动获得最优解,而是引入了一种人为规定的先验值进行聚类,具体步骤如下:

注:Canopy算法得到的最终结果的值,聚簇之间是可能存在重叠的,但是不会存在 某个对象不属于任何聚簇的情况

显然,这种算法虽然快,但是很难生成满足我们应用的模型,所以通常我们将它作为解决K-Means初值敏感的方案,他们合在一起就是Canopy+K-Means算法。

顺序就是先使用Canopy算法获得K个聚类中心,然后用这K个聚类中心作为K-Means算法。这样子就很好的解决了K-Means初值敏感的问题。

Mini Batch K-Means算法是K-Means算法的一种优化变种,采用小规模的数据子集,来减少计算时间。其中采用小规模的数据子集指的是每次训练使用的数据集是在训练算法的时候随机抽取的数据子集。Mini Batch K-Means算法可以减少K-Means算法的收敛时间,而且产生的结果效果只是略差于标准K-Means算法。

它的算法步骤如下:

聚类算法的衡量标准有很多,包括均一性、完整性、V-measure、调整兰德系数(ARI ,Adjusted Rnd Index)、调整互信息(AMI,Adjusted Mutual Information)以及轮廓系数等等。

均一性:一个簇中只包含一个类别的样本,则满足均一性。其实也可以认为就是正确率,即每个聚簇中正确分类的样本数占该聚簇总样本数的比例和。其公式如下公式5.1。

完整性:同类别样本被归类到相同簇中,则满足完整性。每个聚簇中正确分类的样本数占该类型的总样本数比例的和,通俗的来说就是,我们已分类类别中,分类正确的个数。

其公式如下,公式5.2:

在实际的情况中,均一性和完整性是往往不能兼得的,就好像抓特务时的矛盾一样,到底是保证每个抓的人都是特务,还是宁可错抓也不放过一个特务,之间的取舍很难把握。所以再一次贯彻,鱼和熊掌不可兼得,我们就加权,于是得到的就是V-measure,其公式如下公式5.3:

兰德系数(RI,Rand index) ,我用中文看了不少讲兰德系数的博客,其中的文字说明几乎都是相同的,对个人的理解帮助不是特别大,于是用英文查的。最终理解了这个系数的参数的意思,想看英文说明的,个人觉得还挺好懂的参考 这里 。以下是我个人的讲解。

首先,将原数据集中的元素进行两两配对形成一个新的数据集,我们称之为S数据集。这时候,我们将原数据集,根据两种不同的策略分别划分成r份和s份,并对这两个数据集命名为X和Y。在这里我们可以看出,X和Y的元素是相同的,只是他们的划分方式不同。

接下来我们来思考,S数据集中,每个元素中的两个样本,在X和Y中只有两种可能,就是两个样本都在一个子集中,或者不在一个子集中,那么对于S中的一个元素,只有四种可能性。

接下来引入, 调整兰德系数(ARI,Adjusted Rnd Index) ,ARI取值范围 ,值越大,表示聚类结果和真实情况越吻合。从广义的角度来将,ARI是衡量两个数据分布的吻合程度的,公式5.5如下:

调整互信息,整体的流程很像ARI,AMI则是对MI进行调整。而MI是使用信息熵来描述的。那么互信息表示了什么呢,首先先看下 维基百科的定义 :

之前我们说到的衡量指标都是有标签的,这里的轮廓系数则是不包含标签的评价指标。

熵的定义,如何定义熵的?

能源动力工程考研科目通常包括以下几个方面:

1、《高等数学》:包括数列、极限、微积分、常微分方程等内容;

2、《工程数学》:通常包括线性代数、概率论与数理统计等内容;

3、《工程热力学》:包括系统能量守恒、熵的概念、热力学循环等内容;

4、《流体力学》:通常包括流体运动学、雷诺数、纳维-斯托克斯方程等内容;

5、《传热学》:包括自然对流、强迫对流、辐射传热等内容;

6、《燃烧学》:包括燃烧动力学、燃烧过程控制等内容;

7、《动力机械基础》:包括热机、蒸汽轮机、燃气轮机等内容。

《博弈圣经》中说;熵就是混沌,就是无序

科学家已经发明了测量无序的量,它称作熵,熵也是混沌度,是内部无序结构的总量

物理意义:物质微观热运动时,混乱程度的标志。

热力学中表征物质状态的参量之一,通常用符号S表示。在经典热力学中,可用增量定义为dS=(dQ/T),式中T为物质的热力学温度;dQ为熵增过程中加入物质的热量。下标“可逆”表示加热过程所引起的变化过程是可逆的。若过程是不可逆的,则dS>(dQ/T)不可逆。单位质量物质的熵称为比熵,记为s。

版权声明

本文仅代表作者观点,不代表百度立场。
本文系作者授权百度百家发表,未经许可,不得转载。

分享:

扫一扫在手机阅读、分享本文

最近发表