研究方向为,数据挖掘、机器学习、深度学习等。深度参与了多项数据挖掘、计算机视觉以及自然语言处理相关项目,例如,社会计算、异常分析、聚类分析、预测分析、序列标记、语言生成、OCR、图像分类+检测+分割等。现任某茅数据科学家,负责数据科学团队的管理及项目实施。曾就职于中国信科集团,负责大数据与机器学习组的管理及项...
R语言数据 录入是一件值得大书特书的事,导入Excel文件、文本文件、SAS文件、SQL文件等等每一项方式都能拿出来单独写一篇推送了。因此我这篇文字起名为R语言数据录入——初级篇,内容主要介绍最常见的和最简单实用的数据导入方法和代码,来帮助粉丝们快速上手R语言数据导入。至于复杂一点的导入方式我们放在高级篇和对应包...
R语言数据处理---数据合并与追加 数据结构的塑造是数据可视化前重要的一环,虽说本公众号重心在于数据可视化,可是涉及到一些至关重要的数据整合技巧,还是有必要跟大家分享一下的。 在可视化前的数据处理技巧中,导入导出、长宽转换已经跟大家详细的介绍过了。 今天跟大大家分享数据集的合并与追加,并且这里根据所依赖函数...
这就形成了一门新兴的学科—生物信息学。 研究的主要内容是(Genomics)和蛋白质组学(Proteomics)两个方面,具体来说就是从和序列出发,分析序列中表达的结构功能的生物信息。 R语言 R语言是当前主流的分析软件之一,具有强大的数据处理和分析功能...
R语言在可视化上可谓非常出众,想必这也是为什么R语言在数据处理方面受到追捧的原因之一。 上一节已经大体了解了R语言的基本数据类型,以及优势所在。R的可视化技术同样也是优势大大滴。这也是R的数据类型为可视化立下汗马功劳,为啥这样说呢? Java的可视化技术
之前我们已经学习了R对数据预处理的一些方法,接下来将结合函数利用R对一个实际案例进行简单的数据处理。 问题 有一组学生各科成绩数据,为了给所有学生建立一个单一的成绩衡量指标,需要将这些各科成绩组合起来,并以此根据判定成绩等级,最后按字母顺序对学生排序。
在数据分析时,经常需要选择数据的子集进行统计分析或者检验部分观测值是否正确,R语言中,可以采用下标法、记号法$以及函数法选取数据框中的观测值。 01 生成数据框 #构建数据框mydata 02 选取观测值(行) 1、下标法 mydata[i,j]表示mydata的第i行第j列数据,mydata[i,]表示第mydata的第i行。
1 识别 1.1 向量中的缺失 x <- c(1, 2.3, NA, 4, NA, 5) is.na(x) #判断各值是否...
今天继续介绍倾向性评分最后一个重要的部分:倾向性评分加权。 主要介绍两种加权方法:逆概率加权(inverse probability weighting, IPW)和重叠加权(overlap weighting)。 倾向性评分加权的方法有很多,常见的一些加权方法比较如下: 常见加权方法 其中ATE就是大家比较常见的IPW方法,还有一种常见的inverse probability of treatmen...
一、步骤 (1)确定最优参数的大致范围(粗调)。train函数中的方法刚一开始都有默认的参数,由于我们也都不知道最优的参数是什么,所以可以先直接使用默认的参数进行调参。(2)...