Getting and Cleaning Data是Coursera数据科学专项的第三门课,有中文翻译。但是由于中文区讨论没有英文区热闹,以及资料积累,强烈建议各位同时选报中文项目和英文项目,可以互相匹配学习。 Week1的课程概括下来,主要介绍了getting and cleaning data的目的,即从不同数据源里获得整洁数据集(Tidy Data),以及其方法。 包括 ...
Getting_and_Cleaning_Data_project1 run_analysis R 文件项目文件: 您应该创建一个名为 run_analysis.R 的 R 脚本来执行以下操作。 合并训练集和测试集以创建一个数据集。 仅提取每个测量值的平均值和标准偏差的测量值。 使用描述性活动名称来命名数据集中的活动 使用描述性变量名称适当地标记数据集。 根据步骤 ...
文件“run_analysis.R”应该放在这个项目的根文件夹中,文件夹“data”包含从这个url下载的UCI数据集: 该脚本首先从文件中读取测试和训练数据,添加两列主题和活动标签。
Coursera-Getting and Cleaning Data-Week2 Saturday, January 17, 2015 课程概述 week2主要是介绍从各个来源读取数据。包括MySql,HDF5,webpage,API等,范围还蛮广。 因为工作和日常中没有直接到数据库拿数据的权限,所以暂时只是走马观花看了一遍,然后做quiz时再看一遍,留个概念即可。
结果被转换成一个整洁的表格,其中每个主题的活动测量存储在1行中,而平均值和SD的每个唯一测量存储为一个唯一列。然后,脚本将结果数据写入到脚本工作目录中的名为: run_analysis-Activity_Subject_Means.TXT的文件中。要求Internet连接:需要下载UC 文件列表 (预估有个3文件) R...
After the pre-processing stage, which includes dropping or imputing data; re-evaluating the data, and making sure that the cleaning process has not violated any rules or parameters is important. Passing data on or moving onto the next stage without having reported the quality of the data is ...