Getting and Cleaning Data是Coursera数据科学专项的第三门课,有中文翻译。但是由于中文区讨论没有英文区热闹,以及资料积累,强烈建议各位同时选报中文项目和英文项目,可以互相匹配学习。 Week1的课程概括下来,主要介绍了getting and cleaning data的目的,即从不同数据源里获得整洁数据集(Tidy Data),以及其方法。 包括 ...
Getting_and_Cleaning_Data_project1 run_analysis R 文件项目文件: 您应该创建一个名为 run_analysis.R 的 R 脚本来执行以下操作。 合并训练集和测试集以创建一个数据集。 仅提取每个测量值的平均值和标准偏差的测量值。 使用描述性活动名称来命名数据集中的活动 使用描述性变量名称适当地标记数据集。 根据步骤 ...
Final project of "getting and cleaning data" repository contents this reposoitory contains the following items readme.md codebook.md : describes the variables, the data, and any transformations or work performed to clean up the data run_analysis.R : the R script to read, merge and clean up...
Coursera: Getting and Cleaning Data Task The purpose of this project is to demonstrate your ability to collect, work with, and clean a data set. The goal is to prepare tidy data that can be used for later analysis. You will be graded by your peers on a series of yes/no questions rela...
文件“run_analysis.R”应该放在这个项目的根文件夹中,文件夹“data”包含从这个url下载的UCI数据集: http://archive.ics.uci.edu/ml/datasets/Human+Activity+Recognition+Using+Smartphone 该脚本首先从文件中读取测试和训练数据,添加两列主题和活动标签。
Coursera-Getting and Cleaning Data-Week2 Saturday, January 17, 2015 课程概述 week2主要是介绍从各个来源读取数据。包括MySql,HDF5,webpage,API等,范围还蛮广。 因为工作和日常中没有直接到数据库拿数据的权限,所以暂时只是走马观花看了一遍,然后做quiz时再看一遍,留个概念即可。
GettingandCleaningData:获取和清理数据的课程项目 获取和清理数据的课程项目描述数据清理脚本(run_analysis.R)执行以下任务:合并训练集和测试集以创建一个数据集。仅提取每个测量值的平均值和标准偏差的测量值。使用描述性活动名称来命名数据集中的 0 2024-10-20 获取和清理数据获取和清理数据课程项目https www.cour...
结果被转换成一个整洁的表格,其中每个主题的活动测量存储在1行中,而平均值和SD的每个唯一测量存储为一个唯一列。然后,脚本将结果数据写入到脚本工作目录中的名为: run_analysis-Activity_Subject_Means.TXT的文件中。要求Internet连接:需要下载UC 文件列表 R-GettingAndCleaningData-master.zip (预估有个3文件) R...
Getting Your Feet Wet in Data: Preparing and Cleaning the Data Setdoi:10.1002/9781119205050.app2Gene PeaseBoyce ByerlyJac Fitz'enzJohn Wiley & Sons, Ltd
After the pre-processing stage, which includes dropping or imputing data; re-evaluating the data, and making sure that the cleaning process has not violated any rules or parameters is important. Passing data on or moving onto the next stage without having reported the quality of the data is ...