- 积分
- 1483
- 贡献
-
- 精华
- 在线时间
- 小时
- 注册时间
- 2011-9-25
- 最后登录
- 1970-1-1
|
登录后查看更多精彩内容~
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
本帖最后由 雪花纷飞 于 2012-6-17 16:57 编辑
前面两篇讨论了对txt数据的处理,本篇则讨论下CSV数据的处理。处理的大致思路相同,主要区别在于CSV数据列(或称字段)与列之间用逗号隔开,而txt一般用空格隔开。
以下对CSV格式的介绍来自于网络。
CSV(Comma Separated Values),逗号分隔型取值格式,是一种纯文本格式,用来存储数据,用逗号分隔字段(用vim打开可发现这点)。CSV格式是分隔的数据格式,有字段/列分隔的逗号字符和记录/行分隔换行符。字段包含特殊字符(逗号,换行符,或双引号),必须以双引号括住。行内包含一个项目是空字符串,可以以双引号括住。字段的值包含双引号时,要双写这个双引号(就像把一个双引号当做转义符一样)。
图1 excel打开csv文件情形
图2 gvim打开csv文件情形
由图1和图2对比可以看出:
- csv文件字段以逗号作为分隔符,行结束不用逗号
- 如果字段中出现逗号等特殊字符,字段值必须用双引号" "括起来; (对比第五行第一列)
- 如果行中某一字段为空,能需要逗号分隔以示其存在。(对比第四行第二列)
图3 wind_201101.csv
处理要求:现有数据wind_201101.csv(见图3),提取date、vwind两列到新建文件vwind_201101.csv
需要解决两个问题:
1.由于awk输入字段分隔符内置变量为FS,默认字段分隔符FS值是空格或tab,而CSV文件字段分隔符是逗号,所以需要改变FS值,有两种方法,通过在BEGIN语句中赋值或命令行加选项-F赋值。
- awk -F"," '{print $1 , $3}' wind_201101.csv
复制代码
图4 输出结果
2.可以从上图看出,默认输出字段分隔符是单个空格,被保存在内置变量OFS中。如果用OFS默认值,$1和$3之间的逗号会被转换成单个空格,print函数打印这两个字段时会在它们之间加上一个空格。由于要求保存为CSV文件,OFS要设置成逗号分隔符,有两种方法,通过在BEGIN语句中赋值或$1和$3之间逗号加上双引号。
- awk -F"," '{print $1 "," $3}' wind_201101.csv
复制代码
图5 输出结果
3.将输出结果写入vwind_201101.csv中:
- awk -F"," '{print $1 "," $3}' wind_201101.csv > vwind_201101.csv
复制代码 或
- awk 'BEGIN{FS="," ; OFS="," }{print $1,$3}' wind_201101.csv >vwind_201101.csv
复制代码
*******************************************************************************
后记:写到这里感觉没有什么可写的了。由于气象数据格式众多,处理要求各不相同,因此处理方法差别很大。但基本思路应该是一样的。因本人所学专业方向平时接触到的气象数据不多,因此无法给出更切实际的例子。这里也欢迎大家提供数据样本和处理要求,我们共同讨论,共同进步。如有可能,下次讲讲气象数据中更加实际的例子,不过暂时没有了{:soso_e139:}
|
评分
-
查看全部评分
|