毕业论文开发语言企业开发JAVA技术.NET技术WEB开发Linux/Unix数据库技术Windows平台移动平台嵌入式论文范文英语论文
您现在的位置: 毕业论文 >> 数据库 >> 正文

pig读取日志时,分割列的规则可以使用正则表达式吗

更新时间:2014-11-20:  来源:毕业论文

10.64.20.38 - - [22/May/2014:17:01:30 +0800] "GET /estore/images/icons/e_ico_6.png HTTP/1.1" 200 3062 "http://shadcdwapp82/estore/customerService.do" "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; Trident/4.0; .NET CLR 3.5.30729)" 10.64.20.38.1400749219877329

各列之间使用空格分隔,其中有几列使用双引号表示是一列,列内数据又有空格。pig百度了下,只找到使用单个字符分隔。这个日志我感觉只能使用正则分隔,否则就得让公司调整分隔符了,求教有什么办法能分隔这个日志?

先把整行数据读进来a = load xxx.log as (datastr);,然后用b = foreach a generate REGEX_EXTRACT(datastr,'正则',1) as accesstime;就能用正则分割数据了

设为首页 | 联系站长 | 友情链接 | 网站地图 |

copyright©youerw.com 优尔论文网 严禁转载
如果本毕业论文网损害了您的利益或者侵犯了您的权利,请及时联系,我们一定会及时改正。