hive分析nginx日志之UDF清洗数据-APISpace

hive分析nginx日志之UDF清洗数据

接着来看： 1、首先编写UDF，如下：--使用String类型的replaceAll（）函数： package net.dbking.hadoop.chavin_hive; import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.io.Text; public class RemoveQuotesUDF extends UDF{ public Text evaluate(Text str){ if(null == str.toString()){ return new Text(); } return new Text (str.toString().replaceAll("\"", "")); }} 2、去除“[]”的UDF： package net.dbking.hadoop.chavin_hive; import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.io.Text; public class RemoveBracketUDF extends UDF{ public Text evaluate(Text str){ if(null == str.toString()){ return new Text(); } return new Text (str.toString().substring(1,str.toString().length()-1)); } } 3、时间日志格式化UDF: package net.dbking.hadoop.chavin_hive; import java.text.SimpleDateFormat;import java.util.Date;import java.util.Locale; import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.io.Text; public class DataTransformUDF extends UDF{ private final SimpleDateFormat inputFormat = new SimpleDateFormat("dd/MMM/yyyy:HH:mm:ss", Locale.ENGLISH); private final SimpleDateFormat outputFormat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public Text evaluate(Text input){ Text output = new Text(); if(null == input){ return null; } String inputDate = input.toString().trim(); if(null == inputDate){ return null; } try{ Date parseDate = inputFormat.parse(inputDate); String outputDate = outputFormat.format(parseDate); output.set(outputDate); }catch(Exception e){ e.printStackTrace(); return output; } return output; } } 4、编写插入数据hive脚本： add jar /opt/cloudera/parcels/CDH/lib/hive/lib/hive-contrib-1.1.0-cdh5.9.2.jar; add jar /opt/cloudera/jars/RemoveQuotesUDF.jar;add jar /opt/cloudera/jars/RemoveBracketUDF.jar;add jar /opt/cloudera/jars/DateTransformUDF.jar; create temporary function my_removequote as "net.dbking.hadoop.chavin_hive.RemoveQuotesUDF";create temporary function my_removebracket as "net.dbking.hadoop.chavin_hive.RemoveBracketUDF";create temporary function my_datetransform as "net.dbking.hadoop.chavin_hive.DateTransformUDF"; insert overwrite table chavin.nginx_access_log_comm select my_removequote(host),my_datetransform(my_removebracket(time)),my_removequote(request),my_removequote(referer)from chavin.nginx_access_log; 测试插入数据：select * from chavin.nginx_access_log_comm limit 5; 场景1：分析哪个时间段，网站访问量最大： select substring(time,12,2) hour,count(1) cntfrom chavin.nginx_access_log_commgroup by substring(time,12,2)order by cnt desc;

python怎么过滤字符串中的英文字母

238 2022-11-23

hive分析nginx日志之UDF清洗数据

c语言sscanf函数的用法是什么

r语言清空数组的方法是什么

python怎么过滤字符串中的英文字母

推荐文章

api接口有哪几种分类及功能

什么是API接口?API接口简单介绍

短信API接口概述，短信API接口的优势

7款快递物流的物流查询API工具，物流快递查询API接口怎么对接？

企业四要素: 了解企业经营成功的关键

什么是语音验证码?,语音验证码平台有哪些

全国工商查询系统怎么查企业名录

哪些平台提供实名认证的接口？

PHP如何调用API接口?

如何使用百度天气预报API接口?

最近发表

热评文章

数据接口api（数据接口API开发平台）

数据开放接口api（数据服务api开发）

Python爬虫教程：爬取酷狗音乐（python爬取

hbuilder怎么更改字体大小和颜色

直播平台api接口 - 构建卓越的直播平台

实时股票数据api接口（股票实时行情api接口）