Pig Java Udf 简介

  • 时间:
  • 来源:互联网

在用pig的过程中,经常需要自己写udf,一般我会写java的udf,配置一个maven的项目来管理。

一个基本的pig java udf的maven项目的pom定义如下:

 

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
	xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
	<modelVersion>4.0.0</modelVersion>
	<groupId>com.x</groupId>
	<artifactId>PigUdf</artifactId>
	<version>0.0.1-SNAPSHOT</version>

	<dependencies>

		<!-- ProtoBuf -->
		<dependency>
			<groupId>com.google.protobuf</groupId>
			<artifactId>protobuf-java</artifactId>
			<version>2.5.0</version>
			<scope>provided</scope>
		</dependency>
		<dependency>
			<groupId>com.x</groupId>
			<artifactId>commons-protobuf</artifactId>
			<version>0.1.1</version>
			<scope>system</scope> 
			<systemPath>${basedir}/jars/commons-protobuf.jar</systemPath> 
		</dependency>

		<dependency>
			<groupId>org.apache.hadoop</groupId>
			<artifactId>hadoop-common</artifactId>
			<version>2.2.0</version>
		</dependency>

		<dependency>
			<groupId>org.apache.pig</groupId>
			<artifactId>pig</artifactId>
			<version>0.13.0</version>
			<scope>provided</scope>
		</dependency>

	</dependencies>

	<build>
		<finalName>${project.artifactId}</finalName>
		<plugins>
			<plugin>
				<groupId>org.apache.maven.plugins</groupId>
				<artifactId>maven-compiler-plugin</artifactId>
				<version>2.3.2</version>
				<configuration>
					<source>1.6</source>
					<target>1.6</target>
					<compilerVersion>1.6</compilerVersion>
				</configuration>
			</plugin>

			<plugin>
				<artifactId>maven-assembly-plugin</artifactId>
				<configuration>
					<descriptorRefs>
						<descriptorRef>jar-with-dependencies</descriptorRef>
					</descriptorRefs>
				</configuration>
				<executions>
					<execution>
						<id>config</id>
						<phase>package</phase>
						<goals>
							<goal>single</goal>
						</goals>
					</execution>
				</executions>
			</plugin>

		</plugins>
	</build>
</project>

其中这个dependency来自pig java的接口:

 

		<dependency>
			<groupId>org.apache.pig</groupId>
			<artifactId>pig</artifactId>
			<version>0.13.0</version>
			<scope>provided</scope>
		</dependency>

然后配置好maven的repository,执行命令

mvn clean package

在taget目录下,会得到一个jar包。假设我们写了一个udf叫:CalcMetric(),编译得到myudf-jar-with-dependencies.jar

这个时候,假设我们有个pig:

 

register PigUdf.jar;

DEFINE CalcMetric com.x.pig.udf.CalcMetric();

raw_data = load '$input' using PigStorage('\u0001') as (val:long);

metrics_data = foreach raw_data generate CalcMetric(val) as metric;

store metrics_data into '$output' using PigStorage('\0001', '-schema');

那么我们这么运行pig:

pig -f mypig.pig -param input=/user/tom/test/input_data -param output=/user/tom/test/output_data

Pig中register语句指明需要使用的jar包,后面跟着jar包的路径,这是一个local路径,不是HDFS路径。也可以在pig script中只写jar包名字,在命令行指定classpath:

-cp $your_path 

或者

-Dpig.additional.jars='your_jar_path'

如果需要访问其他数据文件,比如这个java udf依赖于一个本地文件来初始化。因为java udf会在hadoop grid node上也做一次初始化,所以必须保证在grid node上也有这个问题,这个时候,需要使用到hadoop的DistributedCache。可以用这个命令:

-Dtmpfiles='$your_file'

或者,在pig script中写上:

set mapred.cache.files 'your_file'



本文链接http://element-ui.cn/news/show-576625.aspx