About parimalpatil

jaris · ‎03-17-2025

Hi @haridjh Thanks for reply. Procedure you described in your reply is utilizing HDFS as a store for JAR files used by Spark job. We don't have problem to utilize HDFS in Spark job, problem is when trying to access Ozone FS, e.g. (ofs) when job is submitted via LIVY. 1. Access files on Ozone in spark job e.g.: df = spark.read.parquet("ofs://ozone-service/volume/bucket/parquet") 2. Python job submitted via Livy: kinit user curl --negotiate -k -v -u : -X POST \ -H "Content-Type: application/json" \ --data '{ "file": "ozone_access.py"}' \ https://livy:28998/batches 3. Job is failing with: Caused by: java.io.IOException: org.apache.hadoop.security.AccessControlException: Client cannot authenticate via:[TOKEN, KERBEROS] When we are trying to access Ozone normally via spark-shell or spark-submit, everything works fine, e.g.: spark-shell \ --keytab ${KEY_TAB} \ --principal ${PRINCIPAL} \ --conf spark.yarn.access.hadoopFileSystems=o3fs://bucket1.vol1.om.host.example.com:9862 Setting keytab and principal is not possible when submitting job via Livy, because we are using proxy users with Livy. Thanks.

Online	Offline
Last Visited	‎11-28-2024 08:22 AM

Member Since	‎07-27-2022 01:15 AM
Last Visited	‎11-28-2024 08:22 AM
Posts	1

Cloudera Community

Re: Spark Ozone Integration in CDP