PySpark任务依赖第三方python包的解决方案 背景 在使用大数据spark做计算时,scala开发门槛比较高,一般多会去使用Spark Sql 和PySpark,而PySpark进行个性化开发时,需要引入第三方python包,尤其在机器学习算法方面依赖许多科学包如numpy、pandas 、matlib等等,安装这些依赖是一个非常痛苦的过程,尤其是涉及到需要在整个spark集群...