Spark
Apache Spark 是一个用于大规模数据处理的统一分析引擎。它提供了 Scala、Java、Python 和 R 的高级 API,以及一个支持通用计算图以进行数据分析的优化引擎。它还支持丰富的高级工具集,包括用于 SQL 和 DataFrame 的
Spark SQL、用于 pandas 工作负载的pandas API on Spark、用于机器学习的MLlib、用于图处理的GraphX,以及用于流处理的Structured Streaming。
文档加载器
PySpark
它从一个PySpark DataFrame 加载数据。
查看 使用示例。
from langchain_community.document_loaders import PySparkDataFrameLoader
API 参考:PySparkDataFrame加载器
工具/工具包
Spark SQL 工具包
Toolkit for interacting with Spark SQL.
查看 使用示例。
from langchain_community.agent_toolkits import SparkSQLToolkit, create_spark_sql_agent
from langchain_community.utilities.spark_sql import SparkSQL
Spark SQL 个人工具
您可以从Spark SQL工具包中使用单独的工具:
InfoSparkSQLTool: 用于获取Spark SQL的元数据的工具ListSparkSQLTool: 获取表名的工具QueryCheckerTool: 工具使用一个大语言模型来检查查询是否正确QuerySparkSQLTool: 用于查询Spark SQL的工具
from langchain_community.tools.spark_sql.tool import InfoSparkSQLTool
from langchain_community.tools.spark_sql.tool import ListSparkSQLTool
from langchain_community.tools.spark_sql.tool import QueryCheckerTool
from langchain_community.tools.spark_sql.tool import QuerySparkSQLTool