Skip to main content
在 GitHub 上打开

Spark

Apache Spark 是一个统一的分析引擎,用于 大规模数据处理。它以 Scala、Java、 Python 和 R 以及支持常规计算的优化引擎 用于数据分析的图表。它还支持一组丰富的更高级别的 工具包括Spark SQL对于 SQL 和 DataFrames,pandas API on Spark对于 pandas 工作负载,MLlib对于机器学习,GraphX用于图形处理,以及Structured Streaming用于流处理。

文档加载器

PySpark

它从PySparkDataFrame 的 API API 中。

请参阅使用示例

from langchain_community.document_loaders import PySparkDataFrameLoader

工具/工具包

Spark SQL 工具包

用于交互的工具包Spark SQL.

请参阅使用示例

from langchain_community.agent_toolkits import SparkSQLToolkit, create_spark_sql_agent
from langchain_community.utilities.spark_sql import SparkSQL

Spark SQL 单个工具

您可以使用 Spark SQL Toolkit 中的各个工具:

  • InfoSparkSQLTool:用于获取有关 Spark SQL 的元数据的工具
  • ListSparkSQLTool:用于获取表名称的工具
  • QueryCheckerTool:工具使用 LLM 检查查询是否正确
  • QuerySparkSQLTool:用于查询 Spark SQL 的工具
from langchain_community.tools.spark_sql.tool import InfoSparkSQLTool
from langchain_community.tools.spark_sql.tool import ListSparkSQLTool
from langchain_community.tools.spark_sql.tool import QueryCheckerTool
from langchain_community.tools.spark_sql.tool import QuerySparkSQLTool