Skip to main content
Open In ColabOpen on GitHub

Glue 目录

The AWS Glue Data Catalog 是一个集中式的元数据存储库,允许您管理、访问和共享有关在 AWS 中存储的数据的元数据。它充当您的数据资产的元数据存储库,使各种 AWS 服务和应用程序能够高效地查询并连接到所需的数据。

当您在AWS Glue中定义数据源、转换和目标时,这些元素的元数据会存储在Data Catalog中。这包括关于数据位置、架构定义、运行时指标等信息。它支持多种数据存储类型,例如Amazon S3、Amazon RDS、Amazon Redshift以及兼容JDBC的外部数据库。此外,它还直接集成了Amazon Athena、Amazon Redshift Spectrum和Amazon EMR,允许这些服务直接访问并查询数据。

The Langchain GlueCatalogLoader 将获取给定Glue数据库中所有表的方案,格式与Pandas dtype相同。

设置

示例

from langchain_community.document_loaders.glue_catalog import GlueCatalogLoader
database_name = "my_database"
profile_name = "my_profile"

loader = GlueCatalogLoader(
database=database_name,
profile_name=profile_name,
)

schemas = loader.load()
print(schemas)

带表格过滤的示例

表过滤允许您有选择地检索Glue数据库中特定子集表的架构信息。您不必加载所有表的架构,可以使用table_filter参数来指定感兴趣的表格。

from langchain_community.document_loaders.glue_catalog import GlueCatalogLoader
database_name = "my_database"
profile_name = "my_profile"
table_filter = ["table1", "table2", "table3"]

loader = GlueCatalogLoader(
database=database_name, profile_name=profile_name, table_filter=table_filter
)

schemas = loader.load()
print(schemas)