Skip to main content
Open In Colab在 GitHub 上打开

雅典娜

Amazon Athena 是一种构建的无服务器交互式分析服务 在开源框架上,支持 open-table 和 file 格式。Athena提供了一个简化的 以灵活的方式分析 PB 级数据。分析数据或构建应用程序 来自 Amazon Simple Storage Service (S3) 数据湖和 30 个数据源,包括本地数据 源或其他使用 SQL 或 Python 的云系统。Athena基于开源构建TrinoPrestoengines 和Apache Spark框架,无需进行预置或配置工作。

此笔记本介绍如何从AWS Athena.

建立

按照说明设置 AWS 账户

安装 python 库:

! pip install boto3

from langchain_community.document_loaders.athena import AthenaLoader
API 参考:AthenaLoader
database_name = "my_database"
s3_output_path = "s3://my_bucket/query_results/"
query = "SELECT * FROM my_table"
profile_name = "my_profile"

loader = AthenaLoader(
query=query,
database=database_name,
s3_output_uri=s3_output_path,
profile_name=profile_name,
)

documents = loader.load()
print(documents)

元数据列示例

database_name = "my_database"
s3_output_path = "s3://my_bucket/query_results/"
query = "SELECT * FROM my_table"
profile_name = "my_profile"
metadata_columns = ["_row", "_created_at"]

loader = AthenaLoader(
query=query,
database=database_name,
s3_output_uri=s3_output_path,
profile_name=profile_name,
metadata_columns=metadata_columns,
)

documents = loader.load()
print(documents)