Skip to main content
Open In ColabOpen on GitHub

雅典娜

Amazon Athena 是一个基于开源框架的无服务器交互式分析服务,支持 open-table 和文件格式。Athena提供了一种简化且灵活的方式来分析数据湖中的PB级数据。从Amazon简单存储服务(S3)数据湖和30个数据源中分析数据或构建应用程序,这些数据源包括本地数据源或其他云系统,并使用SQL或Python语言。Athena基于开源TrinoPresto引擎以及Apache Spark框架,无需进行任何配置或预置工作。

这个笔记本介绍了如何从AWS Athena加载文档。

设置

跟随说明来设置AWS账户

安装一个Python库:<br>

! pip install boto3

示例

from langchain_community.document_loaders.athena import AthenaLoader
API 参考:Athena 加载器
database_name = "my_database"
s3_output_path = "s3://my_bucket/query_results/"
query = "SELECT * FROM my_table"
profile_name = "my_profile"

loader = AthenaLoader(
query=query,
database=database_name,
s3_output_uri=s3_output_path,
profile_name=profile_name,
)

documents = loader.load()
print(documents)

Example with metadata columns

database_name = "my_database"
s3_output_path = "s3://my_bucket/query_results/"
query = "SELECT * FROM my_table"
profile_name = "my_profile"
metadata_columns = ["_row", "_created_at"]

loader = AthenaLoader(
query=query,
database=database_name,
s3_output_uri=s3_output_path,
profile_name=profile_name,
metadata_columns=metadata_columns,
)

documents = loader.load()
print(documents)