原文来源:AAindex: Amino Acid Index Database | Nucleic Acids Research | Oxford Academic
网址地址:AAindex: Amino acid index database
Python包网址:aaindex · PyPI
AAindex 是一个数据库,其中包含代表氨基酸及氨基酸对的各种理化、结构和生化特性的数值指标。AAindex 包含三个部分:
- AAindex1:包含 20 个数值的氨基酸指标。
- AAindex2:氨基酸突变矩阵。
- AAindex3:统计蛋白质接触势。
aaindex软件包是访问各种 AAindex 数据库中数据的一种非常轻量级的方法,不需要安装任何额外的外部库。只需一个简单的命令,即可访问 3 个数据库中的任意记录及其相关的数据/数值指标。目前该软件仅支持 AAindex1 数据库,未来计划增加对 AAindex 2 和 3 的支持。
1. 安装软件包
!pip3 install aaindex2. 使用aaindex包解析AAindex1:
from aaindex import aaindex1 import pandas as pd record_codes = aaindex1.record_codes() print(f"Total records in AAindex1: {len(record_codes)}") aa_dict = {} for code in record_codes: rec = aaindex1[code] val_dict = rec.values # {'A':xxxx, 'C':xxxx, ...} for aa, val in val_dict.items(): if aa not in aa_dict: aa_dict[aa] = {} aa_dict[aa][code] = val df = pd.DataFrame.from_dict(aa_dict, orient="index") # 行名是氨基酸,列名是 AAindex code df = df.sort_index(axis=0) # 按氨基酸排序 df = df.sort_index(axis=1) # 按 code 排序 df = df[df.index != "-"] # 可选保存: df.to_csv("aaindex1.csv")