推广 热搜: 行业  机械  设备    教师  经纪  系统  参数    蒸汽 

根据表格内容批量在RCSB上搜索并下载蛋白文件

   日期:2024-11-10     移动:http://tiush.xhstdz.com/mobile/quote/60606.html

记于23-10-22

根据表格内容批量在RCSB上搜索并下载蛋白文件

舍友的导师给了个任务,给了一个csv文件,里面记录的是各种基因名,希望能够将csv内的所有基因名在RCSB上能不能搜出相应的蛋白并下载下来作序列比对。

于是打开一看

一共有540行数据,并且有些名称是错误的,在RCSB上不一定能搜到,如果要一个个复制下来去搜肯定是非常不现实的。所以这需要借助爬虫的力量。

所幸RCSB上有关于搜索的api与python的包提供助力:

而在github上也有相应的实例:

该代码块返回的是一个搜索结果的列表,而搜索结果是一系列PDB文件的名称。

因此,根据这个实例,我们可以编写这样的一个脚本,以上代码块是返回搜索结果的一个列表,而往往我们只需要提取搜索的第一个结果,也就是列表的第一位元素。根据搜索下来的元素,也就是pdb文件的名称,再去通过爬虫批量下载下来。

安装rcsb搜索包:

根据该思路写的一个脚本:

跑出来会生成fasta与pdb文件夹,里面存放这爬下来的fasta与pdb文件。

本文地址:http://tiush.xhstdz.com/quote/60606.html    物流园资讯网 http://tiush.xhstdz.com/ , 查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


0相关评论
相关最新动态
推荐最新动态
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号