现在有从UCI上下载下来的一组DNA序列数据，想把他按照某种规则转换成只有0和1的序列，代码应该怎么写？

其中DNA序列是这样的，共有60个碱基
CCAGCTGCATCACAGGAGGCCAGCGAGCAGGTCTGTTCCAAGGGCCTTCGAGCCAGTCTG

然后生成的序列是要判断其中有没有特定序列，有就是1，没有就是0，由于要判断好多种特定序列，所以处理出来的结果会变成0，1组成的序列

我想从新生成的序列，生成一个可以在tensorflow直接用的数据文件

我看网上的tensorflow教程都是下载下来的数据集直接用的，现在这个要预先再处理的要怎么做呢？希望大神们能教教我，至少发个能让我学习怎么做的网站也行吖，谢谢各位了！

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
threenewbee 2019-02-04 10:34
关注
根据我的理解，你应该是转换成onehot标签，至于序列匹配，你可以用KMP算法。
kmp算法在 python 里的实现看这个：https://blog.csdn.net/weixin_39561100/article/details/80822208

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

现在有从UCI上下载下来的一组DNA序列数据，想把他按照某种规则转换成只有0和1的序列，代码应该怎么写？ python
2019-02-04 10:17

回答 2 已采纳根据我的理解，你应该是转换成onehot标签，至于序列匹配，你可以用KMP算法。 kmp算法在 python 里的实现看这个：https://blog.csdn.net/weixin_3956110
python用代码下载文件文件大小为0或只有2KB怎么解决？ html5 python
2020-02-28 23:11

回答 2 已采纳用记事本之类的工具打开2kb的文件，按照我的推测，应该是一个告诉你错误原因的网页。看看具体什么提示信息。可能的原因是，你的参数不正确，请求的地址不对，网页需要登录才允许你下载，或者境外网站被拦
www.lfd.uci.edu网站下载python库显示404 python
2022-04-27 20:31

回答 1 已采纳 wordcloud‑1.8.1‑cp310‑cp310‑win_amd64.whl我没问题，2018年的电脑，也是edge浏览器。你是不是Ctrl+单击了，别这样，直接点一下就好
【时序】时间序列领域的 GAN 模型综述论文笔记
2022-04-13 17:00

datamonday的博客作为 GAN 的一个相对较新的领域，有许多正在进行的工作以开发高质量、多样化和私有的时间序列数据。在本文中，我们回顾了为时间序列相关应用设计的 GAN 变体。我们提出了离散变体 GAN 和连续变体 GAN 的分类法，其中...
openwrt中使用sed和uci报错 linux
2023-01-24 13:44

回答 2 已采纳这个问题是因为在第六行中，你使用了一个$符号来获取变量tmp的值，而不是将变量tmp的值作为字符串传递给uci set命令。通过移除$符号来解决这个问题，但是这样会导致变量tmp的值直接被插入到uc
用seaborn制图，在UCI导入数据集的时候遇到点小问题，不太明白为什么数据可以打印出来 python
2023-03-20 13:19

回答 1 已采纳该回答引用GPTᴼᴾᴱᴺᴬᴵ根据你提供的错误信息和代码，我猜测可能是因为你使用的 sns.load_dataset() 函数只能导入 seaborn 内置的一些数据集，而不能导入 UCI 上的数据集，
如何用UCI数据集测试基于卡方分裂的离散化方法？Python实习 python 算法
2023-04-21 12:56

回答 2 已采纳最近我也在看着块，我把我的方法说一下可以从UCI数据集中选择适当的数据集进行实验，并与其他离散化算法进行比较。首先，需要对数据集进行预处理，包括数据清洗、特征选择和标准化等步骤。然后，可以使用不同的离
UCI数据集汇总及描述
2021-06-27 16:53

人工智能之浪潮的博客 1. Abalone: Predict the age of abalone from physical measurements 鲍鱼DataSet：根据物理度量，预测鲍鱼的年龄。 2. Abscisic Acid Signaling Network: The objective is to determine the set of ...
爬取数据不显示中文…. python
2022-06-27 19:58

回答 1 已采纳 encoding = gbk，或者decode（“gbk”）你还是给一下具体代码好一点的
matlab 数据聚类分析预处理的一些问题求解答 matlab 算法
2022-03-30 10:05

回答 1 已采纳个人意见：是否归一化是要看你采取什么方法，比如神经网络可能需要进行归一化，但像集成学习之类的对数据不敏感，就不需要进行归一化。16个特征也不算很多，应该没必要特征提取。但也可以尝试一下看一下效果 ht
加载数据时出错，不知道怎么修改代理 python 有问必答
2022-02-25 11:31

回答 2 已采纳是因为网址拼接错误导致的，直接拼接出url即可，因为代码中用join拼接的分隔符是反斜杠，导致网页地址不正确，无法获取数据，这样即可： s='https://archive.ics.uci.edu/m
3.6 DeepInsight:一种将非图像数据转换为卷积神经网络架构的图像的方法（此文为3.5的参考文献[23]）
2023-11-01 22:24

weixin_42963026的博客文献来源：此文为3.5的参考文献[23]。提出了DeepInsight，它将非图像样本转换为图像形式
uci数据集汇总及翻译
2019-08-02 15:43

qq_28888837的博客 uci数据集汇总及翻译数据来源 http://archive.ics.uci.edu/ml/datasets.html 欢迎大家关注我的微信公众号，未来上面会推送python 机器学习算法学习深度学习论文阅读以及偶尔的小鸡汤等内容。ようこそいらっしゃ...
迈向个性化精准医疗的一大飞跃：特种酶复制DNA新细节揭示
2022-03-14 15:40

梁辰兴的博客加州大学欧文分校（UCI）化学系和物理与天文学系的研究团队发现，Taq酶在帮助制造新的DNA副本时，其行为与科学家之前认为的完全不同。这项新研究的联合通讯作者、加州大学伯克利分校化学教授格雷格·韦斯解释说，...
kpca_embeddings
2021-05-02 02:21

您可以训练KPCA嵌入来完成各种任务，例如从UCI Machine Learning Repository的或德语动词分类中对DNA序列进行结点识别。确切的超参数组合可以在参考文件中找到。我们还通过KPCA嵌入，参加了来自荷兰会议的荷兰语...
HDLSS笔记1:高维小样本上用GP多分类
2021-11-09 13:05

lagoon_lala的博客找两篇和项目相似的看数据量极少的怎么做的（心电图），和特征工程理论是否能用到高维小样本上用遗传编程(GP)多分类 T. Wei, W. -L. Liu, J. Zhong and Y. -J. Gong, "Multiclass Classification on High ...
送你一个目录，一站式学习生信！众多干货，有趣有料！
2021-12-20 21:15

生信宝典的博客生信的作用越来越大，想学的人越来越多，不管是为了以后发展，还是为了解决眼下的问题。但生信学习不是一朝一夕就可以完成的事情，也许你可以很短时间学会一个交互式软件的操作，却不能看完程序教学视频...
自 2017 年发表以来被引用次数最多的论文合集——大数据篇
2020-01-24 12:50

csdn业界要闻的博客最后，在两个庞大的数据集（1500万和1.2亿的观测数据）、一个模拟数据集以及真实世界数据上实验了5个变量。结果显示，其中一个变量需二次采样。另外三个变量则与随机森林的并行化实现相关，或涉及自举法在大数据中...
基因组学中的深度学习
2021-03-16 00:40

生信宝典的博客全文6,743字，阅读30分钟。这一篇文章的主题是深度学习在基因组学中的应用情况的。文章较长，读完要花些时间，不过我的建议是通读第一部分——关于如何进行模型训练的内容，读完后你应该可以理解...
一种挖掘频繁连续子序列集的新算法
2013-05-16 21:56

weixin_33809981的博客 1概述序列模式挖掘是数据挖掘中的重要研究内容之一，目前已经在各个领域中有着广泛的应用，如客户购买行为模式预测、Web访问模式预测、生物医学上DNA遗传鉴定与疾病诊断、网络***检测等等方面。Srikant和Agrawal提出...
没有解决我的问题, 去提问

悬赏问题

¥15 请教：如何用postman调用本地虚拟机区块链接上的合约？
¥15 为什么使用javacv转封装rtsp为rtmp时出现如下问题：[h264 @ 000000004faf7500]no frame？
¥15 乘性高斯噪声在深度学习网络中的应用
¥15 运筹学排序问题中的在线排序
¥15 关于docker部署flink集成hadoop的yarn，请教个问题 flink启动yarn-session.sh连不上hadoop，这个整了好几天一直不行，求帮忙看一下怎么解决
¥15 深度学习根据CNN网络模型，搭建BP模型并训练MNIST数据集
¥15 C++ 头文件/宏冲突问题解决
¥15 用comsol模拟大气湍流通过底部加热（温度不同）的腔体
¥50 安卓adb backup备份子用户应用数据失败
¥20 有人能用聚类分析帮我分析一下文本内容嘛

现在有从UCI上下载下来的一组DNA序列数据，想把他按照某种规则转换成只有0和1的序列，代码应该怎么写？

2条回答 默认 最新

悬赏问题

2条回答默认最新