我用Python 爬取一个网站 用正则提取的 但是提取后 输出的是一个列表 而且有很多源代码里面的文字 比如</a></h3><div class="c-row c-gap-top-small"><div class="general_image_pic这种的 想过修改正则 但是花了好久的时间 都没有比这个更好的正则 因为网站是不规则的 只有这一个规律(目前找到的)哪位大神能回答一下?有什么方法?
我的想法是我用现在的正则爬取出来内容 因为输出的事列表 然后再从列表里面提取出文字 然后就可以导入MySQL