问答

请问我的网页分析思路对吗?

作者:admin 2021-04-20 我要评论

Python新手哈,之前做过文本分析,现在公司有个小工具的需求要做网页分析,没有经验所以请教大家一下。 情况是这样: 需求:利用Python分析网页,检查其中某个it...

在说正事之前,我要推荐一个福利:你还在原价购买阿里云、腾讯云、华为云服务器吗?那太亏啦!来这里,新购、升级、续费都打折,能够为您省60%的钱呢!2核4G企业级云服务器低至69元/年,点击进去看看吧>>>)

Python新手哈,之前做过文本分析,现在公司有个小工具的需求要做网页分析,没有经验所以请教大家一下。

情况是这样:
需求:利用Python分析网页,检查其中某个item。
我的思路:
1、手动输入需要检查的网页地址。
2、利用Python获取网页源代码。
3、分析网页源代码,具体如下:

手动检查时,即找到status这一栏,看其值是否是ACCEPT,
image
分析获取到的网页源代码,找到了这一行
<div attributedefinitionguid="AB:52394082008461e6:19:19**Status**:21001ce120" permissions="RM"><div>ACCEPTED</div></div>
image
我没有网页代码的基础,甚至不知道这是什么语言,但我用一般的思路来想,整一个网页源代码中,只有这里一处的ACCEPT的字符,网页显示时也是以文本形态显示,所以我认为这就是我要检查的点。

所以我的分析思路即为:获取网页源代码,利用Python一行行分析源代码的文本,找到包含status的一行,检查其下一行中有没有ACCEPTED字符

换句话说,等于是用分析文本文件的方式,来分析网页源代码,且是在不懂网页源代码什么意思的情况下。实测是可以成功分析status的,但是总感觉有点悬,,,,
请问我这样靠谱不?或者Python有什么模块是可以按照网页源代码的语法块来分析的?
各位大神不吝赐教,小弟在此谢过了!

###

本身网页(爬虫)分析最底层的处理就是文本处理技术。
所以你的分析大致是没有错的。
不过对于真正的爬虫,因为分析的数据是HTML标记语言文本,所以其实是有专门的技术手段的,比如python下的Beautiful Soup可以解析DOM去更精准的分析。
因为你要求的分析模式很简单,可能也用不到这些啦。
其实很多时候满足要求的东西就是好的。

###

理论上面是没错的,实际上可能问题比较多
比如它的数据是通过js异步ajax加载的,或者这里面出现了多个ACCEPTED,怎么确定你需要的;
要是你频繁的请求接口,要是人家给你ip拉了黑名单

###

前面的回答说的对。
补充一下,如果需要精确定位的话python可以通过Beautiful Soup用css选择器定位到元素然后获取内容

版权声明:本文转载自网络,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本站转载出于传播更多优秀技术知识之目的,如有侵权请联系QQ/微信:153890879删除

相关文章
  • nginx响应速度很慢

    nginx响应速度很慢

  • 点击选中的多选框,会在已选那一栏显示

    点击选中的多选框,会在已选那一栏显示

  • PHP 多态的理解

    PHP 多态的理解

  • 关于C语言中static的问题

    关于C语言中static的问题

腾讯云代理商
海外云服务器