1.抓到的内容是乱码,网页编码不是中文的gb2312怎么办?
只需要在修改任务里,在网页编码那里选择相应的编码就行了,一般不是
gb2312 就是utf-8 ,繁体汉字编码是big5,外文网站有可能是iso-8859-1,还有极少数网站是Unicode编码。打开网页,从头部代码里就可以知道网页编码了,一般类似下面的代码:
<meta http-equiv="Content-Type" content="text/html;
charset=gb2312">
charset=gb2312表明编码就是gb2312
2. 很多网站点击下页,网址不会变,对于这种post表单提交的情况,如何处理?
比如http://www.plasway.com/search/search.jsp,点下一页,网址不变,怎么办呢?我们下载个小软件http://www.yao26.com/VisualSniffer.rar,截取点击下页时候网卡发送出去的数据,把参数抓到就行了.
比如这个网站,抓到的参数类似 PTURNOVERMODE=2&PCURRENTPAGE=7,7表示第7页,我们把参数带在网址里就行了http://www.plasway.com/search/search.jsp?PTURNOVERMODE=2&PCURRENTPAGE=7
这个网址就是第7页了。 下页网址就被破解出来了,就可以按正常抓取了。有些网站比如51job的不能带在网址参数里,就需要这样表示了:http://www.plasway.com/search/search.jsp?[post]PTURNOVERMODE=2&PCURRENTPAGE=7[/post],post之间的表示要提交的数据。
另有功能更强大的抓包嗅探软件 http://www.yao26.com/iris.rar
3. 如果实现方便地抓取会员登陆才能查看的信息?
经常会遇到一些网站必须登陆才能查看内容,点击菜单中的“登陆网站”,输入网址,再输入账户信息,登陆成功之后返回就可以正常抓取了。有些网站登陆过段时间会失效,需要重新点登陆网站,重新登陆。如果嫌频繁登陆麻烦,可以做一个自动登陆的网页,放在任务目录里,就不需要手工登陆了。如果不会做这个网页,可以直接找我们,我们帮您做。
4. 不按信息列表抓,直接按信息id抓,直接抓具体信息页面,怎么抓?
比如要抓一些新闻 http://www.XXXX.com/news.asp?id=1 到
http://www.XXXX.com/news.asp?id=100
我们只需要批量添加起始地址就行了。不过信息的前后标要在顶层页面那里设置了,不是在采集对象前后标识那里了。可以参照二手车那个例子,不过不用设置信息列表循环标志,其它设置差不多。这种情况是保存在任务文件的getindexdata表,而不是getdata表里。
5. 有的网站分类很多,一个分类就是一个起始地址,一个一个添加太麻烦,有没有简单的办法呢?
当然有办法了,用我们软件的特色功能“自动获取起始地址”就搞定了。模仿下面的设置,下面的设置会把起始地址前后标之间的所有含有/index.html和paper464的网址抓到。起始地址前后标通常不用设置也行。一般不必选中“只抓取一次各级分类网址”,直接就可以开始抓了。也可以设置好之后,点菜单“工具”--“抓取子分类地址”,软件就会抓到起始地址以及对应的分类了,刷新显示之后就出来两串字符,起始地址那一串,粘贴到起始地址里(不要点添加);分类那一串就粘贴到类别名称里,就行了。
6. 如何在一个任务设置里同时抓取多个分类呢?
把各分类网址都添加到起始地址列表里,并且设置好类别名称,一个起始地址对应一个类别名称,按顺序对应好,类别名称用分号分开。还有,下页网址那里通常用下页网址关键字;如果用下页网址前后标稍微麻烦些,多个下页网址前后标用@@@分开,“从”“到”“间隔”“采集页数”可以用同一数字,也可以用逗号分开填多个。
参考下图的设置
7. 采集对象网址标识那里,一般都是设置含有某个标志,能不能排除某个标志?
上图表示只抓含有buyer/offerdetail/的网址,假如这样填[-buyer/offerdetail/],就表示不抓含有这串字符的网址了。
如果填 buyer/offerdetail/;html 表示抓既含有buyer/offerdetail/又含有html的网址。
有时候这样很有用的哦。
8. 包含列表与排除列表
包含列表,很明显就是只抓在包含列表前后标识之间的链接。
排除列表,很明显就是不抓排除列表前后标之间的链接。 可以起到过滤列表的作用,有些推荐信息之类的我们不需要抓,就可以排除。
9. 很多新闻内容里有下一页,怎么抓?
内容字段,类型选“新闻”,内容的前后标要把下页那段代码也包括进去。软件带有这方面例子。
10. 如何抓取文章,并去掉无用的HTML代码,仅仅保留必需的<P>、<br>之类的换行代码
类型选“文章”,同时选中删除Html就行了。
11. 如何下载图片、软件、音乐等文件
参考阿里巴巴供应那个例子,类型选图片,选中保存到本地就行了。抓图片跟抓其它文件一样道理的。
12. 信息前后标有多种情况怎么办?
看下图,就设置了两种情况的前后标。其实可以设置很多很多种情况的,只要在信息前、后标识2里面用@@@分开就行了。
13. 如何替换过滤无用代码?
抓取时候可以替换过滤,看上面的图,有“字符替换”“替换成”,就是实现这个功能的。多个字符替换用@@@分开就行。
发布数据时候也可以替换无用代码的,设置方法一样。
14. 如果根据关键词抓取baidu的搜索结果?
我们先在baidu搜索,然后抓baidu的结果就行了,软件里有例子。
15. 如何实现抓取数据不重复,发布数据不重复?
不要选中“是否删除以前的采集网址”,那么抓过的就不会重复抓了。
发布数据时候设置某些字段不能重复,也可以过滤重复。
16. 如何把数据添加到mysql等数据库?
只要能连接Mysql数据库,就肯定能发布进去。连接mysql数据库稍微麻烦些
要安装mysql odbc驱动 (下载地址:mysql-connector-odbc-5.1.8-win32.msi)
,然后点发布数据,点创建连接,选填mysql连接就行了。生成的连接串类似这样,
driver={mysql odbc 5.1 driver};server=localhost;uid=root;pwd=;database=mysql
server填ip也可以,uid就是用户名,pwd就是密码,database就是你数据库名字了。
其实任意数据库都可以发布进去的,包括oracle,sybase,mssql
17. 发布数据的技巧,发布数据能不能模拟注册用户,并且把用户id对应起来?
比如发布供应信息,先发布公司信息,再发布供应信息,供应信息表里肯定有个字段表示是哪个公司发布的,有时会用公司id来表示。这种情况就需要类型选“编号”,并设置“编号表名字”和“编号表字段”。下图就是表示把公司名发布到供求信息表里的gsid(公司id)字段里,gsid要在corporation表才能查到,corporation表的id字段就是gsid,查gsid的依据是qymc(企业名称)相同。
这个设置你可能不好理解,可以直接找我们QQ,我们给你解决。
18. 如果抓了图片,如何实现不用上传图片?
如果你在服务器上开着软件,只需要在软件启动设置里设置下图片的保存目录,就不用上传了。如果你是租的网站空间,恐怕必须上传了。
19. 如何实现全自动采集添加?
首先要设置好抓取,再设置好发布数据。载入这个任务,然后在软件启动设置里,设置定时自动抓取。设置好后关掉软件,重新打开,软件过段时间就会自动抓了,凡是载入的任务都会被执行的。无关的任务请不要载入。定时抓取时间间隔不要设置太短。
20. 有些网站下页参数非常复杂,怎么办?
比如http://job.shunde.net.cn//Personal/PersonalSerach.aspx?ddhomecity=%u4e0d%u9650&flag=%u4e1a%u52a1
这个下页参数是,net网站搞的,非常非常复杂,几乎不太可能把第2页直接用网址表示出来。这时候需要我们软件的特别功能了,下页网址找不到时候可以把下面填好(至少再填一项),复制到下页网址前标或网址关键字那里:
下页链接网址是否会变化=0; 1表示会变化,0表示不变
下页链接id=;
下页链接name=;
下页链接包含字符=;
下页显示文字=下一页;
这样就可以解决了。这种情况比较少,如果您不会,直接找我们,我们帮你搞定。从这方面看,就知道我们软件其实很完善的,我们就是要保证什么网站都能抓。
21. 如何把一个任务的设置复制到另一个任务里?
在任务列表里,点右键“复制任务”,复制一个并改名字,然后在这个基础上修改就行了。因为设置已经复制过来了。
22. 特别提醒
特别提醒:
1. 由于软件升级,帮助里都是按最新版本来讲解的,请务必下载最新版本。
2. 网上流传的所谓破解版仅能保存几十条信息,其实还是试用版,购买软件请到官方站www.yao26.com,不要上当受骗。
3. 对于一些高级功能或者不常使用的功能,如果觉得帮助里不详细,请联系我们的全天在线QQ寻求帮助。
4. 正版用户,抓取大数据量或者新闻时候的时候请点菜单 设置--软件启动设置,不要选中是否自动刷新采集数据,可以提高速度
|