常见疑难问题解答

网站万能信息采集器

　　　————让您从此不再为网站内容烦恼

　　　　————让您的网站一天内拥有海量信息

常见疑难问题解答

1.抓到的内容是乱码，网页编码不是中文的gb2312怎么办？

只需要在修改任务里，在网页编码那里选择相应的编码就行了，一般不是 gb2312 就是utf-8 ，繁体汉字编码是big5，外文网站有可能是iso-8859-1，还有极少数网站是Unicode编码。打开网页，从头部代码里就可以知道网页编码了，一般类似下面的代码：
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
charset=gb2312表明编码就是gb2312

2. 很多网站点击下页，网址不会变，对于这种post表单提交的情况，如何处理？

比如http://www.plasway.com/search/search.jsp，点下一页，网址不变，怎么办呢？我们下载个小软件http://www.yao26.com/VisualSniffer.rar，截取点击下页时候网卡发送出去的数据，把参数抓到就行了. 比如这个网站，抓到的参数类似 PTURNOVERMODE=2&PCURRENTPAGE=7，7表示第7页，我们把参数带在网址里就行了http://www.plasway.com/search/search.jsp?PTURNOVERMODE=2&PCURRENTPAGE=7 这个网址就是第7页了。下页网址就被破解出来了，就可以按正常抓取了。有些网站比如51job的不能带在网址参数里，就需要这样表示了：http://www.plasway.com/search/search.jsp?[post]PTURNOVERMODE=2&PCURRENTPAGE=7[/post],post之间的表示要提交的数据。

另有功能更强大的抓包嗅探软件 http://www.yao26.com/iris.rar

3. 如果实现方便地抓取会员登陆才能查看的信息？

经常会遇到一些网站必须登陆才能查看内容，点击菜单中的“登陆网站”，输入网址，再输入账户信息，登陆成功之后返回就可以正常抓取了。有些网站登陆过段时间会失效，需要重新点登陆网站，重新登陆。如果嫌频繁登陆麻烦，可以做一个自动登陆的网页，放在任务目录里，就不需要手工登陆了。如果不会做这个网页，可以直接找我们，我们帮您做。

4. 不按信息列表抓，直接按信息id抓，直接抓具体信息页面，怎么抓？

比如要抓一些新闻 http://www.XXXX.com/news.asp?id=1 到 http://www.XXXX.com/news.asp?id=100
我们只需要批量添加起始地址就行了。不过信息的前后标要在顶层页面那里设置了，不是在采集对象前后标识那里了。可以参照二手车那个例子，不过不用设置信息列表循环标志，其它设置差不多。这种情况是保存在任务文件的getindexdata表，而不是getdata表里。

5. 有的网站分类很多，一个分类就是一个起始地址，一个一个添加太麻烦，有没有简单的办法呢？

当然有办法了，用我们软件的特色功能“自动获取起始地址”就搞定了。模仿下面的设置，下面的设置会把起始地址前后标之间的所有含有/index.html和paper464的网址抓到。起始地址前后标通常不用设置也行。一般不必选中“只抓取一次各级分类网址”，直接就可以开始抓了。也可以设置好之后，点菜单“工具”--“抓取子分类地址”，软件就会抓到起始地址以及对应的分类了，刷新显示之后就出来两串字符，起始地址那一串，粘贴到起始地址里（不要点添加）；分类那一串就粘贴到类别名称里，就行了。

6. 如何在一个任务设置里同时抓取多个分类呢？

把各分类网址都添加到起始地址列表里，并且设置好类别名称，一个起始地址对应一个类别名称，按顺序对应好，类别名称用分号分开。还有，下页网址那里通常用下页网址关键字；如果用下页网址前后标稍微麻烦些，多个下页网址前后标用@@@分开，“从”“到”“间隔”“采集页数”可以用同一数字，也可以用逗号分开填多个。
参考下图的设置

7. 采集对象网址标识那里，一般都是设置含有某个标志，能不能排除某个标志？

上图表示只抓含有buyer/offerdetail/的网址，假如这样填[-buyer/offerdetail/]，就表示不抓含有这串字符的网址了。
如果填 buyer/offerdetail/;html 表示抓既含有buyer/offerdetail/又含有html的网址。
有时候这样很有用的哦。

8. 包含列表与排除列表

包含列表，很明显就是只抓在包含列表前后标识之间的链接。
排除列表，很明显就是不抓排除列表前后标之间的链接。可以起到过滤列表的作用，有些推荐信息之类的我们不需要抓，就可以排除。

9. 很多新闻内容里有下一页，怎么抓？

内容字段，类型选“新闻”，内容的前后标要把下页那段代码也包括进去。软件带有这方面例子。

10. 如何抓取文章，并去掉无用的HTML代码，仅仅保留必需的<P>、<br>之类的换行代码

类型选“文章”，同时选中删除Html就行了。

11. 如何下载图片、软件、音乐等文件

参考阿里巴巴供应那个例子，类型选图片，选中保存到本地就行了。抓图片跟抓其它文件一样道理的。

12. 信息前后标有多种情况怎么办？

看下图，就设置了两种情况的前后标。其实可以设置很多很多种情况的，只要在信息前、后标识2里面用@@@分开就行了。

13. 如何替换过滤无用代码？

抓取时候可以替换过滤，看上面的图，有“字符替换”“替换成”，就是实现这个功能的。多个字符替换用@@@分开就行。
发布数据时候也可以替换无用代码的，设置方法一样。

14. 如果根据关键词抓取baidu的搜索结果？

我们先在baidu搜索，然后抓baidu的结果就行了，软件里有例子。

15. 如何实现抓取数据不重复，发布数据不重复？

不要选中“是否删除以前的采集网址”，那么抓过的就不会重复抓了。
发布数据时候设置某些字段不能重复，也可以过滤重复。

16. 如何把数据添加到mysql等数据库？

只要能连接Mysql数据库，就肯定能发布进去。连接mysql数据库稍微麻烦些
要安装mysql odbc驱动 (下载地址：mysql-connector-odbc-5.1.8-win32.msi) ，然后点发布数据，点创建连接，选填mysql连接就行了。生成的连接串类似这样，
driver={mysql odbc 5.1 driver};server=localhost;uid=root;pwd=;database=mysql
server填ip也可以，uid就是用户名，pwd就是密码，database就是你数据库名字了。

其实任意数据库都可以发布进去的，包括oracle，sybase，mssql

17. 发布数据的技巧，发布数据能不能模拟注册用户，并且把用户id对应起来？

比如发布供应信息，先发布公司信息，再发布供应信息，供应信息表里肯定有个字段表示是哪个公司发布的，有时会用公司id来表示。这种情况就需要类型选“编号”，并设置“编号表名字”和“编号表字段”。下图就是表示把公司名发布到供求信息表里的gsid（公司id）字段里，gsid要在corporation表才能查到，corporation表的id字段就是gsid，查gsid的依据是qymc（企业名称）相同。

这个设置你可能不好理解，可以直接找我们QQ，我们给你解决。

18. 如果抓了图片，如何实现不用上传图片？

如果你在服务器上开着软件，只需要在软件启动设置里设置下图片的保存目录，就不用上传了。如果你是租的网站空间，恐怕必须上传了。

19. 如何实现全自动采集添加？

首先要设置好抓取，再设置好发布数据。载入这个任务，然后在软件启动设置里，设置定时自动抓取。设置好后关掉软件，重新打开，软件过段时间就会自动抓了，凡是载入的任务都会被执行的。无关的任务请不要载入。定时抓取时间间隔不要设置太短。

20. 有些网站下页参数非常复杂，怎么办？

比如http://job.shunde.net.cn//Personal/PersonalSerach.aspx?ddhomecity=%u4e0d%u9650&flag=%u4e1a%u52a1
这个下页参数是,net网站搞的，非常非常复杂，几乎不太可能把第2页直接用网址表示出来。这时候需要我们软件的特别功能了，下页网址找不到时候可以把下面填好(至少再填一项)，复制到下页网址前标或网址关键字那里：
下页链接网址是否会变化=0; 1表示会变化，0表示不变
下页链接id=;
下页链接name=;
下页链接包含字符=;
下页显示文字=下一页;
这样就可以解决了。这种情况比较少，如果您不会，直接找我们，我们帮你搞定。从这方面看，就知道我们软件其实很完善的，我们就是要保证什么网站都能抓。

21. 如何把一个任务的设置复制到另一个任务里？

在任务列表里，点右键“复制任务”，复制一个并改名字，然后在这个基础上修改就行了。因为设置已经复制过来了。

22. 特别提醒

特别提醒：
1. 由于软件升级，帮助里都是按最新版本来讲解的，请务必下载最新版本。
2. 网上流传的所谓破解版仅能保存几十条信息，其实还是试用版，购买软件请到官方站www.yao26.com,不要上当受骗。
3. 对于一些高级功能或者不常使用的功能，如果觉得帮助里不详细，请联系我们的全天在线QQ寻求帮助。
4. 正版用户，抓取大数据量或者新闻时候的时候请点菜单设置--软件启动设置，不要选中是否自动刷新采集数据，可以提高速度