威尼斯wns777-9778818威尼斯官网

高新技术企业编号:GR201636000330

咨询热线

0791-86659123

181-7913-9123

微信扫码咨询

马上咨询 马上咨询
 在 线 咨 询
  • 在线咨询
  • 0791-86659123

    181-7913-9123

JEECMSv8后台使用操作之维护

发布时间:2016-11-02 10:25:13 编辑:本站编辑 来源:本站原创 阅读次数:

采集管理

采集是简化版网络爬虫功能,通过设定指定的URL地址和指定的规则抓取信息到系统中。详细的规则设定包含如下信息:

  

举例说明简单的采集设定如下:

1、设定采集地址


采集地址中添加多个固定URL

http://roll.news.sina.com.cn/s/channel.php?ch=01#col=91&spec=&type=&ch=01&k=&offset_page=0&offset_num=0&num=60&asc=&page=3

或者动态URL如下

http://roll.news.sina.com.cn/s/channel.php?ch=01#col=91&spec=&type=&ch=01&k=&offset_page=0&offset_num=0&num=60&asc=&page=[page]


[page]为动态的分页变量,下面的分页值范围 2 10  表示采集地址的2-10页

2、设定内容地址集(要采集的内容URL地址的开始和结束位置设定)

用浏览器访问查看采集地址网页,右键查看网页源代码,如下图

可以将内容地址集的

开始HTML设定为

<div class="d_list_txt" id="d_list">

结束HTML设定为

<div class="pagebox">

3、设定内容地址(即内容URL地址的前后位置,用来确定要采集访问的内容信息URL)

开始HTML设定为

<span class="c_tit"><a href="

结束HTML设定为

" target="_blank">

4、用浏览器访问查看内容信息URL网页,右键查看网页源代码,如下图


标题

开始HTML设定为<meta property="og:title" content="

结束HTML设定为" />

内容

开始HTML设定为<div class="article article_16" id="artibody">

结束HTML设定为<p class="article-editor">

更加详细的采集规则设定请看官网视频教程


1 2 3 4 5 6 7 8 9 10 
点赞:
分享到:

威尼斯wns777|9778818威尼斯官网

XML 地图 | Sitemap 地图