自治区政府网站内容格式规范(征求意见稿)
1.制定背景 依据《国务院办公厅关于做好中央政府门户网站内容保障工作的意见》(国办发[2005]31号)文件精神,自治区政府网站参照中央政府门户网站内容保障方式,自治区政府门户网站获取各级政府及部门网站内容的形式主要采用有网上抓取、信息报送、网站链接和栏目共建等方式。其中网上抓取是政府门户网站从各级政府及部门网站获取信息的主要方式之一。 网上抓取所面临的问题是,各级政府及部门网站缺乏统一的内容格式规范,不利于采集工具自动抓取和分析信息,部分属性不易准确提取。为了更准确地采集和分析各级政府及部门网站信息,需要规范网站的页面内容格式。各级政府及部门网站按照统一要求经过规范化修改后,政府门户网站可以通过采集工具实现准确的网上信息自动抓取。 同时,为了构建政府网站服务体系,实现政府网站群的联合检索功能,需要制定各级政府及部门网站检索系统的接口标准。 2.名词解释 服务系统:指各级政府及部门网站上提供的网上办事服务系统、网上申报服务系统、网上数据查询系统等一些网上应用服务系统。网上采集工具的目标不是把其中的数据内容进行采集,而是从网站群上自动发现这些服务系统,获取入口URL和相关描述信息,从而提供链接服务。 联合检索:在自治区政府门户网站提供的联合检索功能是指,系统能够将检索请求分发给各级政府及部门网站的站内检索系统,并将各个网站站内检索系统的结果统一合并处理后返回给查询用户。这样,用户得到的检索结果是各级政府及部门网站检索结果的合集。 3.制定目标 为了实现各级政府及部门网站的网上信息抓取,制定政府网站的建设标准是关键环节。本标准围绕信息采集和网页分析功能,在保持现有网站建设模式、不增加信息通道的前提下,使符合标准的网站可被中央政府门户网站采集工具程序自动识别,实现网站和网页属性自动标引,最大限度减少人工介入。 本标准配合中央政府门户网站采集工具的功能,实现以下目标: (l)收集并验证网站信息: (2)准确收集各级政府及部门网站发布的政务信息; (3)自动发现并登记网上服务系统; (4)实现政府网站群联合检索; (5)准确分析网页属性信息。 为了实现上述目标,本标准制定了五方面条款,具体含义和作用说明如下: 1.网站信息:用于标注网站和栏目的信息,比如名称、行业、地区、栏目名称、分类等。通过对网站信息的标注,不但可以使采集程序获得网站的基本信息,更重要的是,可以把这些信息作为政府网站的检验标志之一,实现政府网站验证校对。 2.政务信息:指各级政府及部门网站发布的政务信息,比如法律法规、规范性文件、办事指南等。政务信息是政府网站所发布的主要信息,在自治区政府门户网站建设中,需要将各级政府及部门网站所发布的政务信息进行汇总、分类,提供导航、检索等服务。 3.服务系统:在自治区政府门户网站建设中,需要提供网上服务系统的准确定位地址信息,方便公众通过自治区政府门户网站查询并快速到达该服务系统的入口网页。 4.检索系统接口:许多政府网站提供站内内容检索服务。但是网站所采用的检索入口以及结果展示页面各不相同的,需要统一检索系统接口,实现政府网站群的联合检索功能。 5.网页内容:网页中包含着标题、正文、作者、发表日期、正文、来源等信息,但是如果没有格式规范,网页分析程序难以准确提取这些信息。通过制定统一的网页内容格式标准,可以实现网页内容的准确分析和提取。 实现标准的基本方法是,在网页HTML中,嵌入特定意义的标识信息,用于标注各项有意义的内容,这些嵌入的标识信息采用HTML的META置标,在实现属性标注功能的同时,不影响网页的显示效果。 4.适用对象和范围 本标准适用于各级政府及部门网站的建设。自治区政府门户网站采集工具将全面支持本标准,实现对符合标准的政府网站的准确数据采集。 5.制定原理和原则 5.1制定原理 构成网页的HTML文件逻辑上可以分为内容(Content)和页面展示(Style)两部分,内容部分包括网页的标题、日期、正文、作者等数据元素,它决定了网页所包含的信息:页面展示部分包括每个元素的位置、字体、大小、颜色等,它决定了网页在浏览器中的显示效果。HTML文件能够将内容和页面展示有机地结合为一体。 本标准的制定主要从网页内容标注入手,从内容层面对网页进行标注,而忽略页面展示层面。具体方法是,利用HTML文件的特性,在不影响网页展示效果的前提下,加入各类属性置标,规定网站发布内容必须包含的信息:例如,在网页中标注网站信息、栏目信息、标题、日期、作者、来源、服务系统等元数据内容,从根本上保证其它应用对该网页属性的准确识别和提取。 5.2标准制定原则 各级政府及部门网站已经经历了多年的建设,花费了设计和管理维护人员的大量心血。为了尽量减少网站的改动,标准制定过程中充分考虑了各级政府及部门网站的实际特点和改造难度,提供可行的操作标准。 5.2.1简单可操作性 标准条款简单明了,贴近实际应用,提供明确的操作步骤,方便维护人员实施。 5.2.2划分等级 为了使本标准具有更好的可行性,避免一刀切所带来的网站改造压力,采用了划分等级的方法,方便分阶段、分步骤实现对标准的支持。具体等级划分和含义如下: 1级:紧急度高,各级网站应遵循的条款。 2级:紧急度中,各级网站宜遵循的条款。 3级:紧急度低,各级网站可酌情实现的条款。 5.3条款描述方法 每项标准条款从以下方面给出描述: 编号:标准条款编号。 用途:给出标准条款的用途。 等级:给出标准条款的等级。 范围:给出标准条款的影响范围,范围的描述方法包括: 主页:指各级政府及部门网站的主页。 栏目:指各级政府及部门网站上的栏目页面。 内容页:指非主页、非栏目,包含政务信息等具有实际内容的网页。 各级网页:泛指各级政府及部门网站上的网页。 服务系统主页:特指各个服务系统的入口网页。 系统接口:指系统可以提供某种形式的调用接口,实现请求的接收和执行结果的返回。 内容:给出具体的标准内容及标注方法。 5.4其它说明 标准条款描述中使用“*”号来区分必标注项和可选标注项,带有“*”号的META置标为必须标注项,不带“*”号的属性为可选工页。 条款中涉及“地区”属性,应按照中国行政区划中的标准地名名称进行标注。省和市之间用半角“/”符号分隔,比如“山东省青岛市”应标注为“山东省/青岛市”。 条款中涉及“行业”属性,应按照国家相关的行业分类标准进行标注。 条款中涉及基于内容的"分类"属性,在中央政府门卢网站制定统一的分类体系标准之前,各级政府及部门网站目前可以使用自有的分类体系,或者省略分类属性的标注。分类标注支持多级,类和类之间采用半角“/”分隔。 6.标准条款 6.1网站信息标准 6.1.1主页标注 编号: No.l 说明:在各级政府及部门网站的主页上给出网站名称、主页URL、行业、地域、分类等属性。 用途:该属性是网站的一项重要属性,用于标注网站的名称和属性。 等级:l 。 范围:主页。 内容:在主页(一般为index.html/index.html/index.asp/index.jsp等)HTML文件中,在(head)区域内用META置标的方式给出网站名称、主页URL、行业、地域、分类。格式描述: *<META NAME ="sitename" CONTENT="[网站名称] "> *<META NAME ="siteurl" CONTENT="[URL地址] "> *<META NAME ="guild" CONTENT="[行业]"> *<META NAME ="district" CONTENT="[地区]"> *<META NAME ="sitecatalog" CONTENT="[分类]"> 例如: *<META NAME ="sitename" CONTENT="[新疆政府网站] "> *<META NAME ="siteurl" CONTENT="[http://www.xinjiang.gov.cn] "> *<META NAME ="guild" CONTENT="[政府]"> *<META NAME ="district" CONTENT="[乌鲁木齐市]"> *<META NAME ="sitecatalog" CONTENT="[政府]"> 6.1.2栏目标注 编号: No.2 说明:在政府网站的栏目页面上标注栏目属性。 用途:利用该标注可以获得网页所属的栏目信息。 等级:3。 范围:栏目。 内容:在栏目HTML文件是,在<head>区域内用META置标的方式标注栏目名称。格式描述: *<META NAME ="channel" CONTENT="[栏目名称] "> *<META NAME ="siteurl" CONTENT="[分类] "> 例如: *<META NAME ="channel" CONTENT="[三讲教育] "> *<META NAME ="siteurl" CONTENT="[政治/三讲教育] "> 6.2政务信息标准 6.2.1政务信息标注(1)。 编号: No.3 说明:在政府网站的主页上标注政务信息。 用途:对政府网站的政务信息进行标注。 等级:1 范围:主页。 内容:在主页HTML文件中,用META置标的方式,将包含政务信息的栏目列出,如果多个栏目中包含政务信息,则可以为每个栏目填写一个META置标。 格式描述: *<META NAME ="serve" CONTENT ="[栏目URL],[分类],[地区]"> 其中,"分类"是指政务信息的分类属性,可以是法律法规、政策解释、办事指南等;"地区"是指政务信息的地域属性:属性之间用半角逗号","分隔。 例如: <META NAME ="serve" CONTENT ="http://www.urumqi.gov.cn/urumqi/index.asp,法律法规,乌鲁木齐市"> 6.2.2政务信息标注(2) 编号: No.4. 说明:在网页中标注本网页为一条政务信息。 用途:用于从网站中标识政务信息网页。 等级:3。 范围:内容页。 内容:在内容页的HTML文件中,在(head)区域内用META置标的方式标注政务信息。 格式描述: *<META NAME ="serve" CONTENT ="[分类],[地区]"> 其中,“分类”是指政务信息的分类属性,可以是法律法规、政策解释、办事指南等;“地区”是指政务信息的地域属性;属性之间用半角逗号“,”分隔。 例如: <META NAME ="serve" CONTENT ="法律法规,乌鲁木齐市"> 6.3服务系统标准- 6.3.1服务系统标注 编号:No.5 说明:在各级政府网站的主页上给出所包含的服务系统信息。 用途:对于包含应用系统(比如“机动事违章查询系统”,“在线招投标系统”等)的网站,通过在主页上对这些服务系统的基本信息进行标注,即可实现这些服务系统被自动收集和整合的目的。 等级:1。 范围:主页。 内容:在主页的HTML文件中,在<head>区域内用META置标的方式给出本网站服务系统的基本信息.如果一个网站有多个服务系统,则可以为每个应用填写一个META置标。 格式描述: *<META NAME =" services " CONTENT ="[网上服务名称],[服务入口],[分类],[地区]"> 属性之间用半角逗号","分隔。 例如: <META NAME="services" CONTENT ="乌鲁木齐市公安局公安交通管理局车辆违法查询, http://www.urumqi.gov.cn,公安,乌鲁木齐市"> 6.4检索系统标准- 6.4.1检索系统接口 编号:No.6 说明:对政府网站的站内检索服务提出标准化要求。 用途:用于实现政府网站群联合检索。 等级:2。 范围:系统接口。 内容:为了实现政府网站群的联合检索,对各政府网站目前的站内检索系统提出规格化要求。基本思想是,各政府网站实现一套统一的检索接口,包括能够接受统-格式要求的HTTP检索请求,并返回统→格式要求的检索结果页面。 (l)接收统一的HTTP检索请求: 站点检索系统能够接收以下格式提交的检索请求: http://www.xinjiang.gov.cn/[程序名]?query=[检索条件]&count=[每页数目]&page=[页码]&export=xml 其中“程序名”,“检索条件”,“页码”,“每页数目”是可变参数,可由联在检索程序设置,分别表示调用的检索程序名、检索条件、取结果的页码编号、每页包含的网页数。 例如: http://www.xinjiang.gov.cn/1$001/1$001$031/9.jsp?query=新疆&count=20& page=1&export=xml (2)返回统一的检索结果: 站内检索系统返回满足规定格式要求的XML数据流。联合检索程序可以对结果内容进行分析处理,实现政府网站群的联合检索功能。站内检索的返回结果符合以下XML文件格式要求: <?xml version="1.0" encoding="GBK" ?> <channel> <name>[站内检索名称]</name> <link>[站内检索URL入口]</link> <descryiption>[站内检索描述信息]</descryiption> <record-info> <count>[检索到的网页数]</count> <page-index>[页码] </page-index> <page-size>[每页记录数] </page-size> </record-info> <item> <title>[网页标题]</title> <link>][网页URL]</link> <pubdate>[网页发现日期]</pubdate> <abstract>[内容摘要]</abstract> </item> </channel> 例如: <?xml version="1.0" encoding="GBK" ?> <channel> <name>乌鲁木齐市政府站内检索</name> <link>http://www.urumqi.gov.cn/</link> <descryiption>乌鲁木齐市政府站内检索系统</descryiption> <record-info> <count>3 </count> <page-index>1234 </page-index> <page-size>20 </page-size> </record-info> <item> <title>胡家燕在自治区纪检监察工作会议上强调有效预防和严肃惩处腐败相结合</title> <link> http://www.xinjiang.gov.cn/1$001/1$001$012/197.jsp?articleid =2005-8-31-0006 </link> <pubdate>2005-8-31</pubdate> <abstract>为期3天的自治区纪检监察工作会议8月13日下午结束。自治区党委副书记、纪检委书记胡家燕强调,各级纪检监察部门要切实贯彻落实《建立健全教育、制度、监督并重的惩治和预防腐败体系实施纲要》,将有效预防和严肃惩处腐败相结合,为加快自治区新型工业化建设创造良好的发展软环境、提供组织纪律保障。</abstract> </item> </channel>
|