上一页 目录 下一页

4.1、文档信息系统使用手册

文档信息系统使用手册
    一、概述:
    文档信息系统是【信息世界数据库应用系统】下主要的通用子应用系统。它使用【信息世界数据库应用系统】的全部代码加上子应用系统本身需要的个性化代码。在【信息世界数据库应用系统】下添加不同的库结构和不同的个性化代码将可以构建不同的子应用系统。
    文档信息系统是一个集互联网信息提取,处理和使用的超级应用系统。该系统使用最新WEB技术、多线程下载技术、网页分析等智能技术进行编程。是政府机关、企业、信息报社、学校等单位和人员获取信息的优秀软件。同时,程序还提供了对本地各种文档的收集、查询和管理功能,可装入指定目录及其子目录内下载的各种信息文件;也可以将数据库中的信息写入指定文件;每条记录写入一个文件,文件名可以指定按记录号或按指定子段为文件名或以原来的文件名形式存盘。
    用户可根据需要,预先设置好查询条件,以查询方式选定自己需要的聚合频道或特殊网址,然后就可以下载预先定义的频道网址文件信息了。由于这些信息都是许多网站发布的相关信息的汇总,使用这个程序获取信息的方式比普通上网浏览大大提高了效率。最重要的是,获取了日后可重复使用的信息,可管理、可查询的数据库存储方式的信息。通过该程序,使用户在极短的时间内获取到用户关心的全部信息,使用户成为信息的真正主人。
    二、程序数据表功能:
    当前程序包含主表(WD)和三个编码表(WDBM1、WDBM2、WDBM3),主表用于储存本地文档数据,三个编码表用于储存从互联网提取的信息数据,其中(WDBM1)是频道表,用于保存用户的聚合Rss频道网址或其它类型的网址信息;(WDBM2)是提取的网络文件信息;(WDBM3)是用户选定的优秀频道信息表。
    三、主要指标:
    经测试,在2M电信宽带下,通常一个小时内,正常情况下可下载约5.6万条文件网址信息,在5分钟内,可下载约300个完整的文件信息。下载的信息以文件的形式保存在当前位置的“聚合信息”目录及其分类子目录中。可随时将选定目录及其子目录内的文件装入数据表供查询使用。
    四、主要操作步骤:
    1、打开“信息世界_Web数据提取窗”
    当需要确定的频道类型网址信息时,程序启动后,从树型导航窗口中选择“数据查询”节点下面对应的节点,查询出需要的网址频道,然后单击程序窗口下面“聚合工具条”上的“提取聚合信息”按钮,就进入了“信息世界_Web数据提取窗”;
    2、“信息世界_Web数据提取窗”介绍:
    该窗口包含“新法律文件下载、查询”、“法律文件综合下载”、“Rss聚合文件信息下载”、“WEB参数设置”4个页面。下面介绍4个页面的功能和使用方法;
    “新法律文件下载、查询”页面主要提供最新的法律文件下载和其它法律文件的查询下载;“法律文件综合下载”页面主要用于查询下载,其页面的查询功能更强于前一页面。下载的法律文件将保存在当前程序的“最新法律”目录及其子目录中,最新法律下载按“年-月”形式目录保存,例如 “\最新法律\2006-01\”,查询方式下载按查询关键字保存。例如“\最新法律\公司法\”,其中“公司法”为查询关键字。“新法律文件下载、查询”页面每次下载可选择下载20或100或200个文件,“法律文件综合下载”页面每次可选择下载1000个以内文件的多个选择项。关于将下载的法律文件装入数据库的操作,请参考“法律信息系统”的介绍;
    3、“Rss聚合文件信息下载”页面
    要下载频道网址包含的文件信息,应当在“Rss聚合文件信息下载”页面进行。
    “Rss聚合文件信息下载”页面中,左部表格为频道表,它的字段类型对应“WDBM1”或“WDBM3”表,右部表格为文件信息表,它的字段类型对应“WDBM2”表。
    在使用频道表下载文件信息前,频道表中的“列表属性”如果为空,必须先测定“列表属性”,经过测定列表属性的频道,如果“列表属性”仍然为空,表示该频道不能连接,也就是不可用。如果“列表属性”为“0”,必须手工设置“过滤代码”。
    两个表的左边都有一个选择标记,要下载文件信息,首先选中窗口下面的“全选”项或标记频道表左边的选择标记,当对应频道标记为黑色时,表示该频道被选中。被选中的频道可以执行“文件名、网址下载”或“文本模式下载”。只有进行过“文件名、网址下载”后并且选中右部文件信息表左标记的文件才能进行“WEB模式下载”;
    “文件名、网址下载”下载命令能够多线程高速下载文件名网址信息,“文本模式下载”命令是全文信息多线程下载,如果频道网址的“过滤代码”未经手工设置字符过滤,将全文下载包含网页源码的文件信息;只有经过设置“过滤代码”的频道,才能下载字符文件信息。“文本模式下载”命令先检查频道包含的文件是否存在,存在则不下载,除非在“WEB下载参数设置”页面选中“文本方式覆盖下载”才会重新下载。
    “WEB模式下载”要得到过滤的文件内容,也必须对频道文件设置过滤代码。下载文件内容前必须先经过“文件名、网址下载”下载,通过“装入文件名,网址数据”按钮命令将网址信息装入文件信息表并选中相应文件,才能下载文件内容。下载完毕通过“装入WEB下载数据”按钮命令装入文件内容。
    4、频道“过滤代码”设置:
    程序一般提供一定数量的设置完整的频道网址,包括提供完整的过滤代码设置,但如果用户需要更多的完整设置的频道网址,有时就必须自行设置。下面介绍“过滤代码”设置的关键信息:
    如果频道表中“过滤代码”项为空,当执行“文件名、网址下载”下载命令时,程序会对“过滤代码”自动设置以下项目:例如“新闻要闻”频道的自动设置项目有:
    url="http://rss.sina.com.cn/news/marquee/ddt.xml" --表示频道网址
    First="" --表示从两引号中字符末尾处开始提取文件字符,如果两引号中字符为空,将不使用该项,并从文件名开始处提取文件字符;
    WebEnd="" --“WEB模式下载”提取文件内容的结束标志,提取内容不包含该标志。如果该标志为空,提取到原文件的尾部;
    cEnd="" --“文本模式下载”提取文件内容的结束标志,提取内容不包含该标志。如果该标志为空,提取到原文件的尾部;
    key="新闻类\新闻要闻" --存盘路径
    list="4" --列表属性,列表属性是频道可下载的重要标志,列表属性为空或错误均不能正常提取信息;当列表属性为“0”时,需要手工设置相应过滤代码项;
    ur1="" --前置网址附加网址,有时“文件名、网址下载”命令仅能下载文件网址的后部分,这时就应该增加前置网址;正确网址为=前置网址+“文件名、网址下载”命令得到的网址。例如:ur1="http://www.9iv.com/down/" ;
    list="0" --列表属性为“0”时必须设置项
    type="1" --列表属性为“0”时必须设置项,表示文件名、网址的排列顺序。type="0" <link> type="1" <link> <title> ; <br>    cfind='{%[<a href=%".-%">.-</a>%]<a href=%"(.-)%">(.-)</a><font}' --列表属性为“0”时必须设置项,cfind用{}括起来,cfind是一个模式匹配表达式; <br>    跳跃基址="" --网址跳跃后的前面不变部分,例如:跳跃基址="http://www2.skycn.com/soft/",正确网址为=跳跃基址+“文件名、网址下载”命令得到的网址右截取到斜线前的部分; <br>    --文本替换语句开始 <br>    ... <br>    --文本替换语句结束 <br>    --name:网址真实文件名变量,可在开始和结束之间使用 <br>    在开始和结束之间的设置为文本过滤代码,该代码设置和cfind设置将在高级技巧中或信息世界论坛中介绍 ; <br>    对于正式用户,软件开发者将提供一定数量设置完整过滤代码的频道网址,用户有特殊设置要求的,请联系信息世界开发人员。 <br>    5、频道表的保存 <br>    频道表和文件表都是临时表,如果未保存表信息关闭程序,当前两表的信息都将丢失,平时,频道表是经过查询得到的信息,可通过再查询获得,没有必要保存。但是,当导入新的频道表或修改了频道表的设置需要保存频道信息时,单击"退出"命令后,频道表信息仍然在查询结果库中,这时如果录入库对应“WDBM1”库或“WDBM3”库可单击“S到录入”,然后“进库”保存频道信息; <br>    6、文件表的保存 <br>    如果要保存当前的文件表信息,请先选中“退出保存数据”选项,然后单击"退出"命令,则当前文件表信息转存到录入库中,再单击“进库”可将文件表信息保存到“WDBM2"表中。 <br>    7、“WEB参数设置”页面 <br>    “WEB参数设置”页面主要服务于“Rss聚合文件信息下载”页面。该页面中的“...页面下载线程数”下面的数字微调用于设置文件下载时的下载线程,默认线程为10,线程越大,下载速度越快,但下载线程受到当前计算机资源的限制,如果设置过大,可能会产生资源耗尽或CPU被100%占用的可能(如果要终止下载进程,可单击屏幕上方工具条上的红色停止按钮或尝试打开任务管理器,从进程中选中fairy_ape.exe,结束其线程并在下一次设置中减小数字微调中的下载线程)。请用户自行测定可用的最大线程数; <br>    “设置WEB延时...”只影响“WEB模式下载”命令,延时越小,下载速度越快,但过小的延时可能会丢失数据。 <br>    “从选定目录装入数据”用于将预先下载的文件信息装入“Rss聚合文件信息下载”页面中右边表格的文件表中; <br>    “导入OPML频道文件”用于将用户的OPML频道文件装入“Rss聚合文件信息下载”页面中左边表格的频道表中,以便从该频道表下载文件信息; <br>    选中“文本方式覆盖下载”选项时将仅仅影响“Rss聚合文件信息下载”页面中“文本方式下载”命令。而“WEB模式下载”均是覆盖下载方式; <br>    “设置单击网址ID时单个文件下载模式”选项是用于浏览单个未经过滤的下载文件,以便查找文件过滤规律; <br>    “文本模式下载”选项代表两种不同的下载模式,选中时的“WEB模式下载”与“文本模式下载”分别与“Rss聚合文件信息下载”页面中的“WEB模式下载”、“文本模式下载”一一对应。一般说来,“文本模式下载”速度较快,但文本过滤设置较复杂,而“WEB模式下载”的文本过滤相对简单一些。 <br>    8、打开频道网址和文件网址的操作; <br>    先沟选“启动浏览器”选项,然后单击频道表中“频道网址”对应的“Memo”或单击文件表中“文件网址”对应的项,即可打开对应的网页。如果要关闭已经打开的网页,可去掉“启动浏览器”选项中的沟选。该浏览方法适用于表中保存网址的所有信息世界程序。 <br>    9、频道名称最好不要相同 <br>    由于下载信息文件均使用多线程,在同一次下载中,用频道名称创建目录,多个线程同时调用相同目录中的文件传送数据,可能会丢失数据。所以,在输入频道名称时,最好有所区别。如果确实要下载具有相同频道名称的多个频道,只有使用1线程才能不丢失数据。 <br>    <br> <br></p></td></tr></table></td> </tr> <tr> <td width="100%" bgcolor="#FFFFFD" height="20"><table border="0" cellpadding="0" cellspacing="0" width="100%"> <tr> <td width="100%"><p align="right" class="9"><a href=4.14、邮件信息系统使用手册.htm>上一页</a> <a href="..\index.html">目录</a> <a href=4.2、帐号密码信息系统使用手册.htm>下一页</a> </td> </tr> </table> </td> </tr> </table> </td> </tr> </table> </center></div> <p align=center><font size=2>Made by <a href=http://www.xxsj.com target=_blank>信息世界</a></font></p> </body> </html>