• 网站首页
  • 毕业资讯
  • ASP.NET论文
  • JSP论文
  • ASP论文
  • PHP论文
  • VC++论文
  • 留言反馈
  • 联系我们
  • 当前位置:首页 » PHP » php » 网页元素数字化定位技术
    网页元素数字化定位技术
    网页元素数字化定位技术的原理简而言之就是充分利用网页信息的结构化特性,以坐标的方式定位和抽取数据,网页数据和一般文本数据有很大差异。
    首先信贷平台网页数据是结构化数据,信息的内容被各种HTML标记分割成不同的部分因而网页数据就自己带了确切的坐标信息。
    其次网页数据中存在大量的HTML无关的标记,这些标记对于需要针对性的抓取数据来说,即属于冗余性数据。而往往信贷平台的冗余数据一般占到70%以上,即此定位的应用更显重要。
    再次信贷平台的网页数据是动态数据,数据显示性质和储存性质的变化更为频繁,那么必须用到数字化定位技术进行处理。

    2.1              向量空间模型介绍

     
    向量空间模型(VSM:Vector Space Model)由Salton等人于20世纪70年代提出,并成功地应用于著名的SMART文本检索系统。
    VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量,就可以通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似性度量方式是余弦距离。
    M个无序特征项ti,词根/词/短语/其他每个文档dj可以用特征项向量来表示(a1j,a2j,…,aMj)权重计算,N个训练文档AM*N= (aij) 文档相似度比较1)Cosine计算,余弦计算的好处是,正好是一个介于0到1的数,如果向量一致就是1,如果正交就是0,符合相似度百分比的特性,余弦的计算方法为,向量内积/各个向量的模的乘积.2)内积计算,直接计算内积,计算强度低,但是误差大.
    向量空间模型 (或词组向量模型) 是一个应用于信息过滤,信息撷取,索引 以及评估相关性的代数模型。SMART是首个使用这个模型的信息检索系统。
    文件(语料)被视为索引词(关键词)形成的多次元向量空间,索引词的集合通常为文件中至少出现过一次的词组。搜寻时,输入的检索词也被转换成类似于文件的向量,这个模型假设,文件和搜寻词的相关程度,可以经由比较每个文件(向量)和检索词(向量)的夹角偏差程度而得知。实际上,计算夹角向量之间的余弦比直接计算夹角容易:余弦为零表示检索词向量垂直于文件向量,即没有符合,也就是说该文件不含此检索词。通过上述的向量空间模型,文本数据就转换成了计算机可以处理的结构化数据,两个文档之间的相似性问题转变成了两个向量之间的相似性问题。
    【免责声明:本站所发表的文章,大部分来源于各相关媒体或者网络,内容仅供参阅,与本站立场无关。如有不符合事实,或影响到您利益的文章,请及时告知,本站立即删除。谢谢监督。】
  •