网媒360 网页正文提取
网页内容正文抽取,可提取互联网上99%以上的文章内容,智能识别包含的标题及正文内容。 互联网上近千万个站点,每个站点还有N个不同的文章页面模版,您只需要接入我们的接口,就无需再为编写采集文章内容的正则而苦恼了,可直接提取标题、关键词、摘要、正文内容。
标题:
文章标题
关键词:
文章关键词
摘要:
文章摘要
内容:
文章内容

文章正文提取

文章正文识别

精准识别网页的正文部分,提取的内容将不含有任何广告、导航和其他非正文内容。

内容格式转化

提取的内容可以转化为以下3种形式,默认为html形式:

  • html: 输出正文的 html 格式,保留包括链接、图片和其他媒体在内的所有内容。并会对内容做进一步优化,智能清除正文中的广告、清除html标签中与内容无关的相关属性等。
  • text: 输出 txt 格式,保留正文的文字部分,并且通过智能排版引擎最大程度保留内容的排版,基本能达到和浏览器一致的排版效果。
  • raw html: 输出正文的 html 格式,原样保留原生网页的正文部分,不对内容做任何优化处理。

惰性图片解析

支持惰性图片解析

解决目标网页内容使用图片延时加载技术时,无法获取图片真实路径的问题。通过智能识别正文中的惰性图片,并自动将图片地址解析为真实地址。如果目标网页中图片路径是相对地址,也会自动识别绝对地址以保证图片正常显示。对于部分无法识别的图片会保留全部属性,方便开发者之后自行适配。

关键词及文章摘要提取

文章关键词

根据对采集文章的标题和内容深度分析,输出能够反映文章关键信息的主题、话题、实体等多维度关键词(最多5个核心关键词)。

文章核心摘要

结合传统语义特征和深度学习模型,充分考虑段落分布和篇章结构,准确计算文章语句的重要性,对文章内容进行全面的语义理解与分析。自动抽取采集文章的文本中的关键信息,进而生成指定长度的文章核心摘要。

● 如果您觉得本功能对您的网站运营或公司有帮助,请加在线客服QQ并注明"api",我们会将你拉入群。

● 目前功能处于试运行阶段,只适用于新闻页的信息提取。如果目标网站不是新闻文章页,或者是相册型文章,那么正文抽取结果可能不符合预期。