金山办公亮相2023中国图象图形大会 破解“扫描件PDF”编辑难题
分享了金山办公在文档识别与技术领域的最新成果。金山办公内部研发的通用图像文档识别与理解引擎系统朱墨,已能够解析弯曲变形、要素丰富、排版复杂、污染等挑战下的图像文档,并可将版式和内容信息解析成结构化的文档数据,可让用户在编辑扫描件PDF时获得几乎与编辑Word文档一样的体验。会经过前处理、版面分析、OCR识别、文字属性识别、表格还原等多个环节,最后还会对表格等其他对象进行结构化识别。
1342 字
2 张
0 个
无风险
消极
二段式
0 个
0 处
4 家
2023-05-19 11:17:27
检测维度 | 状态 | 置信度 | 违禁词 |
---|---|---|---|
暴恐违禁 不合国家法规的暴恐、赌博、毒品等违法内容 | 通过 |
0.691 | 无 |
文本色情 不合网络规范的色情内容 | 通过 |
0.411 | 无 |
政治敏感 涉政敏感、反动等不良信息 | 通过 |
0.257 | 无 |
营销推广 含有推广或售卖意向的内容 | 通过 |
0.411 | 无 |
低俗辱骂 低俗辱骂的垃圾文本内容 | 通过 |
0.036 | 无 |
低质灌水 无实意字符或乱码等特征的灌水类文本 | 通过 |
0.022 | 无 |
软文标题:金山办公亮相2023中国图象图形大会 破解“扫描件PDF”编辑难题(该标题为二段式标题)
内容字数:1342 字的软文是否过于冗长?精简内容(1000字左右)可节约读者时间,降低弃读概率。
包含图片:文章图片不多不少,真好。
情感描述:文章情感描述负向消极 ,再斟酌一下?
内容纠错:无
软文行业:
内容标签:
内容核心词:
软文摘要:null
分词提取:
词性 | 统计 | 词性 | 统计 | 词性 | 统计 | 词性 | 统计 |
---|---|---|---|---|---|---|---|
普通名词 | 0 | 方位名词 | 0 | 处所名词 | 0 | 时间名词 | 0 |
人名 | 0 | 地名 | 0 | 机构团体名 | 0 | 作品名 | 0 |
其他专名 | 0 | 普通动词 | 0 | 动副词 | 0 | 名动词 | 0 |
形容词 | 0 | 副形词 | 0 | 名形词 | 0 | 副词 | 0 |
数量词 | 0 | 量词 | 0 | 代词 | 0 | 介词 | 0 |
连词 | 0 | 助词 | 0 | 其他虚词 | 0 | 标点符号 | 0 |
原文句数:16,阅读时间 ≈ 2分41秒,朗读时间 ≈ 6分42秒
# | 媒体名称 | 发布网址 | 查看 |
---|---|---|---|
1 | 新浪网新闻 | https://news.sinacom.cn/sx/2023-05-15/detail-imytwaau3735799.shtml | 媒体详情 |
2 | 新浪网体育-客户端(自媒体) | https://news.sinacn/sx/2023-05-15/detail-imytwaau3735799.d.html | 媒体详情 |
3 | 新浪网新闻 | https://news.sinacom.cn/shangxunfushen/2023-05-15/detail-imytwaau3735799.shtml | 媒体详情 |
4 | 搜狐网娱乐 | https://m.sohucom/a/675764822_120355453 | 媒体详情 |