公司从2010年开始存储海内外30多万家网站全网数据,目前公司数据仓库中拥有几万亿条历史数据,而且每天还在以6亿条的速度增加,公司主要采集的数据平台有:新闻、微博、头条、微信公众号、小红书、抖音、快手、微信视频号、论坛、电视频道、广播等;公司有给客户开通舆情监测API接口,客户可以通过API接口调用我们公司数据仓库中的历史数据、实时舆情监测到的网络公开数据。
我们的数据主要来源有独有爬虫算法采集,还有跟网站方合作,网站方授权提供API接口给我们;我们的数据可以免费给客户测试验证。主要流程:
1、提供数据需求,客服核对数据是否符满足
2、数据满足需求,安排技术拉微信沟通群,提供API接口数据测试支持(历史数据+实时数据测试)
我们数据的主要字段有:
标题
内容
作者名称
作者认证
发表类型
网站名称
网站域名
媒体来源
频道
文章链接
倾向性
专题倾向性
发表时间
点赞数
评论数
转发数
阅读数
在看数
收藏数
弹幕数
投币数
分享数
专题命中词
签到地点
是否已删除
发表设备
语言代码
原文标题
原文内容
原文作者名称
原文作者ID
原文作者认证
原文发表类型
原文链接
原文发表时间
原文点赞次数
原文评论次数
原文转发次数
原文访问次数
是否包含图片
短链链接
发表楼层
信源属地(国家)
转载来源
搜索命中词
更新时间
翻译标题
翻译内容
作者描述
音乐ID
作者性别
作者等级
作者地域(标准化)
作者地域(原始)
作者国家
作者省份
作者城市
作者区县
作者注册时间
作者粉丝数
作者关注数
作者博文数
图片识别
相似文章个数
用户IP归属地
作者ID
短视频账号ID
发布者ID
图片链接
一、查询类接口
实时搜索接口Xsearch:通过定向关键词、url、作者名称等信息作为条件,在整个Es库中发送请求,返回数据。
订阅专题搜索接口Dsearch:第一步创建专题,定向监测关注的信息(关键词、域名、账号等),抓取到符合监测的数据会实时流入到专题内,通过不同的专题id去搜索专题内的数据。
短视频抽帧搜索接口Vsearch:与Xsearch接口类似,但此接口增加了两个特殊字段,图片识别字段ocr及短视频抽帧字段snapshot_urls
短视频抽帧订阅专题搜索Dvsearch:与Dsearch接口类似,搜索的专题数据会带有图片识别字段ocr及短视频抽帧字段snapshot_urls
裁判文书搜索接口cpwsXsearch:Xsearch接口中单独检索的一种方式,主要针对裁判文书的搜索。
二、专题类接口
创建专题接口:通过接口创建订阅的专题,创建成功后会返回专题的id:data.entity
修改、查看、删除专题接口:通过专题id,对专题进行修改、查看、删除的操作
全字段订阅接口(kafka):订阅数据,kafka实时推送(类似资讯类接口)
区别为:全字段推送含评论数据,资讯无评论;全字段有用户数据-账号数据,资讯没有用户字段。