问题
我已经知道抖音会因为我们的内容里面的违禁词和敏感词而限流或者处罚,但是不知道系统是如何判断违规的,想知道为什么,能不能规避掉?
答案
抖音有6亿日活,任何信息都可能一夜传遍全网,传统的违禁词判断几乎无法胜任,因为词库只能做到精准匹配,无法处理对原词的演绎。
假设拜登为敏感词,那么可以演绎出来拜振华、稀宗、骆驼翔子、屎王,而这些词显然无法背景词库囊括。
还有一些敏感内容是包含多个词组的事件。
假设安倍演讲时遇刺身亡是敏感事件,那么就需要安倍遇刺两个词同时出现才能触发系统判罚,这就会存在很大漏洞,比如安倍心眼多同样会让人联想到此事。
那么目前主流算法是如何解决这个事儿呢?
利用正向最大匹配法对文案进行拆分,同时配合贝叶四公式计算单个词涉及敏感内容的期望,就可以得到相应的敏感概率,一旦词组达到阈值,就会触发判罚。
随着深度学习的广泛应用,越来越多的敏感词被收录,机器审查也会越来越严,所以很多看似正常的视频都有被误判的风险。
一句话总结
是一个复杂的算法判断模型,没办法规避。
无水印视频批量解析下载网站:https://alan.llcq.com/
- 微信号
- 微信扫一扫
- 搞钱阿蓝
- 微信扫一扫
评论