#!/usr/bin/env python3 # -*- coding: utf-8 -*- import time """ 单线程简单实现 待比对词N个,敏感词为M个,时间复杂度为O(M * N) 时间复杂度呈指数级递增 """ # 待处理词路径 PATH_SOURCE = "/Users/Chao/Desktop/关键词20170308.txt" # 敏感词库 PATH_SENSITIVE = "/Users/Chao/Desktop...
pythonjavarusttext-miningtext-classificationtextpattern-matchingwordtext-analysismatchertext-processingaho-corasickstring-matchingmatching-enginecontent-moderationsensitive-word UpdatedApr 14, 2025 Rust 谛听- 轻量级、可扩展的敏感词识别与数据脱敏组件 sensitivesensitive-data-discoverysensitive-wordsensitive-words ...
sensitive-word基于 DFA 算法实现的高性能敏感词工具。工具使用 java 实现,帮助我们解决常见的问题。 特性 6W+ 词库,且不断优化更新 基于DFA 算法,性能较好 基于fluent-api 实现,使用优雅简洁 支持敏感词的判断、返回、脱敏等常见操作 支持全角半角互换 支持英文大小写互换 快速开始 准备 JDK1.7+ Maven 3.x+ Maven...
推荐项目 换一换 readthedocs.org 8.1k Python mpv-player/mpv 29.6k C oclint/oclint 3.8k C++ XiangShan 6.1k Scala Liubsyy/JarEditor 630 Java 问题反馈· 商务合作·联系我们 用户协议·社区源码·站点地图服务器由提供专业的提供云存储服务 ©2025 HelloGitHub·...
内容概要:本文详细介绍了香蕉成熟度分类的YOLO格式目标检测数据集,涵盖数据集结构、标签格式、数据集划分及其在目标检测中的应用。数据集包含18074张图像,分为训练集、验证集和测试集。标签文件采用YOLO格式,记录了每个目标物体的类别ID、中心坐标和宽高。文中还提供了Python代码示例,展示了如何读取和解析标签文件、进行...
首先,对文本内容进行预处理,利用Sensitive_word_filtering技术构建自动机AC(Aho-Corasick)算法,该算法能高效地搜索和匹配文本中的敏感词,将其从原始文本中移除或替换。接着,对处理后的数据进行特征提取,可以选择词频、TF-IDF等方法,将文本转化为机器可理解的特征向
自定义词库是敏感词检测系统的一个重要组成部分。它允许用户定义自己的敏感词汇,以便在检测到这些词汇时,系统可以采取相应的行动,如屏蔽或删除相关内容。这可以帮助确保只有符合特定政策的内容能够出现在平台上。 即使生效功能意味着即使在没有用户干预的情况下,敏感词检测系统也能够自动执行其操作。这可以通过在服务器端...
敏感词过滤和替换是一种常见的文本处理技术,用于保护文本内容的安全。在处理敏感词时,需要使用一些工具或方法来查找、过滤和替换敏感词。1. 查找敏感词:可以使用正则表达式或关键词匹配的方法来查找文本中的敏感词。例如,可以使用Python的re模块来实现这个功能。2. 过滤
SensitiveWordFilter是一款简易的敏感词处理器,它可以帮助用户识别和处理敏感词汇。以下是关于如何使用SensitiveWordFilter的一些详细信息:1. 输入文本:首先,您需要将您的文本输入到SensitiveWordFilter中。您可以使用任何文本编辑器或在线平台来输入您的
SensitiveWordFilter是一种简易敏感词处理器,可用于检测文本中是否存在敏感词,并对这些词进行不同的处理。它可以支持返回敏感词、高亮敏感词和替换敏感词等操作,以保护用户的隐私和安全。 当SensitiveWordFilter检测到文本中存在敏感词时,它可以返回这些词,从而使用户能够及时发现并处理潜在风险。此外,它还可以将敏感词...