Kaggle 文本多标签分类赛题恶意评论分类top 1%方案和一些思考 jigsaw-toxic-comment-classification-challenge 赛题描述 给定来自维基百科的评论,完成6个类别的多标签分类(每条样本可能属于多个类别),大概就是toxic(恶意),severetoxic(穷凶极恶),obscene(猥琐),threat(恐吓),insult(侮辱),identityhate(种族歧视)其中几个...
这个是关于FE的kernel(受其启发,加入一些统计feature):https://www.kaggle.com/eikedehling/feature-engineering 一般word2vec就仅仅对word,而加上char做deeplearning效果会更好,就像char tf-idf:https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/discussion/52702 15th 通过使用BPEmb和Spell Co...
https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge 赛题描述:给定指定的评论完成6个类别的多标签分类(每条样本可能属于多个类别),大概就是toxic(恶意),severe_toxic(穷凶极恶),obscene(猥琐),threat(恐吓),insult(侮辱),identity_hate(种族歧视)其中几个,评论数据来自于维基百科,数据比较脏,...
13. Jigsaw Toxic Comment Classification Challenge (Jigsaw有害评论分类挑战) 链接:https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge 这场比赛中,你需要建立一个“多头”模型,用来自维基百科的讨论页编辑的评论数据集,检测不同类型的有害评论,如威胁,淫秽,人身攻击和地域攻击。 在这次比赛中...
【Kaggle 恶意评论分类比赛前1%方案】’DeepToxic - top 1% solution to toxic comment classification challenge on Kaggle.' by Justin Yang GitHub: http://t.cn/E5lJiku
我们的任务是处理多标签分类问题; 特别是,任务是将在线评论分为6类: toxic , severve_toxic , obscene , threat , insult , identity_hate 。 竞争指标是每个预测类别的单个AUC的平均值。 方法摘要: 嵌入物: 在比赛数据上本地训练的fastText嵌入 预训练嵌入(具有相似性插补): 型号(显示最佳私人成绩): Capsule...
toxic commentis a comment that is rude, disrespectful or otherwise likely to make someone leave a discussion challenge is: some neutral comments regarding some identity like "gay" would be classified as toxic,eg:"I am a gay woman" .
本次Kaggle比赛是做NLP的情感分类,要求我们将六种不同的情感分类找出来(toxic(恶意),severetoxic(穷凶极恶),obscene(猥琐),threat(恐吓),insult(侮辱),identityhate(种族歧视))而这些label并不是互斥的。这是我第一次参加的Data mining的比赛,误打误撞拿到了铜牌,算是个不错的成绩吧。虽然比赛结束了一段时间了...
第6名:https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/discussion/161095 Google QUEST Q&A 标签:提高对复杂问答内容的自动化理解 比赛时间:2019.11-2020.2 项目背景:人类更擅长解决需要对上下文进行更深入、多维理解的主观问题——计算机没有经过训练才能做得很好……但是……问题可以有多种...
Jigsaw Toxic Comment Classification Challenge-预测维基百科上有害评论的存在和类型 Zillow Prize-建立可以...