Reddit帖子归类为属于不同社区。数据集包含232965个帖子,平均度为492。使用现成的300维GloVe Common Crawl单词向量;对于每个帖子,使用特征包含:(1) 帖子标题的平均嵌入 (2) 帖子所有评论的平均嵌入 (3) 帖子的分数 (4)帖子的评论数量。 - 飞桨AI Studio
timestamp 时间戳 数据来源 帖子来自Reddit WallStreetBets子网站,使用praw从reddit.com/r/wallstreet下载(Python Reddit API包装器)。 数据集的用途 进行情绪分析 确定讨论主题 跟踪趋势(如GME、AMP、NOK等关键词的出现以及数据中实际的其他趋势) 数据文件 下载数据集请登录ModelCube-一站式人工智能科研平台 ...
1.RedditNews.csv 字段名称字段说明 Date 日期 News 新闻内容 2.upload_DJIA_table.csv 字段名称字段说明 Date 日期 Open 开盘价 High 最高价 Low 最低价 Close 收盘价 Volume 期数 Adj Close 调整收盘价 3.Combined_News_DJIA.csv 该文件中提供了包含27列的组合数据集。第一列是“日期”,第二列是“标签...
140 万张图片“这是来自 Danbooru 2021 数据集的安全工作 (SFW) 过滤子集的 143 万张图片的 571 万个字幕。每张图片有 4 个字幕:1 个来自 CogVLM,1 个来自 llava-v1.6-34b,1 个 llava-v1.6-34b 清理,1 个 llava-v1.6-34b 缩短。” sfw 动漫数据集,每张图片有 4 个不同的字幕。链接:https://h...
去年,谷歌发布了 GoEmotions 数据集,该数据集包含 58K 人工标注的 Reddit 评论,其中涉及 27 种情绪。但一位名叫 Edwin Chen 的机器学习工程师却在使用该数据集的时候,偶然发现了一些令人哭笑不得的错误。他们本来尝试自己在 GoEmotions 数据集上训练模型,注意到似乎存在一些深层的质量问题。于是他们随机抽取了 ...
1. Cryptocurrency Reddit 评论数据集(Cryptocurrency Reddit Comments Dataset) —— 此数据集包含来自 r/cryptocurrency 子reddit 的评论。这些数据包括2017年11月至2018年3月共5个月发布的评论。2. Reddit 特朗普评论(Donald Trump Comments on Reddit) —— 一个简单的数据集,包含了来自 Reddit 的数千条提到...
reddit向量数据集,用于训练 sence2vec模型Sence2vec word embeddings model works better than word2vec , since it utilises contextual information from words.This re词袋 自然语言处理 公开数据集
可以确定的是,人工标注员完全没懂 Reddit 网友的梗。 去年,谷歌发布了 GoEmotions 数据集,该数据集包含 58K 人工标注的 Reddit 评论,其中涉及 27 种情绪。 但一位名叫 Edwin Chen 的机器学习工程师却在使用该数据集的时候,偶然发现了一些令人哭笑不得的错误。
去年,谷歌发布了 GoEmotions 数据集,该数据集包含 58K 人工标注的 Reddit 评论,其中涉及 27 种情绪。 但一位名叫 Edwin Chen 的机器学习工程师却在使用该数据集的时候,偶然发现了一些令人哭笑不得的错误。 他们本来尝试自己在 GoEmotions 数...
Reddit用户交互记录【Kaggle竞赛】数据集提供了一个研究平台,让我们深入探索社交媒体用户行为,特别是Reddit用户在平台上的互动模式。Reddit是全球知名的社交新闻站点,用户可以在这里分享链接、讨论话题并投票决定内容的热度。这个数据集特别适合对社交网络分析、用户行为建模以及文本挖掘感兴趣的分析人员。描述中提到,数据集包...