Reddit帖子归类为属于不同社区。数据集包含232965个帖子,平均度为492。使用现成的300维GloVe Common Crawl单词向量;对于每个帖子,使用特征包含:(1) 帖子标题的平均嵌入 (2) 帖子所有评论的平均嵌入 (3) 帖子的分数 (4)帖子的评论数量。 - 飞桨AI Studio
帖子来自Reddit WallStreetBets子网站,使用praw从https://www.reddit.com/r/wallstreetbets/下载(Python Reddit API包装器)。 数据集的用途 进行情绪分析 确定讨论主题 跟踪趋势(如GME、AMP、NOK等关键词的出现以及数据中实际的其他趋势) 数据文件
1.RedditNews.csv 2.upload_DJIA_table.csv 3.Combined_News_DJIA.csv 该文件中提供了包含27列的组合数据集。第一列是“日期”,第二列是“标签”,之后的列是从“Top1”到“Top25”的新闻头条。 数据引用 Sun, J. (2016, August). Daily News for Stock Market Prediction, Version 1. 数据文件...
原文链接:https://www.reddit.com/r/Open_Diffusion/comments/1dnnovb/dataset_of_datasets_ie_i_will_not_spam_the_group/ 数据集地址: 完整的 Wikiart。215k 张图片。包含标题,但最好将它们作为“助手”,但仍然让我们选择的 VLLM 进行字幕制作。链接:https ://huggingface.co/datasets/matrixglitch/wikiart ...
1. Cryptocurrency Reddit 评论数据集(Cryptocurrency Reddit Comments Dataset) —— 此数据集包含来自 r/cryptocurrency 子reddit 的评论。这些数据包括2017年11月至2018年3月共5个月发布的评论。2. Reddit 特朗普评论(Donald Trump Comments on Reddit) —— 一个简单的数据集,包含了来自 Reddit 的数千条提到...
去年,谷歌发布了 GoEmotions 数据集,该数据集包含 58K 人工标注的 Reddit 评论,其中涉及 27 种情绪。但一位名叫 Edwin Chen 的机器学习工程师却在使用该数据集的时候,偶然发现了一些令人哭笑不得的错误。他们本来尝试自己在 GoEmotions 数据集上训练模型,注意到似乎存在一些深层的质量问题。于是他们随机抽取了 ...
去年,谷歌发布了 GoEmotions 数据集,该数据集包含 58K 人工标注的 Reddit 评论,其中涉及 27 种情绪。 但一位名叫 Edwin Chen 的机器学习工程师却在使用该数据集的时候,偶然发现了一些令人哭笑不得的错误。 他们本来尝试自己在 GoEmotions 数...
可以确定的是,人工标注员完全没懂 Reddit 网友的梗。 去年,谷歌发布了 GoEmotions 数据集,该数据集包含 58K 人工标注的 Reddit 评论,其中涉及 27 种情绪。 但一位名叫 Edwin Chen 的机器学习工程师却在使用该数据集的时候,偶然发现了一些令人哭笑不得的错误。
Reddit产品数据集 文件列表(压缩包大小 16.00M) 免费 概述 这是包含发布亚马逊产品的每个subreddit的前100种产品(按提及数排序)的数据集。数据是从Google Bigquery的Reddit Comment数据库中提取的。 文件结构为: reddits//.csv 找产品/ r / Watches的示例:...
数据 这些数据包括101.3万个自发帖人,这些帖子来自1013个子数据(每类1000个示例)。对于每个帖子,我们给子雷迪特,标题和内容的自邮。 我们还提供了约 3000 个子数据的手动注释,这些子数据集用于创建此数据集,subreddit_info.csv,这是选择哪些子数据进入此数据集的主要标准。我们包括每个子编辑的顶级类别和子类别,如...