timestamp 时间戳 数据来源 帖子来自Reddit WallStreetBets子网站,使用praw从reddit.com/r/wallstreet下载(Python Reddit API包装器)。 数据集的用途 进行情绪分析 确定讨论主题 跟踪趋势(如GME、AMP、NOK等关键词的出现以及数据中实际的其他趋势) 数据文件 下载数据集请登录ModelCube-一站式人工智能科研平台 ...
Reddit帖子归类为属于不同社区。数据集包含232965个帖子,平均度为492。使用现成的300维GloVe Common Crawl单词向量;对于每个帖子,使用特征包含:(1) 帖子标题的平均嵌入 (2) 帖子所有评论的平均嵌入 (3) 帖子的分数 (4)帖子的评论数量。 - 飞桨AI Studio
去年,谷歌发布了 GoEmotions 数据集,该数据集包含 58K 人工标注的 Reddit 评论,其中涉及 27 种情绪。但一位名叫 Edwin Chen 的机器学习工程师却在使用该数据集的时候,偶然发现了一些令人哭笑不得的错误。他们本来尝试自己在 GoEmotions 数据集上训练模型,注意到似乎存在一些深层的质量问题。于是他们随机抽取了 ...
7. Reddit 用户名(Reddit Usernames)—— 一个简单的数据集,是一个包含2600万 Reddit 用户名的 CSV 文件。此外,数据集包括每个用户所做的评论的总数。8. SARC:自标注Reddit 讽刺语料库(Self-Annotated Reddit Corpus for Sarcasm) —— 此数据集包含从 Reddit 抓取的超过130万条讽刺评论和帖子。数据集创建...
1.RedditNews.csv 2.upload_DJIA_table.csv 3.Combined_News_DJIA.csv 该文件中提供了包含27列的组合数据集。第一列是“日期”,第二列是“标签”,之后的列是从“Top1”到“Top25”的新闻头条。 数据引用 Sun, J. (2016, August). Daily News for Stock Market Prediction, Version 1. ...
原文链接:https://www.reddit.com/r/Open_Diffusion/comments/1dnnovb/dataset_of_datasets_ie_i_will_not_spam_the_group/ 数据集地址: 完整的 Wikiart。215k 张图片。包含标题,但最好将它们作为“助手”,但仍然让我们选择的 VLLM 进行字幕制作。链接:https ://huggingface.co/datasets/matrixglitch/wikiart...
可以确定的是,人工标注员完全没懂 Reddit 网友的梗。 去年,谷歌发布了 GoEmotions 数据集,该数据集包含 58K 人工标注的 Reddit 评论,其中涉及 27 种情绪。 但一位名叫 Edwin Chen 的机器学习工程师却在使用该数据集的时候,偶然发现了一些令人哭笑不得的错误。
去年,谷歌发布了 GoEmotions 数据集,该数据集包含 58K 人工标注的 Reddit 评论,其中涉及 27 种情绪。 但一位名叫 Edwin Chen 的机器学习工程师却在使用该数据集的时候,偶然发现了一些令人哭笑不得的错误。 他们本来尝试自己在 GoEmotions 数...
可以确定的是,人工标注员完全没懂 Reddit 网友的梗。 去年,谷歌发布了 GoEmotions 数据集,该数据集包含 58K 人工标注的 Reddit 评论,其中涉及 27 种情绪。 但一位名叫 Edwin Chen 的机器学习工程师却在使用该数据集的时候,偶然发现了一些令人哭笑不得的错误。
BigQuery是Google推出的一项Web服务,该服务让开发者可以使用Google的架构来运行SQL语句对超级大的数据库...