到了 GPT-2,参数数量增至 15 亿,数据规模扩大了 10 倍,并且这些数据还经过了人工过滤,进一步提升了数据质量。到了 GPT-3,算力提升了近百倍,数据量也大幅增加,从 45TB 的原始数据中过滤出了 570GB 的数据。因此,尽管参数庞大和算力强大是 GPT 模型的显著特点,但背后的核心在于海量的数据输入。没有足够的数据...
复旦大学的研究团队在大模型驱动的数据治理中取得了一些进展,如属性值规范化、地理数据清洗、图纸合规性检查和跨模态实体链接等。大模型的应用正在逐步提升数据治理的效率和准确性,但未来仍需应对更多科学问题和挑战,包括模型安全、持续对齐政策和提升决策规划能力。总之,大模型与数据治理技术相互促进,共同...