示例数据库

来自 PostgreSQL wiki
跳转到导航跳转到搜索

许多数据库系统都随产品提供示例数据库。一篇介绍流行示例数据库,并讨论其他数据库示例的优秀文章是 PostgreSQL 及其他数据库的示例数据库(2006)。

PostgreSQL 自带的一个简单的示例是 Pgbench。它的优点是内置,并支持可扩展的数据生成器。

  • Pagila 是 Sakila 的一个更符合 Postgres 风格的移植版本。
-- Download file "pp-complete.csv", which has all records.
-- If schema changes/field added, consult: https://www.gov.uk/guidance/about-the-price-paid-data

-- Create table:
CREATE TABLE land_registry_price_paid_uk(
  transaction uuid,
  price numeric,
  transfer_date date,
  postcode text,
  property_type char(1),
  newly_built boolean,
  duration char(1),
  paon text,
  saon text,
  street text,
  locality text,
  city text,
  district text,
  county text,
  ppd_category_type char(1),
  record_status char(1));

-- Copy CSV data, with appropriate munging:
COPY land_registry_price_paid_uk FROM '/path/to/pp-complete.csv' with (format csv, encoding 'win1252', header false, null '', quote '"', force_null (postcode, saon, paon, street, locality, city, district));
  • AdventureWorks 2014 for Postgres - 用于在 Microsoft 栈中设置培训课程和示例应用程序使用的 OLTP 数据库的脚本。最终结果是 68 个表,包含 HR、销售、产品和采购数据,组织在 5 个模式中。它代表一家虚构的自行车零部件批发商,拥有近 300 名员工、500 种产品、20000 名客户和 31000 笔销售,每笔销售平均包含 4 个项目。因此它足够大,很有趣,但又不笨拙。除了是一个全面的 OLTP 示例外,它也是展示 ETL 到数据仓库的不错选择。一些视图中的代码展示了有效查询 XML 数据的技术。
  • 小鼠基因组示例数据集。查看 说明。自定义格式的备份文件,压缩后大小为 1.9GB,但还原后的数据库大小为数十 GB。MGI 是实验室小鼠的国际数据库资源,提供整合的遗传、基因组和生物数据,以促进人类健康和疾病的研究。MGI 在生产中使用 PostgreSQL [1],为研究人员提供直接协议访问权限,因此自定义格式的备份文件并非事后才考虑的。显然更新频率很高。
  • 诸如 DBT-2TPC-H 等数据库基准测试可以用作示例。
  • Freebase - 关于地点/人物/事物的各种维基风格数据 - 压缩后大小高达 22GB
  • OMDB - 开放媒体数据库,压缩后大小约为 30MB,加载后大小为 300MB - https://github.com/df7cb/omdb-postgresql
  • Data.gov - 美国联邦政府数据收集,另请参阅 Sunlight Labs
  • DBpedia - 维基百科数据导出项目
  • eoddata - 历史股票市场数据(需要注册 - 许可?)
  • RITA - 航空公司准点运行数据
  • Openstreetmap - Openstreetmap 数据源
  • NCBI - 来自 NCBI 的 ENTREZ 系统的生物注释(每天更新)
  • 航空公司演示数据库 - 航空公司演示数据库提供了包含多个表和有意义内容的数据库模式,可用于学习 SQL 和编写应用程序
  • Stack Exchange 数据备份 - Stack Exchange 网络(Stack Overflow、Server Fault 等)上所有用户贡献内容的匿名备份,根据 cc-by-sa 3.0 许可使用。使用此工具在 PostgresQL 中导入 XML 备份文件: https://github.com/Networks-Learning/stackexchange-dump-to-postgres
  • 现代艺术博物馆 (MoMA) 馆藏数据 - 此研究数据集包含超过 130,000 条记录,代表所有已加入 MoMA 馆藏并已在我们的数据库中编目作品。它包括每件作品的基本元数据,包括标题、艺术家、创作日期、媒介、尺寸和博物馆获得日期。目前,这两个数据集均以 CSV 和 JSON 格式提供,以 UTF-8 编码。