博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
GitHub 热榜第一:最全中华古诗词数据库,收录30多万诗词
阅读量:4093 次
发布时间:2019-05-25

本文共 868 字,大约阅读时间需要 2 分钟。

公众号关注 “GitHubDaily”

设为 “星标”,每天带你逛 GitHub!

转自量子位,作者乾明

收录 5.5 万首唐诗,超过 28 万首宋词,还囊括了诗经、论语、蒙学等……

这个名为 “chinese-poetry”、号称 “最全中文诗歌古典文集数据库” 的项目,今日登顶 GitHub 热榜第一。

截止发稿,这一项目已获得近 2.5 万标星,Fork 超过 4600,受欢迎度可见一斑。

项目发起者名为 Jackey,在 Teambition 从事运维自动化工作。他解释了为什么要做这个仓库:

从某种意义上来说,这些庞大的文集离我们是有一定距离的。而电子版方便拷贝,所以此开源数据库诞生了。此数据库通过 JSON 格式分发,可以让你很方便的开始你的项目。

10 大数据集

整个项目最核心的内容,就是数据集了。

目前,仓库中一共有 10 个数据集,分别是:全唐诗、全宋诗、全宋词、五代・花间集、五代・南唐二主词、论语、诗经、幽梦影、四书五经、蒙学。

这些数据,都来自互联网。如何采集的?项目发起者也分享了全宋词爬取过程及数据分析。

为什么没有古诗?他也给出了解释,古诗采集没有记录过程,因为古诗数据庞大,目标网站有限制,采集过程经常中断超过了一个星期。

围绕着数据库,他也进行了一个初步的词频分析:

但这些数据集的应用,远远不止于此。

8 大案例展示

在项目中,作者也放上了使用数据集的应用案例。

有基于浏览器的诗词网站,有安卓版的应用 “离线全唐诗”,有简体唐诗生成 (char-RNN),也诗词桌面和相关小程序等等。

而且这些项目,也大都在 GitHub 上开源了。

如果你有兴趣,可以收好传送门:

https://github.com/chinese-poetry/chinese-poetry

推荐阅读:Python 趣味打怪:147 段简单代码助你从入门到大师大幅提高开发效率的 9 款工具动画: 一个浏览器是如何工作的?表弟的数学题,我竟然用了 Python 才解出来这款开源的 Markdown 编辑器,我爱了!

转载地址:http://umpii.baihongyu.com/

你可能感兴趣的文章
触目惊心:比特币到底消耗了多少能源?
查看>>
面试官:简历上敢写技术精通?那我就不客气了!
查看>>
如何判断一家互联网公司要倒闭了?
查看>>
想快速上手机器学习?来看下这个 GitHub 项目!
查看>>
GitHub 标星 3.6k,一本开源的深度学习中文教程!
查看>>
9 款你不能错过的 JSON 工具
查看>>
就在昨天,全球 42 亿 IPv4 地址宣告耗尽!
查看>>
200页!分享珍藏很久的Python学习知识手册(附链接)
查看>>
程序员之神
查看>>
4 岁小女孩给 Linux 内核贡献提交
查看>>
推荐几个私藏很久的技术公众号给大家
查看>>
20 个 2020 年软件开发趋势预测
查看>>
王垠受邀面试阿里 P9,被 P10 面跪后网上怒发文,惨打 325 的 P10 赵海平回应了!...
查看>>
Python 趣味打怪:147 段简单代码助你从入门到大师
查看>>
卧槽!小姐姐用动画图解 Git 命令,这也太秀了吧?!
查看>>
厉害了!Python 编辑器界的神器 Jupyter ,推出官方可视化 Debug 工具!
查看>>
卧槽!Java 虚拟机竟然还有这些性能调优技巧...
查看>>
听说玩这些游戏能提升编程能力?
查看>>
7 年工作经验,面试官竟然还让我写算法题???
查看>>
被 Zoom 逼疯的歪果仁,造出了视频会议机器人,同事已笑疯丨开源
查看>>