- 注册时间
- 2017-1-4
- 在线时间
- 0 小时
- 听众
- 1
- 收听
- 0
- 魔扣币
- 254
- 贡献
- 254
- 威望
- 0
- 积分
- 510
该用户从未签到
高级魔扣
- 魔扣币
- 254
- 贡献
- 254
- 威望
- 0
|
魔扣币兑换比例:【 50以下 : ¥1 = 10 魔扣币 】丨【 50 - 100 :¥1 = 20 魔扣币】丨【 100以上:¥1 = 30 魔扣币 】
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
x
使用Python 的 Scrapy 框架开发的网络爬虫,用来爬取磁力链接和种子;
使用PHP CI 框架开发的简易网站;
搜索引擎目前直接使用的 MySQL,将来可以考虑使用 sphinx;
中文分词。
用PHP 写了一个简陋版的基于逆向最大匹配算法的小类,词库呢,哈哈,直接使用了 Chrome 的分词表 ,分词表可以在这个地址下载: http://www.mdbg.net/chindict/chindict.php?page=cedict。
新词发现机制
基于搜索关键词的新词发现机制。
目前词库方面还有一个很大的问题,比如最新的电影无法分词,例如 星际穿越 会被分词为“星际”和“穿越”,因此“被偷走的那五年, 穿越 火线,极速蜗牛,了不起的盖茨比,摩登年代, 星际 迷航,乔布斯传。”也出现在了搜索结果中。
当然这也不算事大问题,但是 霍比特人 却被分词为了“霍”、“比特”、“人”了,好在搜索结果里面没有啥东西乱入。这些属于过度分词,通过增加词库内容可以解决,因此准备些一个豆瓣爬虫,将豆瓣的所有电影都加入词库,用来辅助分词。 |
|