魔扣论坛

魔扣源码论坛业务
查看: 2968|回复: 6

基于DHT 网络的磁力链接和BT种子的搜索引擎架构

[复制链接]

该用户从未签到

2

主题

254

回帖

510

积分

高级魔扣

Rank: 4

魔扣币
254
贡献
254
威望
0
发表于 2017-1-14 15:46:19 | 显示全部楼层 |阅读模式
魔扣币兑换比例:【 50以下 : ¥1 = 10 魔扣币 】丨【 50 - 100 :¥1 = 20 魔扣币】丨【 100以上:¥1 = 30 魔扣币 】

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
使用Python 的 Scrapy 框架开发的网络爬虫,用来爬取磁力链接和种子;
使用PHP CI 框架开发的简易网站;
搜索引擎目前直接使用的 MySQL,将来可以考虑使用 sphinx;
中文分词。
用PHP 写了一个简陋版的基于逆向最大匹配算法的小类,词库呢,哈哈,直接使用了 Chrome 的分词表 ,分词表可以在这个地址下载: http://www.mdbg.net/chindict/chindict.php?page=cedict。
新词发现机制
基于搜索关键词的新词发现机制。
目前词库方面还有一个很大的问题,比如最新的电影无法分词,例如 星际穿越 会被分词为“星际”和“穿越”,因此“被偷走的那五年, 穿越 火线,极速蜗牛,了不起的盖茨比,摩登年代, 星际 迷航,乔布斯传。”也出现在了搜索结果中。
当然这也不算事大问题,但是 霍比特人 却被分词为了“霍”、“比特”、“人”了,好在搜索结果里面没有啥东西乱入。这些属于过度分词,通过增加词库内容可以解决,因此准备些一个豆瓣爬虫,将豆瓣的所有电影都加入词库,用来辅助分词。

该用户从未签到

4

主题

239

回帖

482

积分

中级魔扣

Rank: 3Rank: 3

魔扣币
239
贡献
239
威望
0
发表于 2017-3-10 19:08:06 | 显示全部楼层
前排支持下了哦~

该用户从未签到

1

主题

241

回帖

484

积分

中级魔扣

Rank: 3Rank: 3

魔扣币
242
贡献
242
威望
0
发表于 2017-5-11 07:47:39 来自手机 | 显示全部楼层
有空一起交流一下

该用户从未签到

0

主题

240

回帖

480

积分

中级魔扣

Rank: 3Rank: 3

魔扣币
240
贡献
240
威望
0
发表于 2017-9-18 17:57:38 | 显示全部楼层
我只是路过,不发表意见

该用户从未签到

2

主题

268

回帖

540

积分

高级魔扣

Rank: 4

魔扣币
270
贡献
270
威望
0
发表于 2018-2-21 09:05:37 | 显示全部楼层
LZ敢整点更有创意的不?兄弟们等着围观捏~

该用户从未签到

2

主题

228

回帖

459

积分

中级魔扣

Rank: 3Rank: 3

魔扣币
228
贡献
228
威望
1
发表于 2018-8-31 23:31:00 | 显示全部楼层
我天天踩你不后悔,踩的你空间人声沸。时时访你不疲惫,访的你博客人陶醉。分分看你不觉累,看的你博友排成队。秒秒愿你都秀美,魔扣源码论坛祝福你年轻又妩媚。

该用户从未签到

1

主题

255

回帖

511

积分

高级魔扣

Rank: 4

魔扣币
255
贡献
255
威望
0
发表于 2019-2-17 14:43:30 | 显示全部楼层
前排,哇咔咔
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

  • 联系我们
  • 新浪微博 :
  • 在线客服 :魔扣科技 
  • 源码QQ群 :魔扣源码论坛官方总群
  • 联系邮箱 :charlin#morko.net
  • 微信扫一扫
快速回复 返回顶部 返回列表