`
mars914
  • 浏览: 430066 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

新浪微博数据库是如何设计的

 
阅读更多

从4个层面上面来说:

 

1. Database,其实 @mysqlops 回答就是微薄最基本的数据库方式,我在上面做一下扩展。

微薄内容表A:tid uid src_tid content timeline,其中 tid 是微薄的 ID (自增量),src_tid[1]为转发的源 tid 。
 
话题表B:kid title lastupdatime total,total是话题总数,kid 是话题的ID (自增量)
 
话题关联表C:id tid kid,id无意义
 
@用户关联表D:id uid tid,这里的uid是指被提及人的uid,id无意义
 
收听用户关联表E:id uid follow_uid

 

上面的 timeline、lastupdatime 均为“发帖时间”,其中timeline是永久不变的字段, lastupdatime 为“该话题最后发帖时间”,属于冗余字段,等同于 SELECT TOP 1 timeline FROM A INNER JOIN C ON C.tid = A.tid WHERE C.kid = #话题id# ORDER BY A.timeline DESC。

[1] src_tid 为何可以这样设计的原因请阅读 "4.发微薄"

 SQL:

follow 用户列表:SELECT follow_uid FROM E WHERE uid = 102
 
微薄首页微薄列表:SELECT content,(SELECT content FROM A AS a2 WHERE a2.tid = a1.src_tid AND a1.src_tid > 0) AS src_content FROM A AS a1 WHERE uid IN (SELECT follow_uid FROM E WHERE uid = 102) ORDER BY timeline DESC
 
某 #话题# 列表:SELECT A.content,(SELECT content FROM A AS a2 WHERE a2.tid = a1.src_tid AND a1.src_tid > 0) AS src_content FROM A AS a1 INNER JOIN C ON C.tid=A.tid WHERE C.kid=#话题id# ORDE BY A.timeline DESC
 
@我 的列表:SELECT A.content,(SELECT content FROM A AS a2 WHERE a2.tid = a1.src_tid AND a1.src_tid > 0) AS src_content FROM A AS a1 INNER JOIN D ON D.tid=A.tid WHERE D.uid=102 ORDE BY A.timeline DESC
 
转播列表:SELECT content,uid FROM A WHERE src_tid = 源tid ORDE BY A.timeline DESC

2. Cache主要在cache层是最麻烦的,这需要很多主机和很多分布内存,主要以 hashmap 方式存储(memcache)。hashmap 查询时间会比较稳定。

 

cache1,用户最后更新时间 Cache:uid 为 key,timeline[1] 和"帖子列表"[2]为value。
 
cache2,话题最后更新时间 Cache:kid 为 key,lastupdatime[3] 和"帖子列表"[2]为 value。
 
cache3,@用户最后更新时间 Cache:uid为key,timeline[4] 和"帖子列表"[2]为value。
 
cache4,微薄内容表:tid 为 key,timeline[1] 和 content 和 src_tid[5] 为value

 

[1] 这里的 timeline 均为 “微薄内容表A” 中的 timeline
[2] 与该 cache 相关的最后N条微薄内容:array(tid,timeline),如果有可能的话,可以指向 cache4 中的地址。
[3] 这里的 lastupdatime 为 “话题表B” 中的 lastupdatime 
[4] 这里的 timeline 为 SELECT A.timeline FROM D INNER JOIN A ON a.tid = b.tid
[5] src_tid 可以直接指向 cache4 中对于的内存地址

3.前台页面打开后

首页、话题页面第一次打开:

  • 请参见上面的SQL,换算成Cache也不难
  • 页面前台 < script > 记录SQL返回的第一条微薄的时间 t1。(SELECT TOP 1 ... ORDER BY DESC)
  •  

     

    微薄首页Ajax请求:     post你的 t1,和 uid

  • 更新多少条:获取你收听用户的 my_follow_uid_list,循环 my_follow _uid 查询 cache1 ,如果timeline > t1,就根据 my_follow _uid 去读取 cache4 的内容和数量。
  • 提到你的:如果 cache3 的内容 timeline > t1 的,就记录下提到你的数量。

  • 然后更改前台最后微薄的时间t1为最后一条微薄的时间

     

    4. 发微薄

    • submit;
    • 通过正则分析出 #话题# 和 @人 的内容;
    • 提交到对应的数据库:添加“微薄内容”到表A添加 #话题# 关联到 表C,如果该话题不存在,要先在 表B 中 INSERT更新 #话题# lastupdatime添加 @人 到 表D
    • 更新对应的cache。

    转播他人话题,实际上也是先分析你撰写的转播内容中的 #话题# 和 @人
    唯一是多一个 src_tid 提交

     

    这是最基本的数据结构,中间存在很多值得优化的地方。
    楼主特别提出了关注1万人,我记得国内微薄收听有限制吧。如果收听人数过多,查询肯定会慢,不过优化 cache1 就能应对,方法比如拆分、存址都可以。
    Cache 的话一般选择分布式,就是给机器编号,每个电脑存储不同uid块

     

    分享到:
    评论

    相关推荐

      仿新浪微博数据库+存储过程+asp.net 源码

      仿新浪微博 数据库 存储过程 asp.net 源码GridView 这我写的一个项目,现在把源码写出和大家一起分享一下 我的QQ:979170768想结交更多的软件开发好友,和芯片,嵌入式开发好友,一起学习进步

      微博数据库设计

      一套完整的微博数据库设计,仿新浪微博数据库设计,包括Users用户注册信息表,Userinfo 用户详细信息表,Relation 用户关系表,Messages 微博表,Atusers被at用户表,Collections 微博收藏表,Privateletter 私信表...

      新浪微博、腾讯微博:mysql数据库主表设计猜想.doc

      新浪微博、腾讯微博:mysql数据库主表设计猜想

      微博数据库系统设计.pdf

      数据库系统概论实验-微博系统设计 实验名称:数据库系统概论实验-微博系统设计 实验人员: 实验时间: 实验地点: 实验要求: 了解并使用微博: 参考网站: 搜狐微博 t.sohu.com、 新浪微博 weibo.com 或腾讯微博 t....

      实现新浪微博分享功能

      这是一个实现新浪微博分享功能的demo.

      微博客户端含(新浪微博,腾讯微博)

      3.新浪微博SDK和腾讯微博SDK 4.HMAC加密算法 5.SQLite数据库相关操作 6.字符串处理,表情识别 7.JSON解析,XML解析:超链接解析,时间解析等 8.Android UI:样式文件,布局 9.异步加载图片,异步处理数据,多...

      计算机毕业设计:Java实现的仿新浪微博系统(SSM框架,源码+说明),保证可靠运行,附赠计算机答辩PPT模板

      《计算机毕业设计:Java实现的仿新浪微博系统》是一项精心设计的项目资源,旨在帮助本科学生、毕业设计参与者以及Java学习者深入理解和掌握SSM框架的应用。该系统以新浪微博为原型,通过Java语言的编程实现,构建了...

      535303 数据库索引设计与优化

      535303 数据库索引设计与优化 本人是一个IT开发爱好者,从事Android的开发工作。热爱学习新技术。 * 若您也有共同的兴趣爱好,欢迎你加入QQ技术群让我们共同发现新技术。 【GitHub】https://github.com/xiaole0310 ...

      新浪微博爬虫,用python爬取新浪微博数据.zip

      爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问...

      新浪微博爬虫,用python爬取新浪微博数据,并下载微博图片和微博视频.zip

      爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问...

      仿新浪微博的一个java web中级项目

      一、 功能图 2 二、 功能详细设计 3 ...2.1.1.1 功能分析 8 2.1.1.2 时序图 8 2.1.1.3 数据流向图 8 2.1.1.4 页面字段 9 2.2.1 微博管理 8 2.2.1.1 功能分析 8 ...三、数据库设计 3.1 E-R图 3.2 数据字典 3.3 SQL脚本

      基于WebCollector的新浪微博爬虫及相关登录工具,如新浪微博Cookie获取.zip

      爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问...

      分布式新浪微博爬虫.zip

      爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问...

      python毕业设计-新浪微博数据的抓取+词频的统计+源代码+文档说明

      完成的功能如下: 1: 本地数据库的存储 2: 用户数据的个人信息抓取 3: 信息地域性的筛选 4: 用户原创数据的抓取 5: 分页数据的自动化抓取 6: 对用户数据词频的统计

      方便扩展的新浪微博爬虫.zip

      爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问...

      新浪微博爬虫(Scrapy、Redis).zip

      爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问...

      基于selenium的新浪微博关键字搜索结果全自动爬虫.zip

      爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问...

      毕业论文安卓307新浪微博app.doc

      包括摘要,背景意义,论文结构安排,开发技术介绍,需求分析,可行性分析,功能分析,业务流程分析,数据库设计,er图,数据字典,数据流图,详细设计,系统截图,测试,总结,致谢,参考文献。

      新浪微博爬虫 springboot+gradle 定时爬取 .zip

      爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问...

      仿新浪微博下拉刷新继承FrameLayout.zip

      【项目资源】:包含前端、后端、移动开发、操作系统、人工智能、物联网、信息化管理、数据库、硬件开发、大数据、课程资源、音视频、网站开发等各种技术项目的源码。包括STM32、ESP8266、PHP、QT、Linux、iOS、C++、...

    Global site tag (gtag.js) - Google Analytics