solr keyword keyword

公司动态

摘要：solr jvm配置多大比较好 0*00 开头照例扯淡自从各种脱裤门事件开始层出不穷，在下就学乖了，各个地方的密码全都改成不一样的，重要帐号的密码定期更换，生怕被人社出祖宗十八代的我，甚至开始用起了...

发布日期：2020-08-28

solr keyword

solr jvm配置多大比较好

0*00 开头照例扯淡自从各种脱裤门事件开始层出不穷，在下就学乖了，各个地方的密码全都改成不一样的，重要帐号的密码定期更换，生怕被人社出祖宗十八代的我，甚至开始用起了假名字，我给自己起一新网名”兴才”，这个看起来还不错的名字，其实是我们家乡骂人土话，意思是脑残人士…. -_-|||额好吧，反正是假的，不要在意这些细节。

这只是名，至于姓氏么，每个帐号的注册资料那里，照着百家姓上赵钱孙李周吴郑王的依次往下排，什么张兴才、李兴才、王兴才……于是也不知道我这样”兴才”了多久，终于有一天，我接到一个陌生电话：您好，请问是马兴才先生吗？好么，该来的终于还是来了，于是按名索骥，得知某某网站我用了这个名字，然后通过各种途径找，果然，那破站被脱裤子了。

果断Down了那个裤子，然后就一发不可收拾，走上了收藏裤子的不归路，直到有一天，我发现收藏已经非常丰富了，粗略估计得好几十亿条数据，拍脑袋一想，这不能光收藏啊，我也搭个社工库用吧……0*01 介绍社工库怎么搭呢，这种海量数据的东西，并不是简单的用mysql建个库，然后做个php查询select * from sgk where username like "%xxxxx%"这样就能完事的，也不是某些幼稚骚年想的随便找个4g内存，amd双核的破电脑就可以带起来的，上面这样的语句和系统配置，真要用于社工库查询，查一条记录恐怕得半小时。

好在这个问题早就被一种叫做全文搜索引擎的东西解决了，更好的消息是，全文搜索引擎大部分都是开源的，不需要花钱。

目前网上已经搭建好的社工库，大部分是mysql+coreseek+php架构，coreseek基于sphinx，是一款优秀的全文搜索引擎，但缺点是比较轻量级，一旦数据量过数亿，就会有些力不从心，并且搭建集群做分布式性能并不理想，如果要考虑以后数据量越来越大的情况，还是得用其他方案，为此我使用了solr。

Solr的基础是著名的Lucene框架，基于java，通过jdbc接口可以导入各种数据库和各种格式的数据，非常适合开发企业级的海量数据搜索平台，并且提供完善的solr cloud集群功能，更重要的是，solr的数据查询完全基于http，可以通过简单的post参数，返回json,xml,php,python,ruby,csv等多种格式。

以前的solr，本质上是一组servlet，必须放进Tomcat才能运行，从solr5开始，它已经自带了jetty，配置的好，完全可以独立使用，并且应付大量并发请求，具体的架构我们后面会讲到，现在先来进行solr的安装配置。

0*02 安装和配置以下是我整个搭建和测试过程所用的硬件和软件平台，本文所有内容均在此平台上完成：软件配置： solr5.5,mysql5.7,jdk8,Tomcat8 Windows10/Ubuntu14.04 LTS 硬件配置： i7 4770k,16G DDR3,2T西数黑盘2.1 mysql数据库 Mysql数据库的安装和配置我这里不再赘述，只提一点，对于社工库这种查询任务远远多于插入和更新的应用来说，最好还是使用MyISAM引擎。

搭建好数据库后，新建一个库，名为newsgk，然后创建一个表命名为b41sgk，结构如下：id bigint 主键自动增长 username varchar 用户名 email varchar 邮箱 password varchar 密码 salt varchar 密码中的盐或者第二密码 ip varchar ip、住址、电话等其他资料 site varchar 数据库的来源站点接下来就是把收集的各种裤子全部导入这个表了，这里推荐使用navicat，它可以支持各种格式的导入，具体过程相当的枯燥乏味，需要很多的耐心，这里就不再废话了，列位看官自己去搞就是了，目前我初步导入的数据量大约是10亿条。

2.2 Solr的搭建和配置首先下载solr:$ wget 解压缩：$ tar zxvf solr-5.5.0.tgz 安装jdk8:$ sudo add-apt-repository ppa:webupd8team/java$ sudo apt-get update$ sudo apt-get install oracle-java8-installer$ sudo apt-get install oracle-java8-set-default 因为是java跨平台的，Windows下和linux下solr是同一个压缩包，windows下jdk的安装这里不再说明。

进入解压缩后的solr文件夹的bin目录，solr.cmd和solr分别是windows和linux下的启动脚本：因为社工库是海量大数据，而jvm默认只使用512m的内存，这远远不够，所以我们需要修改，打开solr.in.sh文件，找到这一行：SOLR_HEAP=”512m” 依据你的数据量，把它修改成更高，我这里改成4G，改完保存. 在windows下略有不同，需要修改solr.in.cmd文件中的这一行：set SOLR_JAVA_MEM=-Xms512m -Xmx512m 同样把两个512m都修改成4G。

Solr的启动，重启和停止命令分别是：$ ./solr start$ ./solr restart –p 8983$ ./solr stop –all 在linux下还可以通过install_solr_service.sh脚本把solr安装为服务，开机后台自动运行。

Solr安装完成，现在我们需要从mysql导入数据，导入前，我们需要先创建一个core,core是solr的特有概念，每个core是一个查询、数据，、索引等的集合体，你可以把它想象成一个独立数据库，我们创建一个新core：在solr-5.5.0/server/solr子目录下面建立一个新文件夹，命名为solr_mysql，这个是core的名称，在下面创建两个子目录conf和data，把solr-5.5.0/solr-5.5.0/example/example-DIH/solr/db/conf下面的所有文件全部拷贝到我们创建的conf目录中.接下来的配置主要涉及到三个文件， ...

solr jvm配置多大比较好

好在这个问题早就被一种叫做全文搜索引擎的东西解决了，更好的消息是，全文搜索引擎大部分都是开源的，不需要花钱。

0*02 安装和配置以下是我整个搭建和测试过程所用的硬件和软件平台，本文所有内容均在此平台上完成：软件配置： solr5.5,mysql5.7,jdk8,Tomcat8 Windows10/Ubuntu14.04 LTS硬件配置： i7 4770k,16G DDR3,2T西数黑盘2.1 mysql数据库Mysql数据库的安装和配置我这里不再赘述，只提一点，对于社工库这种查询任务远远多于插入和更新的应用来说，最好还是使用MyISAM引擎。

搭建好数据库后，新建一个库，名为newsgk，然后创建一个表命名为b41sgk，结构如下：id bigint 主键自动增长username varchar 用户名email varchar 邮箱password varchar 密码salt varchar 密码中的盐或者第二密码ip varchar ip、住址、电话等其他资料site varchar 数据库的来源站点接下来就是把收集的各种裤子全部导入这个表了，这里推荐使用navicat，它可以支持各种格式的导入，具体过程相当的枯燥乏味，需要很多的耐心，这里就不再废话了，列位看官自己去搞就是了，目前我初步导入的数据量大约是10亿条。

2.2 Solr的搭建和配置首先下载solr:$ wget 解压缩：$ tar zxvf solr-5.5.0.tgz安装jdk8:$ sudo add-apt-repository ppa:webupd8team/java$ sudo apt-get update$ sudo apt-get install oracle-java8-installer$ sudo apt-get install oracle-java8-set-default因为是java跨平台的，Windows下和linux下solr是同一个压缩包，windows下jdk的安装这里不再说明。

进入解压缩后的solr文件夹的bin目录，solr.cmd和solr分别是windows和linux下的启动脚本：因为社工库是海量大数据，而jvm默认只使用512m的内存，这远远不够，所以我们需要修改，打开solr.in.sh文件，找到这一行：SOLR_HEAP=”512m”依据你的数据量，把它修改成更高，我这里改成4G，改完保存. 在windows下略有不同，需要修改solr.in.cmd文件中的这一行：set SOLR_JAVA_MEM=-Xms512m -Xmx512m同样把两个512m都修改成4G。

Solr的启动，重启和停止命令分别是：$ ./solr start$ ./solr restart –p 8983$ ./solr stop –all在linux下还可以通过install_solr_service.sh脚本把solr安装为服务，开机后台自动运行。

上一篇：如何锁定word文档里的公章 word中公章锁定
下一篇：word组织架构图库组织架构图模板word