java怎么写网络爬虫

1.求用JAVA编写一个网络爬虫的程序

import java.awt.*;

import java.awt.event.*;

import java.io.*;

import java.net.*;

import java.util.*;

import java.util.regex.*;

import javax.swing.*;

import javax.swing.table.*;//一个Web的爬行者(注:爬行在这里的意思与抓取,捕获相同)

public class SearchCrawler extends JFrame{

//最大URL保存值

private static final String[] MAX_URLS={"50","100","500","1000"};

//缓存robot禁止爬行列表

private HashMap disallowListCache=new HashMap();

//搜索GUI控件

private JTextField startTextField;

private JComboBox maxComboBox;

private JCheckBox limitCheckBox;

private JTextField logTextField;

private JTextField searchTextField;

private JCheckBox caseCheckBox;

private JButton searchButton;

//搜索状态GUI控件

private JLabel crawlingLabel2;

private JLabel crawledLabel2;

private JLabel toCrawlLabel2;

private JProgressBar progressBar;

private JLabel matchesLabel2;

//搜索匹配项表格列表

private JTable table;

//标记爬行机器是否正在爬行

private boolean crawling;

//写日志匹配文件的引用

private PrintWriter logFileWriter;

//网络爬行者的构造函数

public SearchCrawler(){

//设置应用程序标题栏

setTitle("搜索爬行者");

//设置窗体大小

setSize(600,600);

//处理窗体关闭事件

addWindowListener(new WindowAdapter(){

public void windowClosing(WindowEvent e){

actionExit();

}

});

//设置文件菜单

JMenuBar menuBar=new JMenuBar();

JMenu fileMenu=new JMenu("文件");

fileMenu.setMnemonic(KeyEvent.VK_F);

JMenuItem fileExitMenuItem=new JMenuItem("退出",KeyEvent.VK_X);

fileExitMenuItem.addActionListener(new ActionListener(){

public void actionPerformed(ActionEvent e){

actionExit();

}

});

fileMenu.add(fileExitMenuItem);

menuBar.add(fileMenu);

setJMenuBar(menuBar);

2.java 网络爬虫怎么实现

网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。

传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。对于垂直搜索来说,聚焦爬虫,即有针对性地爬取特定主题网页的爬虫,更为适合。

以下是一个使用java实现的简单爬虫核心代码: public void crawl() throws Throwable { while (continueCrawling()) { CrawlerUrl url = getNextUrl(); //获取待爬取队列中的下一个URL if (url != null) { printCrawlInfo(); String content = getContent(url); //获取URL的文本信息 //聚焦爬虫只爬取与主题内容相关的网页,这里采用正则匹配简单处理 if (isContentRelevant(content, this.regexpSearchPattern)) { saveContent(url, content); //保存网页至本地 //获取网页内容中的链接,并放入待爬取队列中 Collection urlStrings = extractUrls(content, url); addUrlsToUrlQueue(url, urlStrings); } else { System.out.println(url + " is not relevant ignoring 。"); } //延时防止被对方屏蔽 Thread.sleep(this.delayBetweenUrls); } } closeOutputStream(); }private CrawlerUrl getNextUrl() throws Throwable { CrawlerUrl nextUrl = null; while ((nextUrl == null) && (!urlQueue.isEmpty())) { CrawlerUrl crawlerUrl = this.urlQueue.remove(); //:是否有权限访问该URL,友好的爬虫会根据网站提供的"Robot.txt"中配置的规则进行爬取 //isUrlAlreadyVisited:URL是否访问过,大型的搜索引擎往往采用BloomFilter进行排重,这里简单使用HashMap //isDepthAcceptable:是否达到指定的深度上限。

爬虫一般采取广度优先的方式。一些网站会构建爬虫陷阱(自动生成一些无效链接使爬虫陷入死循环),采用深度限制加以避免 if ((crawlerUrl) && (!isUrlAlreadyVisited(crawlerUrl)) && isDepthAcceptable(crawlerUrl)) { nextUrl = crawlerUrl; // System.out.println("Next url to be visited is " + nextUrl); } } return nextUrl; }private String getContent(CrawlerUrl url) throws Throwable { //HttpClient4.1的调用与之前的方式不同 HttpClient client = new DefaultHttpClient(); HttpGet ");

HttpURLConnection .*;import java.util.*;import java.util.regex.*;import javax.swing.*;import javax.swing.table.*;//一个Web的爬行者(注:爬行在这里的意思与抓取,捕获相同)public class SearchCrawler extends JFrame{//最大URL保存值private static final String[] MAX_URLS={"50","100","500","1000"};//缓存robot禁止爬行列表private HashMap disallowListCache=new HashMap();//搜索GUI控件private JTextField startTextField;private JComboBox maxComboBox;private JCheckBox limitCheckBox;private JTextField logTextField;private JTextField searchTextField;private JCheckBox caseCheckBox;private JButton searchButton;//搜索状态GUI控件private JLabel crawlingLabel2;private JLabel crawledLabel2;private JLabel toCrawlLabel2;private JProgressBar progressBar;private JLabel matchesLabel2;//搜索匹配项表格列表private JTable table;//标记爬行机器是否正在爬行private boolean crawling;//写日志匹配文件的引用private PrintWriter logFileWriter;//网络爬行者的构造函数public SearchCrawler(){//设置应用程序标题栏setTitle("搜索爬行者");//设置窗体大小setSize(600,600);//处理窗体关闭事件addWindowListener(new WindowAdapter(){public void windowClosing(WindowEvent e){actionExit();}});//设置文件菜单JMenuBar menuBar=new JMenuBar();JMenu fileMenu=new JMenu("文件");fileMenu.setMnemonic(KeyEvent.VK_F);JMenuItem fileExitMenuItem=new JMenuItem("退出",KeyEvent.VK_X);fileExitMenuItem.addActionListener(new ActionListener(){public void actionPerformed(ActionEvent e){actionExit();}});fileMenu.add(fileExitMenuItem);menuBar.add(fileMenu);setJMenuBar(menuBar);。

5.java写网络爬虫,如何爬取在同一个网页中,但是已经被隐藏的div(需

这种是用js实现的。所以后面的内容实际上是动态生成的,网络爬虫抓取的是静态页面。

至于解决办法,网上有几种:

一种是使用自动化测试工具去做,比如selenium,可以模拟点击等操作,但是这个其实和爬虫还是有很大区别的。

二是利用特定的类库在后端调用js,python的倒是有,但是java的我就不清楚了。

三是自己找到相关的页面的js代码,分析出来相关的请求url,直接调新的url就行了,但是一般的js都是加密压缩的,但是你可以试试。

6.如何用java实现网络爬虫抓取页面内容

下面的工具都可以实现java爬虫

JDK原生的类:HttpURLConnection

HttpURLConnection : 优点是 jdk自带, 速度较快. 缺点是方法较少, 复杂一点的功能自己实现起来往往要大量的代码.

第三方的爬虫工具:

JSOUP,HttpClient,HttpUnit

一般情况是HttpClient+ JSOUP配合完成爬取.

HttpClient 获取页面. JSOUP解析网页, 得到数据

HttpUnit:相当于无界面的浏览器,缺点是内存占用较大,速度较慢. 优点是能执行js, 功能强大

7.java制作一个网络内容爬虫

1.你需要的不是 网络爬虫。

而只是网站抓取而已。 2 . 用 JDK 的 HttpURLConnection或者apache 的 HttpClient 组件就好了。

附件也是 资源, 只要有地址, 就可以通过 HttpURLConnection con = new HttpURLConnection (url);conn.connect();InputStream is = conn.getInputStream();//这样就好了。所有链接页面的内容如何提取 . 你需要抓取到网页之后, 对网页内的连接进行分析, 然后分别请求这些页面, 抓取这些连接内容。

如何根据日期来提取,比如某个频道下,5月1号到31号的内容。网页抓取, 只能对页面进行抓取。

如果他有这个查询条件 并且有这个显示 1号 到31 号内容的页面,你才可以抓取到。

java怎么写网络爬虫

转载请注明出处育才学习网 » java怎么写网络爬虫

知识

三年级数学错题分析怎么写

阅读(338)

本文主要为您介绍三年级数学错题分析怎么写,内容包括数学错题分析怎么写,数学的错题分析怎么写要详细一点的要范文不要方法,数学错题反思日记300字够了。个人认为可以不要。至少我是不用的,数学学的也很好。但是因人而异,有些人天生喜欢整理,

知识

三年级考后反思怎么写

阅读(506)

本文主要为您介绍三年级考后反思怎么写,内容包括小学三年级学生反思如何写,三年级语文考后反思100字,三年级下册数学第一二单元考后反思怎么写。问题是你自己觉得自己哪儿做得不好。。。。你要觉得成绩不好,那就好好学习,觉得对不起长辈,平常

知识

麻料的英文怎么写

阅读(296)

本文主要为您介绍麻料的英文怎么写,内容包括麻料的英语怎么说,麻料的英语怎么说,各种材料<棉,麻等>的英文写法谢谢了,大神帮忙啊。play the pipa。词汇分析:pipa琵琶;个人信息保护评价(Personal information protection a

知识

sincerely落款怎么写

阅读(316)

本文主要为您介绍sincerely落款怎么写,内容包括英文信落款怎么写,写英文信怎样落款,私人书信的落款可以写Yourssincerely么。英文信落款在信的右下角用best regard,若是一般信件,通常在与正文隔一行,,然后写Best wishes或 Best regar

知识

ds160工作职责怎么写

阅读(270)

本文主要为您介绍ds160工作职责怎么写,内容包括DS160表格学生工作职责填写,我是大三的学生,暑假打算去美国旅,美国160表的工作职责怎么描述更好美国160表的工作职责怎么描爱,ds160表中以往工作经历如何填。ds160表中以往工作经历的填法如下

知识

drugstore直邮中国地址怎么写

阅读(219)

本文主要为您介绍drugstore直邮中国地址怎么写,内容包括如何在drugstore(或者其他需要转运的海外购物网站)上用paypal购,DRUGSTORE能直邮吗,请问在drugstore购物,可以寄到中国吗上面地址好象不能选CHINA。1) Shipping information:账单地址填

知识

dacula音标怎么写

阅读(285)

本文主要为您介绍dacula音标怎么写,内容包括oat的音标怎么写,Daewoo的音标,Ramada华美达音标。mop: [ mɔp ] n. 拖把,乱蓬蓬的头发v. 用拖把洗擦,擦,拭词形变化: 名词:mopper 动词过去式:mopped 过去

知识

rain的音标怎么写

阅读(252)

本文主要为您介绍rain的音标怎么写,内容包括rainboots的音标怎么写,音标为/rain/的英语单词是哪个,音标为/rain/的英语单词是哪个。rain的音标为[rein],其中[ei]是双元音,不是短音。以一个或几个辅音字母结尾的.中间只有一个元音的称之为闭音

知识

toofacedzip怎么写

阅读(187)

本文主要为您介绍toofacedzip怎么写,内容包括toofaced怎么了,toofaced中文是什么意思,toofaced怎么了。Too Faced在美国是具有相当知名度的彩妆品牌,成立于1998年。Too Faced不仅仅是一个名字,也是时尚的代名词,在未来的发展

知识

三八节祝福语怎么写

阅读(182)

本文主要为您介绍三八节祝福语怎么写,内容包括三八妇女节的祝福语写给妈妈怎么写,三八节祝福语改怎么写,三八妇女节祝福语。最美的妇女节祝福语给可爱的女人们 更新时间: 2011-3-6 13:10:25你的笑,比过蒙娜丽莎;你的美,颠倒红尘众生;你的气质,折

知识

三星noet5手写笔怎么用

阅读(195)

本文主要为您介绍三星noet5手写笔怎么用,内容包括三星Note5手写笔怎么用,三星Note5手写笔怎么用,三星Note5手写笔怎么用。随意书写SPen触控笔这当然是数字触控笔最基本的功能,用户可以使用S-Pen在某个段落、某行下随意做笔记,画箭头,做标记。

知识

市场需求文档怎么写

阅读(195)

本文主要为您介绍市场需求文档怎么写,内容包括怎么写项目需求文档,怎样写需求文档,怎么写需求文档。软件需求规格说明作为产品需求的最终成果必须具有综合性:必须包括所有的需求。开发者和客户不能作任何假设。如果任何所期望的功能或非功能

知识

姓luo怎么写

阅读(379)

本文主要为您介绍姓luo怎么写,内容包括百家姓的罗怎么写,中文姓罗的,英文应该怎么写不要LUO~~~,我姓罗,用英文写Luo太土了。罗姓luo短语 I administrative law我姓罗2、Alan Luo 罗志祥3、Thomas LUO 骆轶航二、双语例句他

知识

煮鸡蛋用英文怎么写

阅读(662)

本文主要为您介绍煮鸡蛋用英文怎么写,内容包括煮鸡蛋用英文怎么写,英语翻译煮鸡蛋用英语怎么说,煮蛋,英语怎么说。English translation boiled egg how to say it in EnglishEnglish trans

知识

用java怎么写脚本

阅读(239)

本文主要为您介绍用java怎么写脚本,内容包括使用java怎么写一个shell脚本,什么是java脚本,java脚本里怎么写javascript。Java脚本语言就是JavaScript JavaScript,是一种基于对象的脚本语言。网景通讯公司最初在它的Navigator 2.

知识

java怎么写游戏脚本

阅读(222)

本文主要为您介绍java怎么写游戏脚本,内容包括用java写,游戏脚本,需要学习哪方面,游戏脚本怎么写或制作,JAVA语言怎么写游戏。支持java的手机里有个虚拟机在不断运行,每次它都会搜索它的目录下是否有一种叫做Midlet的类,如果有,并且用户选择了

知识

网络生日贴怎么写

阅读(211)

本文主要为您介绍网络生日贴怎么写,内容包括在网络上怎么帮他庆祝生日,生日请帖怎么写,生日请柬怎么写。我给楼主提点建议,你看行好吗? 一.有意义的事情有很多,就要看你是否方便去做了。 如果条件允许的话,你可以去买一棵树,然后找自己最要好的

知识

java中空格怎么写

阅读(893)

本文主要为您介绍java中空格怎么写,内容包括java中的空格怎么写,java中如何输出空格,java空格怎么表示。空格可以直接输入,例如System.out.println(" ");而如果用String表示那些符号的话,空格直接就是\t就行。其他的

知识

怎么写一个java中间件

阅读(245)

本文主要为您介绍怎么写一个java中间件,内容包括java中间件是什么,想问一下,我要用JAVA做一个RFID的中间件,应该怎样着手呢,如何成为一名优秀的Java中间件架构师。中间件是一种独立的系统软件或服务程序,分布式应用软件借助这种软件在不同的

知识

javaftp获取文件路径怎么写

阅读(228)

本文主要为您介绍javaftp获取文件路径怎么写,内容包括java怎么获取ftp文件的路径,java怎么获取ftp文件的路径,java在浏览器上获取FTP读文件路径。public static void main(String[] args) {// TODO Auto-generated metho

知识

html中怎么写java代码

阅读(546)

本文主要为您介绍html中怎么写java代码,内容包括如何在HTML页面中写java代码,如何在html中编写java代码,如何在HTML页面中写java代码。Java要运行html代码,需要运行在服务器端,也就是servlet容器中,经过容器编译解析,返回html静态内容,示例如下:

知识

网络专业求职信怎么写

阅读(209)

本文主要为您介绍网络专业求职信怎么写,内容包括计算机网络专业学生的求职信怎么写,计算机系网络专业求职信,计算机网络专业学生的求职信怎么写。尊敬的贵公司领导: 您好! 非常感谢您在百忙中抽空审阅我的求职信,给予我毛遂自荐的机会。作为一

[/e:loop]