<span role="heading" aria-level="2">2021.11.2</span>

今天对中图分类号的网站进行了解析,按照层级进行遍历,为解决普通类无法调用AutoWired,采用test注解来解决。

@Test
    public void testCode() throws Exception{
        String url = "https://www.clcindex.com/category/T/";
          Stack<String> stack  = new Stack<>();
        //打开浏览器
        CloseableHttpClient httpClient = HttpClients.createDefault();
        System.out.println(url);
        //输入网址
        HttpGet httpGet = new HttpGet(url);
        //按回车,发起请求,返回响应,使用httpClient对象发起请求
        CloseableHttpResponse response = httpClient.execute(httpGet);
        //解析响应,获取数据
        if (response.getStatusLine().getStatusCode() == 200) {
            String content = EntityUtils.toString(response.getEntity(), "UTF-8");
//            System.out.println(content);
            //解析字符串
            Document document = Jsoup.parse(content);

            Elements elements = document.getElementsByAttributeValue("name", "item-row");
            if (elements != null) {
                for (Element element : elements) {
                    Elements tds = element.select("td");
//                System.out.println(tds);
                    int count = 0;
                    CLCNumber clcNumber = new CLCNumber();
                    for (Element td : tds) {
                        if (count == 1) {
                            clcNumber.setName(td.text());
                            System.out.println(td.text());
                        }
                        if (count == 2) {
                            clcNumber.setContent(td.text());
                            System.out.println("href:");
                            System.out.println(td);
                            String href = td.select("a").attr("href");
                            href = href.replace("[", "%5B");
                            href = href.replace("]", "%5D");
                            href = href.replace("{", "%7B");
                            href = href.replace("}", "%7D");
                            System.out.println(href);
                            System.out.println("https://www.clcindex.com" + href);
                            stack.push("https://www.clcindex.com" + href);
                            System.out.println(td.text());
                        }

                        count++;
                    }
                    String parent = url.replace("https://www.clcindex.com/category/", "");
                    if (parent.endsWith("/")) {
                        parent = parent.substring(0, parent.length() - 1);
                    }
                    if (url.equals("https://www.clcindex.com/category/")) {
                        String label = 1 + "";
                        clcNumber.setLabel(label);
                    } else {
                    }
                    clcNumber.setParent(parent);
//                System.out.println(element);
                }
            }
        }
    }
全部评论

相关推荐

12-19 15:04
门头沟学院 Java
小肥罗:hr爱上你了,你负责吗哈哈
点赞 评论 收藏
分享
最近群里有很多同学找我看简历,问问题,主要就是集中在明年三月份的暑期,我暑期还能进大厂嘛?我接下来该怎么做?对于我来说,我对于双非找实习的一个暴论就是title永远大于业务,你在大厂随随便便做点慢SQL治理加个索引,可能就能影响几千人,在小厂你从零到一搭建的系统可能只有几十个人在使用,量级是不一样的。对双非来说,最难的就是约面,怎么才能被大厂约面试?首先这需要一点运气,另外你也需要好的实习带给你的背书。有很多双非的同学在一些外包小厂待了四五个月,这样的产出有什么用呢?工厂的可视化大屏业务很广泛?产出无疑是重要的,但是得当你的实习公司到了一定的档次之后,比如你想走后端,那么中厂后端和大厂测开的选择,你可以选择中厂后端(注意,这里的中厂也得是一些人都知道的,比如哈啰,得物,b站之类,不是说人数超过500就叫中厂),只有这个时候你再去好好关注你的产出,要不就无脑大厂就完了。很多双非同学的误区就在这里,找到一份实习之后,就认为自己达到了阶段性的任务,根本不再投递简历,也不再提升自己,玩了几个月之后,美其名曰沉淀产出,真正的好产出能有多少呢?而实际上双非同学的第一份实习大部分都是工厂外包和政府外包!根本无产出可写😡😡😡!到了最后才发现晚了,所以对双非同学来说,不要放过任何一个从小到中,从中到大的机会,你得先有好的平台与title之后再考虑你的产出!因为那样你才将将能过了HR初筛!我认识一个双非同学,从浪潮到海康,每一段都呆不久,因为他在不断的投递和提升自己,最后去了美团,这才是双非应该做的,而我相信大部分的双非同学,在找到浪潮的那一刻就再也不会看八股,写算法,也不会打开ssob了,这才是你跟别人的差距。
迷茫的大四🐶:我也这样认为,title永远第一,只有名气大,才有人愿意了解你的简历
双非本科求职如何逆袭
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务