|
|
Регистрация Восстановить пароль |
Регистрация | Задать вопрос |
Заплачу за решение |
Новые сообщения |
Сообщения за день |
Расширенный поиск |
Правила |
Всё прочитано |
|
Опции темы | Поиск в этой теме |
09.01.2013, 14:35 | #1 |
Участник клуба
Регистрация: 23.07.2007
Сообщений: 1,054
|
Крик души программиста "Верстка таблицами" хорошо ли это
Неоднократно поднимался вопрос, является ли хорошим тоном верстка таблицами.
Вообще, таблицы разработаны для помещения в них контента табличного вида. Например, «Таблица тугоплавкости металлов». Однако, программисты старой закалки или новички, не смотря на все замечания, продолжают упорно использовать метод верстки сайта таблицами. Давным-давно я задался целью написать маленький поисковик фактографической информации. Фактографическая информация в большом объеме представлена как раз таки в таблицах, то есть передо мной встала задача написать индексатор табличного контента. Написал парсер таблиц, который разбивал таблицу на ячейки и складывал их в БД. Но, открыв базу, я ужаснулся. Почти 70% записей в БД содержали всякий мусор, не несущий в себе ни какого фактографического смысла. И вот тогда-то я узнал, что есть метод «Верстки таблицами». Немного повзрослев и пройдя системный анализ, я понял, что необходимо разработать алгоритм распознавания «фактографических таблиц», то есть алгоритма который бы мог ответить на вопрос «верстка это или реальная таблица с данными». Основан был этот алгоритм на многокритериальном анализе, все характеристики таблиц я наделил весовыми коэфициентами. И создал некую переменную «Барьер проходимости». Если сумма произведений значений характеристик на их весовые коэффициенты была больше барьера, то это была фактографическая таблица. Возникла задача правильно расставить коэффициенты. Для этого я использовал метод Монтекарло и проверил работоспособность алгоритма на сотнях таблиц. И каждый раз я наталкивался на все более и более хитрую верстку таблицами. Проверив в реальном действии мой индексатор, увидел, что всего 5% всех записей в базе были «шумами». Но возникла другая проблема – индексатор не все «таблицы» воспринимал. Оказалось что часто различные сервисы, где хранятся рефераты, курсовые и т.п. заменяют реальные статистические таблицы на так называемые «псевдотаблицы». То есть контент оформлен с помощью тегов <pre> и в них рамки таблиц были оформлены символами – горизонтальными и вертикальными палочками. Меня это окончательно убило…. Так как информация из них была очень необходима. Я написал еще один анализатор контента, в этот раз это было еще сложнее. Теперь «псевдотаблицы» переводились в реальные таблицы, правда не всегда верно, происходило то смещение ячеек, то склейка их. Далее снова наткнулся на проблему – в таблицах сделанных из соображений верстки содержались реальные таблицы. Сделал рекурсивную обработку. После этого оказалось, что еще и в некоторых ресурсах закрывающиеся тэги забывали расставлять (это не HTML 5.0 – тогда его еще не было) В итоге казалось бы простая задача оказалась до того сложной что у меня алгоритм притормаживал. Пришлось отказаться от использования стандартных методов работы со строками и работать со строкой как с массивом. Теперь я понимаю всю сложность работы поисковых индексаторов. Как же все-таки тяжело индексировать кривые сайты. Оправданы ли такие усилия в индексации? Не стоит ли просто такие ресурсы игнорировать? Может, начнем уже использовать тэги по их прямому назначению?
Писано по д'Эльфийски
|
09.01.2013, 14:47 | #2 |
Раздолбайских Дел
Старожил
Регистрация: 22.05.2009
Сообщений: 3,828
|
Аминь.
п.с. Обычно таблицы с реальными данными не содержат внутри других таблиц, можно было отталкиваться от этого, ну а преформатирование даже проще парсить, чем невалидный XML=)
Alar, верни репу!
|
09.01.2013, 14:55 | #3 | |
Участник клуба
Регистрация: 23.07.2007
Сообщений: 1,054
|
Цитата:
Писано по д'Эльфийски
|
|
Похожие темы | ||||
Тема | Автор | Раздел | Ответов | Последнее сообщение |
крик души!!! | Кира | Свободное общение | 8 | 07.10.2011 16:15 |
Компас 3d v8 Крик души!!! | rossijanin | Свободное общение | 7 | 25.05.2011 08:38 |
при вводе на листе "магазин"- код товара появлялось "описание" товара из "склада" с "продажной ценой" | aleksei78 | Microsoft Office Excel | 13 | 25.08.2009 12:04 |
Крик души ! | Qween | Фриланс | 17 | 21.08.2009 19:39 |